کمک انویدیا به سگهای رباتیک برای حفظ تعادل حتی روی توپ بادی
شرکت انویدیا با ابزاری موسوم به «یوریکا»(Eureka) به سگهای رباتیک کمک میکند تا تعادل خود را حتی روی یک توپ یوگا به خوبی حفظ کنند.
پژوهشگران از پلتفرم یوریکا ساخته شرکت انویدیا که یک الگوریتم آموزش رباتهاست، برای آموزش یک ربات چهارپا به منظور حفظ تعادل و راه رفتن روی یک توپ یوگا استفاده کردهاند.
یوریکا در واقع یک مدل زبان بزرگ(LLM) است که در ایجاد کد برای آموزش مهارتها به رباتها و شبیهسازی و توسعه راهحلهایی به آنها که بر چالشهای مختلف غلبه کنند، متخصص است.
محققان ادعا میکنند که این سیستم به طور یکپارچه عمل میکند و کل فرآیند را از کسب مهارت اولیه تا پیادهسازی در دنیای واقعی به صورت خودکار اجرایی میکند و یک انتقال آرام از محیطهای مجازی به استقرار عملی را تضمین میکند.
این تیم از این پلتفرم برای آموزش سگ رباتیک در وظایف شبیهسازی استفاده کرد و سپس آن را به شرایط کاری واقعی منتقل کرد. سپس مشاهده شد که این ربات در اولین تلاش خود موفق به انجام این کار شد و نیازی به تنظیمات بیشتر نبود.
خودکارسازی رباتیک
محققان تاکید میکنند که استفاده از موفقیتهای بهدستآمده در شبیهسازی برای برنامههای کاربردی در دنیای واقعی، نوید قابلتوجهی را در افزایش سطح کسب مهارت رباتها میدهد.
با این وجود، این روشها اغلب به پیکربندی دستی و تنظیم توابع پاداش وظیفه و پارامترهای فیزیک شبیهسازی نیاز دارند که منجر به پیشرفت آهسته میشود و به تلاش قابل توجه انسانی نیاز دارد.
جیم فن، مدیر ارشد تحقیقات و سرپرست هوش مصنوعی در انویدیا میگوید: به طور سنتی، انتقال به واقعیت با تصادفیسازی دامنه به دست میآید که فرآیندی خستهکننده است که نیازمند نیروهای انسانی متخصص است تا بر هر پارامتر دقیق شوند و به صورت دستی آن را تنظیم کنند.
یوریکا با در نظر گرفتن دستورالعملهای کار و ایمنی، همراه با کد منبع محیط کار میکند. سپس یک تابع پاداش و خط مشی استاندارد شده تولید میکند. سپس اینها در شرایط مختلف شبیهسازی آزمایش میشوند.
سرانجام توسط مدل زبان بزرگ برای تولید طیفی از پارامترهای تصادفیسازی دامنه(DR) استفاده میشود و با استفاده از پارامترهای پاداش و DR ترکیب شده، وظایف آماده برای استقرار در دنیای واقعی را آموزش میدهد.
مدلهای زبان بزرگ پیشرفته مانند GPT-4 مجهز به درک داخلی گستردهای از مفاهیم فیزیکی مانند اصطکاک، تعادل، سختی، گرانش و غیره هستند.
فن میگوید: ما خیلی متعجب شدیم که متوجه شدیم یوریکا میتواند این پارامترها را به خوبی تنظیم کند و استدلال خود را به خوبی توضیح دهد.
سازگاری با دنیای واقعی
این تیم با ارزیابی حرکت سگ رباتیک، آموزشهای یوریکا را در زمینههای مختلف در دنیای واقعی آزمایش کرد.
نتایج، استحکام و عملکرد برتر آن را در مقایسه با سیاستهای آموزش با پاداش و تنظیمات تصادفی طراحی شده نشان داد.
محققان میگویند: عملکرد یوریکا استحکام چشمگیری را در دنیای واقعی نشان میدهد و تعادل ماهرانه و راه رفتن روی یک توپ یوگا را در حال حرکت و آشفتگیهای مختلف و کنترل نشده شرایط زمین در دنیای واقعی میسر میکند.
علاوه بر این، بهبود زیربرنامه طراحی پاداش یوریکا با ادغام دستورالعملهای ایمنی از قابلیتهای پیشین پیشی میگیرد که محققان اهمیت آن را در ایجاد توابع پاداش کافی برای استقرار در دنیای واقعی به صورت ایمن میدانند.
این یافتههای کلیدی اهمیت استفاده از یوریکا را برای ایجاد سیستم آگاه از پاداش و به موفقیت رسیدن نشان میدهد. علاوه بر این، استفاده از مدل زبان بزرگ برای نمونهبرداری از پارامترهای تصادفیسازی دامنه به منظور بهینهسازی عملکرد در دنیای واقعی حیاتی است.
پژوهشگران با نگاهی به آینده میگویند راههای زیادی برای تقویت بیشتر یوریکا وجود دارد. به عنوان مثال در حال حاضر، سیاستهای یوریکا صرفاً در شبیهسازی آموزش خلاصه میشود، اما استفاده از بازخوردها در دنیای واقعی میتواند به مدلهای زبان بزرگ کمک کند تا روشهای بهینهتری را در نسخههای بعدی بگنجانند.
علاوه بر این، تمام وظایف و سیاستها در این مطالعه تنها به ورودیهای حسی داخلی ربات متکی است و یکپارچهسازی بینایی یا سایر حسگرها میتواند عملکرد خطمشی و حلقه بازخورد مدل زبان بزرگ را افزایش دهد.
جزئیات این مطالعه توسط تیم محققان دانشگاه پنسیلوانیا، دانشگاه تگزاس در آستین و پژوهشگران شرکت انویدیا در پایگاه GitHub منتشر شده است.