آموزش روبات های انسان نما رفتارهای حرکتی مختلف را با استفاده از تظاهرات انسانی انجام می دهد

layehsevom 
  بازدید : 438
جمعه 30 خرداد 1399 زمان : 12:17 


1
2
3
4
5

در سال های اخیر ، بسیاری از تیم های تحقیقاتی در سراسر جهان در حال تهیه و ارزیابی تکنیک هایی برای فعال کردن سبک های مختلف حرکتی در روبات های پا هستند. یکی از راه های آموزش ربات ها برای پیاده روی مانند انسان یا حیوانات ، استفاده از آنها برای تجزیه و تحلیل و تقلید تظاهرات در دنیای واقعی است. این رویکرد به عنوان یادگیری تقلید شناخته می شود.

محققان دانشگاه ادینبورگ در اسکاتلند اخیراً چارچوبی را برای آموزش روبات های انسان نما برای راه رفتن مانند انسان با استفاده از تظاهرات انسانی ابداع كرده اند. این چارچوب جدید ، که در مقاله ای که از قبل در ArXiv چاپ شده است ، ارائه شده است ، ترکیبی از یادگیری تقلید و تکنیک های یادگیری تقویت عمیق با تئوری های کنترل رباتیک ، به منظور دستیابی به تحرک طبیعی و پویا در روبات های انسان نما.

چوانیو گفت: "سؤال اصلی که ما برای بررسی این کار مطرح کردیم ، چگونگی ترکیب (1) دانش مفید انسان در حرکت ربات و (2) داده های ضبط حرکت انسان برای تقلید از الگوی یادگیری تقویت عمیق برای پیشبرد قابلیت های خودمختار روبات های پا است." یانگ ، یکی از محققانی که این تحقیق را انجام داده است ، به TechXplore گفت. ما دو روش معرفی دانش قبلی انسان را در چارچوب DRL پیشنهاد دادیم. "

چارچوبی که توسط یانگ و همکارانش ابداع شده است براساس یک طرح پاداش منحصر به فرد است که از داده های زیرنویس حرکتی که از انسان ها در حال قدم زدن به عنوان مرجع آموزش استفاده می کنند ، استفاده شده است. علاوه بر این ، از دو معماری عصبی سلسله مراتبی تخصصی ، یعنی یک شبکه عصبی دارای عملکرد فاز (PFNN) و یک شبکه عصبی سازگار با حالت (MANN) استفاده می کند .

راه رفتن جهش نامتقارن توسط چهار خط مشی با پیكربندی های شبکه متفاوت هنگام آموزش بدون فنون یادگیری تقلید ایجاد می شود. PFNN تنها شبکه ای است که به دلیل ساختار دوره ای ذاتی خود قادر به دستیابی به دست آوردن متقارن شبیه انسان و بدون مراجعه به انسان است. اعتبار: یانگ و همکاران.
یانگ توضیح داد: "کلید تکرار سبک های حرکتی مانند انسان معرفی داده های پیاده روی انسان به عنوان یک تظاهرات متخصص برای تقلید از عامل یادگیری است." "طراحی پاداش جنبه مهمی از یادگیری تقویت دارد ، زیرا بر رفتار عامل حاکم است."

طرح پاداش مورد استفاده یانگ و همکارانش شامل یک اصطلاح وظیفه و یک اصطلاح تقلید است. اولین مورد از این مؤلفهها راهنمایی لازم برای دستیابی به یک ربات انسان نما را برای دستیابی به تحرک در سطح بالا ارائه می دهد ، در حالی که دومی الگوهای پیاده روی مانند انسان و طبیعی را امکان پذیر می کند. این طرح منحصر به فرد با دیگر مفاهیم نظری کلیدی پشت دیگر رویکردهای کنترل انسان دوستانه معمولی هماهنگ است.

محققان چارچوب یادگیری تقلید خود را در یک سری آزمایشات انجام شده در محیط های شبیه سازی شده ارزیابی کردند. آنها دریافتند که می تواند در انواع سناریو ، حتی در صورت بروز اختلالات یا عوامل نامطلوب مانند بی نظمی های زمینی یا فشارهای بیرونی ، رفتارهای حرکتی محکم را انجام دهد.

راه رفتن پیاده روی مانند انسان متقارن ایجاد شده توسط چهار سیاست با پیکربندی شبکه های مختلف آموزش داده شده با تکنیک های یادگیری تقلید. تمام تنظیمات شبکه قادر به یادگیری یک حرکت پیاده روی شبیه به انسان است که در هنگام ارائه مدت پاداش تقلید ارائه می شود. اعتبار: یانگ و همکاران.
یانگ گفت: "با اعمال حرکات پیاده روی انسان به عنوان یک تظاهرات متخصص برای تقلید از ماده مصنوعی ، ما می توانیم یادگیری را افزایش داده و عملکرد کلی وظایف را بهبود بخشیم." "دانش تظاهرات انسانی به ما این امکان را می دهد که چارچوب یادگیری خود را به طور معناداری طراحی کنیم ، که ثابت می کند برای مهارت های حرکتی و کنترل حرکتی به طور کلی سودمند است."

یافته های جمع آوری شده توسط این تیم از محققان نشان می دهد که تظاهرات های متخصص ، در این مورد فیلم هایی که در حال قدم زدن انسان هستند ، می توانند به طور قابل توجهی تکنیک های یادگیری تقویت عمیق را برای آموزش روبات ها در سبک های مختلف حرکتی تقویت کنند. درنهایت ، چارچوب جدیدی که آنها پیشنهاد کردند ، می تواند برای آموزش روبات های انسان نما به منظور قدم زدن در روشی مشابه با انسان سریعتر و کارآمدتر و در عین حال دستیابی به رفتارهای طبیعی و انسانی تر نیز مورد استفاده قرار گیرد .

نام کاربری :
رمز عبور :
تکرار رمز عبور :
ایمیل :
نام و نام خانوادگی :
کد امنیتی :