loading...

layehsevom

بازدید : 213
جمعه 30 خرداد 1399 زمان : 12:14

در سال های اخیر ، بسیاری از تیم های تحقیقاتی در سراسر جهان در حال تهیه و ارزیابی تکنیک هایی برای فعال کردن سبک های مختلف حرکتی در روبات های پا هستند. یکی از راه های آموزش ربات ها برای پیاده روی مانند انسان یا حیوانات ، استفاده از آنها برای نمایش و تقلید از تظاهرات در دنیای واقعی است. این رویکرد به عنوان یادگیری تقلید شناخته می شود.


محققان دانشگاه ادینبورگ در اسکاتلند اخیراً چارچوبی را برای آموزش روبات های انسان نما برای راه رفتن مانند انسان با استفاده از تظاهرات انسانی ابداع كرده اند. این چارچوب جدید ، که در مقاله ای که از قبل در ArXiv چاپ شده است ، ارائه شده است ، ترکیبی از یادگیری تقلید و تکنیک های یادگیری تقویت عمیق با تئوری های کنترل رباتیک ، به منظور دستیابی به تحرک طبیعی و پویا در روبات های انسان نما.

چوانیو گفت: "سؤال اصلی که ما برای بررسی این سوال مطرح کردیم ، چگونگی ترکیب (1) دانش مفید انسان در حرکات روبات و (2) داده های ضبط حرکت انسان برای تقلید از الگوی یادگیری تقویت عمیق برای پیشبرد قابلیت های خودمختار ربات های پا است." یانگ ، یکی از محققانی که این تحقیق را انجام داده است ، به TechXplore گفت. ما دو روش معرفی دانش قبلی انسان را در چارچوب DRL پیشنهاد دادیم. "

چارچوبی که توسط یانگ و همکارانش ابداع شده است براساس یک طرح پاداش منحصر به فرد است که از داده های زیرنویس حرکتی که از انسان ها در حال قدم زدن به عنوان مرجع آموزش استفاده می کنند ، استفاده شده است. علاوه بر این ، از دو معماری عصبی سلسله مراتبی تخصصی ، یعنی یک شبکه عصبی دارای عملکرد فاز (PFNN) و یک شبکه عصبی سازگار با حالت (MANN) استفاده می کند .


راه رفتن جهش نامتقارن توسط چهار خط مشی با پیكربندی های شبکه متفاوت هنگام آموزش بدون فنون یادگیری تقلید ایجاد می شود. PFNN تنها شبکه ای است که به دلیل ساختار دوره ای ذاتی خود قادر به دستیابی به دست آوردن متقارن شبیه انسان و بدون مراجعه به انسان است. اعتبار: یانگ و همکاران.
یانگ توضیح داد: "کلید تکرار سبک های حرکتی مانند انسان معرفی داده های پیاده روی انسان به عنوان یک تظاهرات متخصص برای تقلید از عامل یادگیری است." "طراحی پاداش جنبه مهمی از یادگیری تقویت دارد ، زیرا بر رفتار عامل حاکم است."

طرح پاداش مورد استفاده یانگ و همکارانش شامل یک اصطلاح وظیفه و یک اصطلاح تقلید است. اولین مورد از این مؤلفهها راهنمایی لازم برای دستیابی به یک ربات انسان نما را برای دستیابی به تحرک در سطح بالا ارائه می دهد ، در حالی که دومی الگوهای پیاده روی مانند انسان و طبیعی را قادر می سازد. این طرح منحصر به فرد با دیگر مفاهیم نظری کلیدی پشت دیگر رویکردهای کنترل معمولی انسانوئید هماهنگ است.



محققان چارچوب یادگیری تقلید خود را در یک سری آزمایشات انجام شده در محیط های شبیه سازی شده ارزیابی کردند. آنها دریافتند که می تواند در انواع سناریو ، حتی در صورت بروز اختلالات یا عوامل نامطلوب مانند بی نظمی های زمینی یا فشارهای بیرونی ، رفتارهای حرکتی محکم را انجام دهد.


راه رفتن پیاده روی مانند انسان متقارن ایجاد شده توسط چهار سیاست با پیکربندی شبکه های مختلف آموزش داده شده با تکنیک های یادگیری تقلید. تمام تنظیمات شبکه قادر به یادگیری یک حرکت پیاده روی شبیه به انسان است که در هنگام ارائه مدت پاداش تقلید ارائه می شود. اعتبار: یانگ و همکاران.
یانگ گفت: "با اعمال حرکات پیاده روی انسان به عنوان یک تظاهرات متخصص برای تقلید از ماده مصنوعی ، ما می توانیم یادگیری را افزایش داده و عملکرد کلی وظایف را بهبود بخشیم." "دانش تظاهرات انسانی به ما این امکان را می دهد که چارچوب یادگیری خود را به طور معناداری طراحی کنیم ، که ثابت می کند برای مهارت های حرکتی و کنترل حرکتی به طور کلی سودمند است."

یافته های جمع آوری شده توسط این تیم از محققان نشان می دهد که تظاهرات های متخصص ، در این مورد فیلم هایی که در حال قدم زدن انسان هستند ، می توانند به طور قابل توجهی تکنیک های یادگیری تقویت عمیق را برای آموزش روبات ها در سبک های مختلف حرکتی تقویت کنند. درنهایت ، چارچوب جدیدی که آنها پیشنهاد کردند ، می تواند برای آموزش روبات های انسان نما به منظور قدم زدن در روشی مشابه با انسان سریعتر و کارآمدتر و در عین حال دستیابی به رفتارهای طبیعی و انسانی تر نیز مورد استفاده قرار گیرد .

راه رفتن متقارن طبیعی و انسانی مانند تقلید: تظاهرات انسانی سیاست AI را تضمین می کند که خیلی از حرکات پیشنهادی منحرف نشود. اعتبار: یانگ و همکاران
تاکنون ، یانگ و همکارانش تنها چارچوب خود را در شبیه سازی ها ارزیابی کرده اند ، بنابراین آنها اکنون قصد دارند روش های انتقال آن از محیط های شبیه سازی شده به محیط واقعی را بررسی کنند. آنها سرانجام می خواهند آن را بر روی یک روبات انسان نما واقعی پیاده سازی کنند ، تا بیشتر ارزیابی کنندگی و کارایی آن را انجام دهند.

"در کار های آینده ما، ما همچنین برنامه ریزی برای گسترش چارچوب یادگیری به تقلید مجموعه ای متنوع تر و پیچیده از حرکات انسان، مانند کلی مهارت های حرکتی در سراسر نقل و یانگ گفت، دستکاری و بتواند،". "ما همچنین قصد داریم به منظور انتقال سریع سیاست های آموخته شده با روبات های واقعی ، تحقیقاتی را در زمینه انتقال سیاست شبیه سازی به واقعیت انجام دهیم."

در سال های اخیر ، بسیاری از تیم های تحقیقاتی در سراسر جهان در حال تهیه و ارزیابی تکنیک هایی برای فعال کردن سبک های مختلف حرکتی در روبات های پا هستند. یکی از راه های آموزش ربات ها برای پیاده روی مانند انسان یا حیوانات ، استفاده از آنها برای نمایش و تقلید از تظاهرات در دنیای واقعی است. این رویکرد به عنوان یادگیری تقلید شناخته می شود.


محققان دانشگاه ادینبورگ در اسکاتلند اخیراً چارچوبی را برای آموزش روبات های انسان نما برای راه رفتن مانند انسان با استفاده از تظاهرات انسانی ابداع كرده اند. این چارچوب جدید ، که در مقاله ای که از قبل در ArXiv چاپ شده است ، ارائه شده است ، ترکیبی از یادگیری تقلید و تکنیک های یادگیری تقویت عمیق با تئوری های کنترل رباتیک ، به منظور دستیابی به تحرک طبیعی و پویا در روبات های انسان نما.

چوانیو گفت: "سؤال اصلی که ما برای بررسی این سوال مطرح کردیم ، چگونگی ترکیب (1) دانش مفید انسان در حرکات روبات و (2) داده های ضبط حرکت انسان برای تقلید از الگوی یادگیری تقویت عمیق برای پیشبرد قابلیت های خودمختار ربات های پا است." یانگ ، یکی از محققانی که این تحقیق را انجام داده است ، به TechXplore گفت. ما دو روش معرفی دانش قبلی انسان را در چارچوب DRL پیشنهاد دادیم. "

چارچوبی که توسط یانگ و همکارانش ابداع شده است براساس یک طرح پاداش منحصر به فرد است که از داده های زیرنویس حرکتی که از انسان ها در حال قدم زدن به عنوان مرجع آموزش استفاده می کنند ، استفاده شده است. علاوه بر این ، از دو معماری عصبی سلسله مراتبی تخصصی ، یعنی یک شبکه عصبی دارای عملکرد فاز (PFNN) و یک شبکه عصبی سازگار با حالت (MANN) استفاده می کند .


راه رفتن جهش نامتقارن توسط چهار خط مشی با پیكربندی های شبکه متفاوت هنگام آموزش بدون فنون یادگیری تقلید ایجاد می شود. PFNN تنها شبکه ای است که به دلیل ساختار دوره ای ذاتی خود قادر به دستیابی به دست آوردن متقارن شبیه انسان و بدون مراجعه به انسان است. اعتبار: یانگ و همکاران.
یانگ توضیح داد: "کلید تکرار سبک های حرکتی مانند انسان معرفی داده های پیاده روی انسان به عنوان یک تظاهرات متخصص برای تقلید از عامل یادگیری است." "طراحی پاداش جنبه مهمی از یادگیری تقویت دارد ، زیرا بر رفتار عامل حاکم است."

طرح پاداش مورد استفاده یانگ و همکارانش شامل یک اصطلاح وظیفه و یک اصطلاح تقلید است. اولین مورد از این مؤلفهها راهنمایی لازم برای دستیابی به یک ربات انسان نما را برای دستیابی به تحرک در سطح بالا ارائه می دهد ، در حالی که دومی الگوهای پیاده روی مانند انسان و طبیعی را قادر می سازد. این طرح منحصر به فرد با دیگر مفاهیم نظری کلیدی پشت دیگر رویکردهای کنترل معمولی انسانوئید هماهنگ است.



محققان چارچوب یادگیری تقلید خود را در یک سری آزمایشات انجام شده در محیط های شبیه سازی شده ارزیابی کردند. آنها دریافتند که می تواند در انواع سناریو ، حتی در صورت بروز اختلالات یا عوامل نامطلوب مانند بی نظمی های زمینی یا فشارهای بیرونی ، رفتارهای حرکتی محکم را انجام دهد.


راه رفتن پیاده روی مانند انسان متقارن ایجاد شده توسط چهار سیاست با پیکربندی شبکه های مختلف آموزش داده شده با تکنیک های یادگیری تقلید. تمام تنظیمات شبکه قادر به یادگیری یک حرکت پیاده روی شبیه به انسان است که در هنگام ارائه مدت پاداش تقلید ارائه می شود. اعتبار: یانگ و همکاران.
یانگ گفت: "با اعمال حرکات پیاده روی انسان به عنوان یک تظاهرات متخصص برای تقلید از ماده مصنوعی ، ما می توانیم یادگیری را افزایش داده و عملکرد کلی وظایف را بهبود بخشیم." "دانش تظاهرات انسانی به ما این امکان را می دهد که چارچوب یادگیری خود را به طور معناداری طراحی کنیم ، که ثابت می کند برای مهارت های حرکتی و کنترل حرکتی به طور کلی سودمند است."

یافته های جمع آوری شده توسط این تیم از محققان نشان می دهد که تظاهرات های متخصص ، در این مورد فیلم هایی که در حال قدم زدن انسان هستند ، می توانند به طور قابل توجهی تکنیک های یادگیری تقویت عمیق را برای آموزش روبات ها در سبک های مختلف حرکتی تقویت کنند. درنهایت ، چارچوب جدیدی که آنها پیشنهاد کردند ، می تواند برای آموزش روبات های انسان نما به منظور قدم زدن در روشی مشابه با انسان سریعتر و کارآمدتر و در عین حال دستیابی به رفتارهای طبیعی و انسانی تر نیز مورد استفاده قرار گیرد .

راه رفتن متقارن طبیعی و انسانی مانند تقلید: تظاهرات انسانی سیاست AI را تضمین می کند که خیلی از حرکات پیشنهادی منحرف نشود. اعتبار: یانگ و همکاران
تاکنون ، یانگ و همکارانش تنها چارچوب خود را در شبیه سازی ها ارزیابی کرده اند ، بنابراین آنها اکنون قصد دارند روش های انتقال آن از محیط های شبیه سازی شده به محیط واقعی را بررسی کنند. آنها سرانجام می خواهند آن را بر روی یک روبات انسان نما واقعی پیاده سازی کنند ، تا بیشتر ارزیابی کنندگی و کارایی آن را انجام دهند.

"در کار های آینده ما، ما همچنین برنامه ریزی برای گسترش چارچوب یادگیری به تقلید مجموعه ای متنوع تر و پیچیده از حرکات انسان، مانند کلی مهارت های حرکتی در سراسر نقل و یانگ گفت، دستکاری و بتواند،". "ما همچنین قصد داریم به منظور انتقال سریع سیاست های آموخته شده با روبات های واقعی ، تحقیقاتی را در زمینه انتقال سیاست شبیه سازی به واقعیت انجام دهیم."

نظرات این مطلب

تعداد صفحات : 0

درباره ما
موضوعات
آمار سایت
  • کل مطالب : 104
  • کل نظرات : 0
  • افراد آنلاین : 1
  • تعداد اعضا : 32
  • بازدید امروز : 27
  • بازدید کننده امروز : 1
  • باردید دیروز : 50
  • بازدید کننده دیروز : 0
  • گوگل امروز : 0
  • گوگل دیروز : 0
  • بازدید هفته : 331
  • بازدید ماه : 331
  • بازدید سال : 5365
  • بازدید کلی : 30428
  • <
    پیوندهای روزانه
    آرشیو
    اطلاعات کاربری
    نام کاربری :
    رمز عبور :
  • فراموشی رمز عبور؟
  • خبر نامه


    معرفی وبلاگ به یک دوست


    ایمیل شما :

    ایمیل دوست شما :



    کدهای اختصاصی