كه بيشترين مقدار را ارائه مي دهد [8]. اين تعريف همزمان با عملكرد پاداش است ، و اين است كه همه الگوريتم ها RL آن را دارد ، اما همه از آموزش رباتيك مبتدي آن به طور يكسان استفاده نمي كنند. اين روش به ويژه هنگامي كه فضاي حالت و حالت حالت داريد خوب كار مي كند.
اعمال محدود اگرچه ، يكي از معايب اصلي آن اين است كه مي تواند توليد كند نوسانات بزرگ در حين تمرين اين معمولاً به دليل اتفاق مي افتد 12 فصل 2. وضعيت هنر كه انتخاب هر اقدامي مي تواند به ميزان چشمگيري تغيير كند
تغيير دلخواه در مقادير برآورد شده توسط تابع مقدار [10].
شكل 2.2: تعريف كلي تابع مقدار [10] 2. رويكرد مبتني بر سياست. اين سياست رفتار نماينده را در هر ايالت تعريف مي كند ، يعني اين چيزي است كه تعيين مي كند آموزش رباتيك مبتدي در چه اقدامي انجام شود هر لحظه بسته به وضعيت فعلي در اين حالت سياست (ها) π بهينه مي شود
مستقيماً ، بدون نگراني در مورد تابع مقدار. اگرچه ، در برخي موارد ، بله يك تابع مقدار براي بهينه سازي پارامترهاي خط مشي استفاده مي شود ، امااز آن براي انتخاب عملي كه بايد توسط عامل انجام شود [10] استفاده نمي شود. روشهاي مبتني بر سياست به نوبه خود به دو گروه تقسيم مي شوند: از يك سو ما سياستهاي قطعي داريم ، كه براي يك حالت هميشه عملكرد يكساني را برمي گردانند و معمولاً در محيط هاي قطعي مورد آموزش رباتيك مبتدي استفاده قرار مي گيرند.
و از سوي ديگر ما سياستهاي تصادفي داريم كه نتيجه آن توزيع احتمالي مجموعه اقدامات ممكن براي هر ايالت است و معمولاً زماني استفاده مي شود كه عامل در يك محيط ناآشنا باشد [يازده] پيچيدگي اصلي اين روش در يافتن ملكردي است كه ارزيابي مي كند به درستي چقدر از سياست استفاده مي شود 3. رويكرد مبتني بر مدل ، كه در آن محيط يك مدل است كه ما مي توانيم اصلاح كنيم نقطه ضعف اين مورد متفاوت است
نمايش مدل براي هر محيط ما بيشتر در اين مورد وارد نمي شويم تقريبي از آنجا كه در اين پروژه ما با هيچ الگوريتمي از اين كار نمي كنيم نوع ، علاوه بر پيچيده تر براي درك. 2.5 يادگيري تقويت عميق 13 2.5 يادگيري تقويت عميق RL معمولي در محيط هايي كه فضاي حالت و مجموعه اقدامات احتمالي بسيار آموزش رباتيك مبتدي بزرگ است. اين به اين دليل است كه نماينده بايد انجام دهد
يك اسكن طولاني تا زماني كه دانش كافي براي به دست آوردن نتيجه معقول را نداشته باشيد. به عنوان مثال ، در بازي شطرنج ، فضاي حالت محدود به تعداد مربع هاي روي تخته و قطعات هر بازيكن ، كه بسيار مقرون به صرفه است. با اين حال ، اكنون اجازه ايرانيان سايبر دهيد وظيفه اين پروژه ، يك محيط سه بعدي را بررسي كنيم
جايي كه فضاي حالت با تمام پيكربندي هاي ممكن تعريف مي شود كه a بازوي رباتيك مي تواند به علاوه تمام موقعيت هاي ممكن هدف برسد. آموزش رباتيك مبتدي بديهي است كه در حالت دوم تعداد حالات و اقدامات به ميزان قابل توجهي است
بالاتر به عنوان راه حلي براي اين مشكل يادگيري تقويت عميق به نظر مي رسد (عميق يادگيري تقويتي) ، جايي كه شبكه هاي عصبي عميق lشبكه ها) براي رفع محدوديت هاي يادگيري تقويتي. در اين مورد، براي آموزش رباتيك مبتدي هر اقدام ممكن در حالت فعلي ، شبكه عصبي مسئول بازگشت است
تقريب پاداش تجمعي مورد انتظار مربوطهو در طول آموزش ، شبكه بايد ضرايبي را پيدا كند كه بيشترين عملكرد را با آن تقريب مي زند ورودي را به خروجي سيستم از طريق تعديل تكراري مرتبط مي كند [12]. در آغاز يادگيري تقويتي ، ضرايب شبكه عصبي به صورت تصادفي يا تصادفي آغاز مي شود. با استفاده از بازخورد از محيط ، شبكهنورون مي تواند از تفاوت بين پاداش مورد انتظار خود و پاداش استفاده كند
براي تنظيم وزنه ها و بهبود تفسير شما از چند حالته ، حقيقت اساسي است. آموزش رباتيك مبتدي اين حلقه بازخورد مشابه فرآيند انتشار مجدد در است يادگيري تحت نظارت. در حالي كه بايد توجه داشت كه پاداش بازگشت محيط ممكن است متغيرهاي ناشناخته متغير ، تأخير يا تحت تأثير قرار گيرد كه مي تواند نويز را به حلقه بازخورد وارد كند