EITC/AI/ARL Advanced Reinforcement Learning သည် DeepMind ၏ ဉာဏ်ရည်တုတွင် အားဖြည့်သင်ကြားမှုဆိုင်ရာ ချဉ်းကပ်မှုဆိုင်ရာ ဥရောပ IT အသိအမှတ်ပြု ပရိုဂရမ်ဖြစ်သည်။
EITC/AI/ARL Advanced Reinforcement Learning ၏ သင်ရိုးညွှန်းတမ်းသည် ဤ EITC အသိအမှတ်ပြုလက်မှတ်အတွက် ကိုးကားချက်အဖြစ် ပြည့်စုံသော ဗီဒီယိုအား ကိုးကားချက်အဖြစ် DeepMind ၏ အသိအမှတ်ပြုမှုဖြင့် စုစည်းထားသည့် သင်ကြားရေးနည်းစနစ်များတွင် သီအိုရီဆိုင်ရာ ရှုထောင့်များနှင့် လက်တွေ့ကျသောစွမ်းရည်များကို အာရုံစိုက်ထားသည်။
Reinforcement Learning (RL) ဆိုသည်မှာစက်သင်ယူခြင်း၏areaရိယာတစ်ခုဖြစ်သည်။ အသိဥာဏ်ရှိသူသည်စုပေါင်းရရှိသောအကျိုးကျေးဇူးကိုတိုးမြှင့်နိုင်ရန်အတွက်ပတ်ဝန်းကျင်တစ်ခုတွင်မည်သို့လုပ်ဆောင်သင့်သည်နှင့် ပတ်သက်၍ သက်ဆိုင်သည့်စက်သင်ကြားမှုနယ်ပယ်တစ်ခုဖြစ်သည်။ အားဖြည့်ခြင်းသင်ကြားမှုသည်အခြေခံစက်ကိရိယာသင်ကြားမှုပုံစံ ၃ ခုအနက်မှတစ်ခုဖြစ်သည်။
အားဖြည့်ခြင်းသင်ကြားမှုသည်ကြီးကြပ်လေ့လာမှုနှင့်ကွာခြားသည်။ တံဆိပ်ကပ်ထားသော input/output အတွဲများကိုတင်ပြရန်မလိုအပ်ပါ။ ၎င်းအစား (မသိရသောနယ်မြေ၏) ရှာဖွေတူးဖော်ခြင်းနှင့် (လက်ရှိဗဟုသုတရှိခြင်း) အကြားမျှတမှုကိုရှာဖွေရန်ဖြစ်သည်။
ပတ် ၀ န်းကျင်ကိုပုံမှန်အားဖြင့် Markov ၏ဆုံးဖြတ်ချက်ဖြစ်စဉ် (MDP) ပုံစံတွင်ဖော်ပြထားသည်၊ အကြောင်းမှာဤအခြေအနေတွင်အားဖြည့်သင်ကြားရေးဆိုင်ရာ algorithms အများအပြားသည် dynamic programming နည်းပညာများအသုံးပြုသောကြောင့်ဖြစ်သည်။ အဓိကဂန္တ ၀ င်ပြောင်းလဲမှုဆိုင်ရာပရိုဂရမ်းမင်းနည်းလမ်းများနှင့်အားဖြည့်သင်ကြားခြင်းဆိုင်ရာ algorithms များအကြားအဓိကကွာခြားချက်မှာ MDP ၏သင်္ချာပုံစံအတိအကျကိုမသိသောကြောင့်ကြီးမားသော MDPs များအားပစ်မှတ်ထား။ မရနိုင်သောနေရာများသို့ပစ်မှတ်ထားခြင်းဖြစ်သည်။
ယေဘူယျအားဖြင့်အားဖြည့်သင်ကြားမှုကိုဂိမ်းသီအိုရီ၊ ထိန်းချုပ်မှုသီအိုရီ၊ စစ်ဆင်ရေးသုတေသန၊ သတင်းအချက်အလက်သီအိုရီ၊ ပုံရိပ်အခြေပြု optimization၊ multi-agent စနစ်များ၊ စစ်ဆင်ရေးသုတေသနနှင့်ထိန်းချုပ်ရေးစာပေများတွင်အားဖြည့်သင်ယူမှုကိုအနီးစပ်ဆုံးပြောင်းလဲသောပရိုဂရမ်းမင်းဟုခေါ်သည်။ အားဖြည့်သင်ကြားရေးကိုစိတ် ၀ င်စားခြင်းပြproblemsနာများအားအကောင်းဆုံးထိန်းချုပ်မှုသီအိုရီတွင်လေ့လာခဲ့ပြီး၊ အဓိကအားဖြင့်အကောင်းဆုံးဖြေရှင်းနည်းများ၏တည်ရှိမှုနှင့်စရိုက်လက္ခဏာတွေ၊ သူတို့ရဲ့အတိအကျတွက်ချက်မှုအတွက် algorithms များ၊ အထူးသဖြင့်မရှိခြင်း၊ ပတ်ဝန်းကျင်တစ်သင်္ချာမော်ဒယ်။ ဘောဂဗေဒနှင့်ဂိမ်းသီအိုရီတွင်အကန့်အသတ်ဖြင့်သာတူညီမျှမှုအောက်တွင်မည်သို့သောဟန်ချက်ညီညီဖြစ်ပေါ်လာနိုင်သည်ကိုရှင်းပြရန်အားဖြည့်ခြင်းသင်ကြားမှုကိုအသုံးပြုနိုင်သည်။
အခြေခံအားဖြည့်မှုကို Markov ဆုံးဖြတ်ချက်လုပ်ငန်းစဉ် (MDP) အဖြစ်ပုံစံလုပ်သည်။ သင်္ချာမှာတော့ Markov ဆုံးဖြတ်ချက်လုပ်ငန်းစဉ် (MDP) သည် discrete-time stochastic control process ဖြစ်သည်။ ရလဒ်များသည်တစ်စိတ်တစ်ပိုင်းကျပန်းနှင့်ဆုံးဖြတ်ချက်ချမှတ်သူတစ် ဦး ၏ထိန်းချုပ်မှုအောက်တွင်ရှိသောအခြေအနေများတွင်ဆုံးဖြတ်ချက်ချခြင်းကိုမော်ဒယ်လ်အတွက်သင်္ချာမူဘောင်တစ်ခုပေးသည်။ dynamic ပရိုဂရမ်မှတဆင့်ဖြေရှင်း optimization ပြsolနာများကိုလေ့လာရာတွင် MDP များသည်အသုံးဝင်သည်။ MDP များကိုအနည်းဆုံး ၁၉၅၀ ပြည့်လွန်နှစ်များကတည်းကသိရှိခဲ့သည် Markov ၏ဆုံးဖြတ်ချက်ဖြစ်စဉ်များနှင့် ပတ်သက်၍ အဓိကသုတေသနပြုချက်မှာ Ronald Howard ၏ ၁၉၆၀ စာအုပ်၊ Dynamic Programming နှင့် Markov Processes တို့၏ရလဒ်ဖြစ်သည်။ သူတို့ကိုစက်ရုပ်၊ အလိုအလျှောက်ထိန်းချုပ်မှု၊ MDPs များကိုရုရှားသင်္ချာပညာရှင်အင်ဒရူးမာကော့ဗ်မှ Markov ကွင်းဆက်များတိုးချဲ့ခြင်းကြောင့်လာသည်။
အချိန်ကာလတစ်ခုချင်းစီတွင်လုပ်ငန်းစဉ်သည်အချို့သောပြည်နယ် S တွင်ရှိသည်။ ဆုံးဖြတ်ချက်ချသူသည်ပြည်နယ်အက် (စ) တွင်ရရှိနိုင်သောမည်သည့်လုပ်ဆောင်မှုကိုမဆိုရွေးချယ်နိုင်သည်။ လုပ်ငန်းစဉ်သည်လာမည့်အချိန်အဆင့်တွင်ကျပန်းပြည်နယ်အသစ်သို့ကျပန်းပြောင်းရွေ့ခြင်း၊ ဆုံးဖြတ်ချက်ချသူတစ် ဦး သက်ဆိုင်ရာဆုလာဘ် Ra (S, S ') ။
ဖြစ်စဉ်ကို၎င်း၏အသစ်သောပြည်နယ် S ကိုသို့လှည့်သောဖြစ်နိုင်ခြေကိုရွေးချယ်အရေးယူ a ကလွှမ်းမိုးနေသည်။ အထူးသဖြင့်၎င်းကိုပြည်နယ်အကူးအပြောင်း function (S, S ') မှပေးသည်။ ထို့ကြောင့်လာမည့်ပြည်နယ် S သည်လက်ရှိ S နှင့်ဆုံးဖြတ်ချက်ချမှတ်သူများ၏လုပ်ဆောင်ချက်အပေါ်မူတည်သည်။ သို့သော် S နှင့် a ကိုကြည့်လျှင်၎င်းသည်ယခင်ပြည်နယ်များနှင့်လုပ်ရပ်များအားလုံးနှင့်သက်ဆိုင်သည်။ တစ်နည်းပြောရလျှင် MDP ၏ပြည်နယ်အသွင်ကူးပြောင်းမှုသည် Markov ၏ပိုင်ဆိုင်မှုကိုကျေနပ်စေသည်။
Markov ဆုံးဖြတ်ချက်များသည် Markov ချည်နှောင်ခြင်းကိုတိုးချဲ့သည်။ ခြားနားချက်မှာလုပ်ပိုင်ခွင့်များ (ရွေးချယ်ခွင့်ပြုခြင်း) နှင့် (လှုံ့ဆျောမှုပေးခြင်း) ဆုများထပ်ပေါင်းခြင်းဖြစ်သည်။ အပြန်အလှန်အားဖြင့်ပြည်နယ်တစ်ခုစီအတွက်လုပ်ဆောင်ချက်တစ်ခုသာရှိသည် (ဥပမာ -“ စောင့်ပါ”) နှင့်ရလဒ်အားလုံးသည်တူညီကြသည် (ဥပမာ“ သုည”) ဖြစ်ပါက Markov ဆုံးဖြတ်ချက်သည် Markov ကွင်းဆက်သို့ကျဆင်းသွားသည်။
အားဖြည့်သင်ကြားရေးကိုယ်စားလှယ်သည်ပတ်ဝန်းကျင်နှင့်အပြန်အလှန်အကျိုးသက်ရောက်မှုရှိသည်။ တစ်ခုချင်းစီကိုအချိန် t မှာအေးဂျင့်လက်ရှိပြည်နယ် S (t) ကိုလက်ခံရရှိခြင်းနှင့် r (t) ဆုခခြံ။ ထို့နောက်၎င်းသည်ပတ် ၀ န်းကျင်သို့ပေးပို့သည့်ရရှိနိုင်သည့်လုပ်ရပ်များမှလုပ်ဆောင်ချက် (က) ကိုရွေးချယ်သည်။ ပတ် ၀ န်းကျင်အသစ်သည်ပြည်နယ် S (t + 1) သို့ရွေ့ပြောင်းသွားပြီးအကူးအပြောင်းနှင့်ဆက်စပ်သည့်ဆု (r + t + 1) ကိုဆုံးဖြတ်သည်။ အားဖြည့်သင်ကြားရေးကိုယ်စားလှယ်၏ရည်မှန်းချက်မှာမျှော်လင့်ထားသည့်တဖြည်းဖြည်းတိုးပွားလာသည့်အကျိုးကိုမြင့်မားစေသည့်မူဝါဒတစ်ခုကိုလေ့လာရန်ဖြစ်သည်။
MDP အနေဖြင့်ပြtheနာကိုဖော်ထုတ်ခြင်းသည်ကိုယ်စားလှယ်သည်လက်ရှိပတ် ၀ န်းကျင်အခြေအနေကိုတိုက်ရိုက်ကြည့်ရှုသည်ဟုယူဆသည်။ ဤကိစ္စတွင်ပြtheနာကိုအပြည့်အဝကြည့်ရှုနိုင်သည်ဟုဆိုသည် အေးဂျင့်သည်ပြည်နယ်တစ်ခု၏အစိတ်အပိုင်းတစ်ခုသာကိုပိုင်ဆိုင်ခွင့်ရှိပါက၊ သို့မဟုတ်လေ့လာတွေ့ရှိသောပြည်နယ်များသည်ဆူညံသံကြောင့်ယိုယွင်းသွားပါကအေးဂျင့်အားတစ်စိတ်တစ်ပိုင်းစောင့်ကြည့်လေ့လာမှုရှိသည်ဟုဆိုကြပြီးတရားဝင်ပြaနာကိုတစ်စိတ်တစ်ပိုင်းအားဖြင့်စောင့်ကြည့်လေ့လာနိုင်သော Markov ၏ဆုံးဖြတ်ချက်လုပ်ငန်းစဉ်အဖြစ်ပုံဖော်ရမည်။ ဖြစ်ရပ်နှစ်ခုလုံးတွင်၊ ကိုယ်စားလှယ်မှရရှိနိုင်သောလုပ်ရပ်များကိုကန့်သတ်နိုင်သည်။ ဥပမာအားဖြင့်၊ ငွေလက်ကျန်အခြေအနေကိုအကောင်းမြင်ရန်ကန့်သတ်ထားနိုင်သည်။ အကယ်၍ ပြည်နယ်၏လက်ရှိတန်ဖိုးသည် ၃ ဖြစ်ပါကပြည်နယ်အကူးအပြောင်းသည် ၄ ကိုတန်ဖိုးလျှော့ချရန်ကြိုးစားပါကအကူးအပြောင်းကိုခွင့်ပြုလိမ့်မည်မဟုတ်ပါ။
အေးဂျင့်၏စွမ်းဆောင်ရည်ကိုအကောင်းဆုံးလုပ်ဆောင်သည့်အေးဂျင့်နှင့်နှိုင်းယှဉ်သောအခါစွမ်းဆောင်ရည်ကွာခြားချက်သည်နောင်တရခြင်း၏အယူအဆကိုဖြစ်ပေါ်စေသည်။ အကောင်းဆုံးအနေဖြင့်အနီးကပ်ဆောင်ရွက်ရန်အတွက်ကိုယ်စားလှယ်သည်၎င်း၏လုပ်ရပ်များ၏ရေရှည်အကျိုးဆက်များ (ဥပမာ - အနာဂတ် ၀ င်ငွေကိုတိုးမြှင့်ခြင်း) ကိုဆင်ခြင်ရမည်။
ထို့ကြောင့်အားဖြည့်ခြင်းသင်ကြားမှုသည်ရေတိုအကျိုးအမြတ်နှင့်ရေတိုအကျိုးအမြတ်များနှင့်သက်ဆိုင်သည့်ပြproblemsနာများအတွက်အထူးသင့်တော်သည်။ ၎င်းသည်စက်ရုပ်ထိန်းချုပ်မှု၊ ဓာတ်လှေကားစီစဉ်ခြင်း၊ ဆက်သွယ်ရေး၊ backgammon၊ Checker နှင့် Go (AlphaGo) အပါအဝင်ပြproblemsနာအမျိုးမျိုးအတွက်အောင်မြင်စွာအသုံးပြုခဲ့သည်။
စွမ်းဆောင်ရည်နှစ်မျိုးကိုအားဖြည့်ခြင်းအားဖြင့်အားဖြည့်သင်ကြားမှုကိုပိုမိုကောင်းမွန်စေသည်။ ဤအဓိကအချက်နှစ်ချက်ကြောင့်အားဖြည့်ခြင်းသင်ယူခြင်းကိုအောက်ပါအခြေအနေများတွင်ကြီးမားသောပတ်ဝန်းကျင်တွင်အသုံးပြုနိုင်သည်။
- ပတ်ဝန်းကျင်ပုံစံတစ်ခုကိုလူသိများသော်လည်းခွဲခြမ်းစိတ်ဖြာမှုဆိုင်ရာဖြေရှင်းချက်မရနိုင်ပါ။
- ပတ်ဝန်းကျင်၏ simulation model ကိုသာ (simulation-based optimization ၏ဘာသာရပ်) ပေးထားသည်။
- ပတ် ၀ န်းကျင်နှင့်ဆိုင်သောသတင်းအချက်အလက်များကိုစုဆောင်းရန်တစ်ခုတည်းသောနည်းလမ်းမှာ၎င်းနှင့်အပြန်အလှန်ဆက်သွယ်ခြင်းဖြစ်သည်။
ဤပြproblemsနာများ၏ပထမနှစ်ခုသည်အစီအစဉ်ရေးဆွဲခြင်းဆိုင်ရာပြproblemsနာများ (နမူနာပုံစံအချို့ရရှိနိုင်သောကြောင့်) ဖြစ်ပြီးနောက်ဆုံးတစ်ခုသည်စစ်မှန်သောသင်ယူမှုပြproblemနာဟုသတ်မှတ်နိုင်သည်။ သို့သော်အားဖြည့်သင်ကြားမှုသည်စီမံကိန်းပြproblemsနာနှစ်ခုစလုံးကိုစက်ပစ္စည်းပြproblemsနာများအဖြစ်သို့ပြောင်းလဲပေးသည်။
ရှာဖွေတူးဖော်ခြင်းနှင့်ခေါင်းပုံဖြတ်အမြတ်ထုတ်ခြင်းကိုအပေးအယူလုပ်ခြင်းသည်လက်နက်ကိုင်အများစုသည့်ပြproblemနာမှတစ်ဆင့် Burnetas နှင့် Katehakis ရှိပြည်နယ်အာကာသနယ်ပယ် MDPs (၁၉၉၇) အတွက်အပြည့်အ ၀ လေ့လာခဲ့သည်။
အားဖြည့်လေ့လာခြင်းသည်ပါးနပ်သောစူးစမ်းရှာဖွေရေးယန္တရားများလိုအပ်သည်။ ကျပန်းရွေးချယ်ခြင်းလုပ်ရပ်များခန့်မှန်းခြေဖြစ်နိုင်ခြေဖြန့်ဖြူးဖို့ရည်ညွှန်းခြင်းမရှိဘဲ, စွမ်းဆောင်ရည်ညံ့ဖျင်းသည်။ (သေးငယ်) အကနျ့ Markov ဆုံးဖြတ်ချက်လုပ်ငန်းစဉ်များ၏ဖြစ်ရပ်အတော်လေးကောင်းစွာနားလည်သဘောပေါက်ထားသည်။ သို့သော်ပြည်နယ်အရေအတွက်နှင့် (သို့မဟုတ်အဆုံးမဲ့ပြည်နယ်နေရာများရှိပြproblemsနာများသို့) အတိုင်းအတာရှိသော algorithms များမရှိခြင်းကြောင့်ရိုးရှင်းသောရှာဖွေရေးနည်းစနစ်များသည်လက်တွေ့ကျသည်။
တူးဖော်ရေးကိစ္စကိုလျစ်လျူရှုထားပြီးပြည်နယ်ကိုစောင့်ကြည့်နိုင်လျှင်ပင်ပြactionsနာသည်အတိတ်ကအတွေ့အကြုံများကို အသုံးပြု၍ မည်သည့်လုပ်ဆောင်မှုများကပိုမိုများပြားသောအကျိုးကျေးဇူးများရရှိစေသည်ကိုရှာဖွေရန်ဖြစ်သည်။
အောင်လက်မှတ် သင်ရိုးညွှန်းတမ်းနှင့် အသေးစိတ် သိစေရန်အတွက် အောက်ပါဇယားကို ချဲ့ထွင်ပြီး ခွဲခြမ်းစိတ်ဖြာနိုင်ပါသည်။
EITC/AI/ARL Advanced Reinforcement Learning Certification Curriculum သည် ပွင့်လင်းမြင်သာမှုရှိသော သင်ကြားရေးဆိုင်ရာပစ္စည်းများကို ဗီဒီယိုပုံစံဖြင့် ကိုးကားပါသည်။ သင်ယူမှု လုပ်ငန်းစဉ်ကို သက်ဆိုင်ရာ သင်ရိုးညွှန်းတမ်း အစိတ်အပိုင်းများ အကျုံးဝင်သော အဆင့်ဆင့်ဖွဲ့စည်းပုံ (ပရိုဂရမ်များ -> သင်ခန်းစာများ -> ခေါင်းစဉ်များ) ဖြင့် ပိုင်းခြားထားသည်။ Domain ကျွမ်းကျင်သူများနှင့် အကန့်အသတ်မရှိ အကြံပေးခြင်းကိုလည်း ဆောင်ရွက်ပေးပါသည်။
Certification လုပ်ထုံးလုပ်နည်းအသေးစိတ်အတွက် စစ်ဆေးပါ။ ဘယ်လိုအလုပ်လုပ်လဲ.
သင်ရိုးညွှန်းတမ်းကိုးကားစရာအရင်းအမြစ်များ
နက်ရှိုင်းသော Reinforcement Learning ထုတ်ဝေမှုမှတစ်ဆင့်လူ့အဆင့်ထိန်းချုပ်မှု
https://deepmind.com/research/publications/human-level-control-through-deep-reinforcement-learning
UC Berkeley ၌နက်ရှိုင်းသောအားဖြည့်သင်ကြားမှုဆိုင်ရာ Open-access သင်တန်း
http://rail.eecs.berkeley.edu/deeprlcourse/
RL သည် Manifold.ai မှ K-arbited bandit ပြproblemနာကိုဖြေရှင်းခဲ့သည်
https://www.manifold.ai/exploration-vs-exploitation-in-reinforcement-learning
EITC/AI/ARL Advanced Reinforcement Learning ပရိုဂရမ်အတွက် ပြီးပြည့်စုံသော အော့ဖ်လိုင်း ကိုယ်ပိုင်သင်ယူခြင်းဆိုင်ရာ ကြိုတင်ပြင်ဆင်သည့်ပစ္စည်းများကို PDF ဖိုင်တွင် ဒေါင်းလုဒ်လုပ်ပါ။
EITC/AI/ARL ကြိုတင်ပြင်ဆင်ပစ္စည်းများ - စံဗားရှင်း
EITC/AI/ARL ကြိုတင်ပြင်ဆင်ပစ္စည်းများ – ပြန်လည်သုံးသပ်မေးခွန်းများဖြင့် တိုးချဲ့ဗားရှင်း