bag of words approach သည် စကားလုံးများကို ကိန်းဂဏာန်းများအဖြစ်သို့ ပြောင်းလဲရန် သဘာဝဘာသာစကားလုပ်ဆောင်ခြင်း (NLP) တွင် အသုံးများသောနည်းပညာတစ်ခုဖြစ်သည်။ ဤချဉ်းကပ်မှုသည် စာရွက်စာတမ်းတစ်ခုရှိ စကားလုံးများ၏ အစီအစဥ်သည် အရေးမကြီးပါ၊ စကားလုံးများ၏ အကြိမ်ရေသာလျှင် အရေးကြီးသည်ဟူသော အယူအဆအပေါ် အခြေခံထားသည်။ စကားလုံးပုံစံအိတ်သည် စကားလုံးများစုစည်းမှုအဖြစ် စာရွက်စာတမ်းတစ်ခုအား ကိုယ်စားပြုသည်၊ သဒ္ဒါ၊ စကားလုံးအစီအစဥ်နှင့် အကြောင်းအရာတို့ကို လျစ်လျူရှုထားသည်။
စကားလုံးများကို ချဉ်းကပ်ပုံအိတ်ကို အသုံးပြု၍ စကားလုံးများကို ဂဏန်းကိုယ်စားပြုများအဖြစ်သို့ ပြောင်းရန်၊ အဆင့်များစွာ ပါဝင်ပါသည်။ အဆင့်တစ်ဆင့်ချင်းစီကို အသေးစိတ် ဆွေးနွေးကြည့်ရအောင်။
1. တိုကင်ယူခြင်း- ပထမအဆင့်မှာ ၎င်းကို စကားလုံးတစ်လုံးချင်း သို့မဟုတ် တိုကင်များအဖြစ် ခွဲထုတ်ခြင်းပါ၀င်သည့် စာသားကို တိုကင်သတ်မှတ်ရန်ဖြစ်သည်။ ဤလုပ်ငန်းစဉ်တွင် ပုံမှန်အားဖြင့် သတ်ပုံဖြတ်တောက်ခြင်းကို ဖယ်ရှားခြင်း၊ စကားလုံးများအားလုံးကို စာလုံးအသေးအဖြစ် ပြောင်းလဲခြင်းနှင့် စာသားကို နေရာလွတ်ပေါ်တွင် အခြေခံ၍ တိုကင်များအဖြစ် ပိုင်းခြားခြင်းတို့ ပါဝင်ပါသည်။
ဥပမာအားဖြင့်၊ အောက်ပါဝါကျကို သုံးသပ်ကြည့်ပါ- "အညိုရောင်မြေခွေးသည် ပျင်းရိသောခွေးကို ခုန်တက်သည်"။ တိုကင်သတ်မှတ်ပြီးနောက်၊ ကျွန်ုပ်တို့သည် အောက်ပါတိုကင်များကို ရရှိသည်- ["the", "အမြန်", "အညို", " fox", "ခုန်", "ကျော်", "the", "ပျင်းရိ", "ခွေး"]။
2. Vocabulary Creation- နောက်တစ်ဆင့်မှာ corpus သို့မဟုတ် document များစုစည်းမှုတွင်ပါရှိသော စကားလုံးအားလုံး၏ ထူးခြားသောအစုတစ်ခုဖြစ်သည့် ဝေါဟာရတစ်ခုကို ဖန်တီးရန်ဖြစ်သည်။ ဝေါဟာရရှိ စကားလုံးတစ်လုံးစီကို သီးသန့်အညွှန်း သို့မဟုတ် အမှတ်အသားပေးထားသည်။
အထက်ဖော်ပြပါ ဥပမာကို အသုံးပြု၍ ဝေါဟာရမှာ- ["the", "အမြန်", "အညို", " fox", "jumps", "over", "lazy", "dog"]။
3. Vectorization- ကျွန်ုပ်တို့တွင် ဝေါဟာရတစ်ခုရရှိသည်နှင့်တစ်ပြိုင်နက်၊ စာရွက်စာတမ်းတစ်ခုစီကို ကိန်းဂဏာန်းပုံတစ်ခုအဖြစ် ကိုယ်စားပြုနိုင်သည်။ vector ၏ အရှည်သည် ဝေါဟာရ၏ အရွယ်အစားနှင့် ညီမျှပြီး vector ၏ ဒြပ်စင်တစ်ခုစီသည် စာရွက်စာတမ်းရှိ စကားလုံးတစ်လုံး၏ ကြိမ်နှုန်း သို့မဟုတ် ပါဝင်မှုကို ကိုယ်စားပြုသည်။
ဥပမာအားဖြင့်၊ "The quick brown fox jumps" ဆိုတဲ့ ဝါကျကို စဉ်းစားကြည့်ရအောင်။ အထက်ဖော်ပြပါ ဝေါဟာရကို အသုံးပြု၍ ဤဝါကျကို ကွက်ကွက်အဖြစ် ကိုယ်စားပြုနိုင်သည်- [1၊ 1၊ 1၊ 1၊ 1၊ 0၊ 0၊ 0]။ ဤတွင်၊ ပထမဒြပ်စင်ငါးခုသည် ဝါကျတွင် "the", "အမြန်", "အညို", "မြေခွေး" နှင့် "ခုန်" ဟူသောစကားလုံးများ၏ ကြိမ်နှုန်းကိုကိုယ်စားပြုပြီး နောက်ဆုံးဒြပ်စင်သုံးခုသည် "ကျော်" ဟူသောစကားလုံးများ၏မရှိခြင်းကိုကိုယ်စားပြုသည်။ "ပျင်း" နှင့် "ခွေး"။
4. Term Frequency-Inverse Document Frequency (TF-IDF) ကို တွက်ဆခြင်း- စကားလုံးများ၏ အခြေခံအိတ်ကို ကိုယ်စားပြုခြင်းအပြင်၊ ရှားပါးသော စကားလုံးများအတွက် ပိုမိုအရေးပါလာပြီး အသုံးများသော စကားလုံးများအတွက် အရေးပါမှုနည်းပါးစေရန် TF-IDF အလေးချိန်ကို အသုံးပြုနိုင်သည်။ TF-IDF သည် စာရွက်စာတမ်းများ စုစည်းမှုနှင့် ဆက်စပ်သော စာရွက်စာတမ်းတစ်ခုရှိ စကားလုံးတစ်လုံး၏ အရေးပါမှုကို အကဲဖြတ်သည့် ကိန်းဂဏန်းဆိုင်ရာ တိုင်းတာမှုတစ်ခုဖြစ်သည်။
TF-IDF ကို စာရွက်စာတမ်းတစ်ခုရှိ စကားလုံးတစ်လုံး၏ ကြိမ်နှုန်း (TF) ကို စာလုံး၏ ပြောင်းပြန်စာရွက်စာတမ်းကြိမ်နှုန်း (IDF) ဖြင့် ပေါင်းခြင်းဖြင့် တွက်ချက်သည်။ IDF ကို စကားလုံးပါရှိသော စာရွက်စာတမ်းအရေအတွက်ဖြင့် ပိုင်းခြားထားသော စုစုပေါင်းစာရွက်စာတမ်းအရေအတွက်၏ လော့ဂရစ်သမ်အဖြစ် တွက်ချက်သည်။
ဥပမာအားဖြင့်၊ "အမြန်အညိုရောင်မြေခွေး" နှင့် "ပျင်းရိသောခွေး" တို့၏ စာရွက်စာတမ်းနှစ်ခု၏ အစုအဝေးတစ်ခုကို သုံးသပ်ကြည့်ပါ။ ပထမစာရွက်စာတမ်းတွင် "အမြန်" ဟူသော စကားလုံး၏ TF-IDF ကိုယ်စားပြုမှုသည် ပထမစာရွက်စာတမ်းတွင်သာ ပေါ်နေသောကြောင့် ဒုတိယစာရွက်စာတမ်းထက် ပိုများမည်ဖြစ်သည်။
ချဉ်းကပ်မှု စကားလုံးအိတ်သည် စာသားကို တိုကင်ထိုးခြင်း၊ ဝေါဟာရတစ်ခု ဖန်တီးခြင်းနှင့် အကြိမ်ရေ သို့မဟုတ် စကားလုံးများ၏ ပါဝင်မှုအပေါ် အခြေခံ၍ စာရွက်စာတမ်းများကို ပုံသေပုံပြုလုပ်ခြင်းဖြင့် စကားလုံးများကို ကိန်းဂဏန်းများအဖြစ်သို့ ပြောင်းလဲပေးသည်။ ရှားပါးသောစကားလုံးများအတွက် ပိုမိုအရေးပါမှုနှင့် ဘုံစကားလုံးများအတွက် အရေးပါမှုနည်းပါးစေရန် TF-IDF အလေးချိန်ကို အသုံးပြုနိုင်သည်။
အခြား လတ်တလောမေးခွန်းများနှင့် အဖြေများ EITC/AI/GCML Google Cloud Machine Learning:
- ပုံမှန်ပြုလုပ်ခြင်းဆိုသည်မှာ အဘယ်နည်း။
- ကြီးကြပ်မှု နှင့် ကြီးကြပ်မှုမရှိသော သင်ယူမှုနည်းလမ်းများကို တစ်ချိန်တည်းတွင် အကောင်အထည်ဖော်သည့် AI စံပြလေ့ကျင့်မှု အမျိုးအစားရှိပါသလား။
- ကြီးကြပ်မထားသော စက်သင်ယူမှုစနစ်များတွင် သင်ယူမှုသည် မည်သို့ဖြစ်သနည်း။
- Google Cloud Machine Learning/AI Platform တွင် Fashion-MNIST ဒေတာအတွဲကို မည်သို့အသုံးပြုရမည်နည်း။
- စက်သင်ယူခြင်းအတွက် မည်သည့် algorithms အမျိုးအစားများရှိပြီး ၎င်းတို့ကို မည်သို့ရွေးချယ်သနည်း။
- kernel တစ်ခုကို ဒေတာဖြင့် ဖောက်ထွင်းခံရပြီး မူရင်းသည် လျှို့ဝှက်ထားသည့်အခါ၊ ခြည်ခြည်မျှင်သည် အများသူငှာ ဖြစ်နိုင်ပြီး ၎င်းသည် ကိုယ်ရေးကိုယ်တာချိုးဖောက်မှုမဟုတ်ပါက၊
- ကုန်သွယ်မှုခန့်မှန်းခြင်းကဲ့သို့သော NLG မော်ဒယ်လ်ဂျစ်ကို NLG မှလွဲ၍ အခြားရည်ရွယ်ချက်များအတွက် အသုံးပြုနိုင်ပါသလား။
- စက်သင်ယူခြင်း၏ နောက်ထပ်အသေးစိတ်အဆင့်အချို့ကား အဘယ်နည်း။
- TensorBoard သည် မော်ဒယ်အမြင်အာရုံအတွက် အသင့်တော်ဆုံးကိရိယာဖြစ်ပါသလား။
- ဒေတာကို သန့်ရှင်းရေးလုပ်တဲ့အခါ ဒေတာကို ဘက်လိုက်မှုမရှိအောင် ဘယ်လိုလုပ်နိုင်မလဲ။
EITC/AI/GCML Google Cloud Machine Learning တွင် နောက်ထပ်မေးခွန်းများနှင့် အဖြေများကို ကြည့်ပါ။