Google Vision API ကို အသုံးပြု၍ ရုပ်ပုံတစ်ခုမှ ထုတ်ယူထားသော စာသားကို ဝင်ရောက်ကြည့်ရှုရန်၊ API ၏ Optical Character Recognition (OCR) စွမ်းရည်ကို အသုံးပြုခြင်း ပါ၀င်သည့် အဆင့်များအတိုင်း လုပ်ဆောင်နိုင်ပါသည်။ Google Vision API ရှိ OCR နည်းပညာသည် လက်ရေးအပါအဝင် ရုပ်ပုံများမှ စာသားများကို ရှာဖွေခြင်းနှင့် ထုတ်ယူခြင်းကို လုပ်ဆောင်နိုင်သည်။ ဤလုပ်ဆောင်ချက်သည် အမြင်အာရုံဒေတာတွင်ပါရှိသော စာသားအချက်အလက်များကို ခွဲခြမ်းစိတ်ဖြာနားလည်မှုလိုအပ်သော အပလီကေးရှင်းများတွင် အထူးအသုံးဝင်ပါသည်။
ပထမဦးစွာ၊ သင်သည် Google Vision API နှင့် လုပ်ဆောင်ရန် လိုအပ်သော ပတ်ဝန်းကျင်ကို သတ်မှတ်ရန် လိုအပ်သည်။ ၎င်းတွင် Google Cloud Console တွင် ပရောဂျက်တစ်ခုကို ဖန်တီးခြင်း၊ Vision API ကို ဖွင့်ပေးခြင်းနှင့် API သော့ သို့မဟုတ် ဝန်ဆောင်မှုအကောင့်သော့ကဲ့သို့သော လိုအပ်သော စစ်မှန်ကြောင်းအထောက်အထားများ ရယူခြင်းတို့ ပါဝင်ပါသည်။
သင့်ပတ်ဝန်းကျင်ကို စနစ်ထည့်သွင်းပြီးသည်နှင့်၊ ရုပ်ပုံဖိုင်တစ်ခုပေါ်တွင် OCR လုပ်ဆောင်ရန် Vision API ၏ `asyncBatchAnnotateFiles` နည်းလမ်းကို အသုံးပြုနိုင်သည်။ ဤနည်းလမ်းသည် လုပ်ဆောင်ခြင်းအတွက် ပုံဖိုင်များစာရင်းကို ကျော်ဖြတ်နိုင်ပြီး ရလဒ်များကို ချိန်ကိုက်ကာ လက်ခံရရှိစေပါသည်။ တစ်နည်းအားဖြင့် သင်သည် ပုံများ၏စာရင်းကို တိုက်ရိုက်လုပ်ဆောင်ရန် `asyncBatchAnnotateImages` နည်းလမ်းကို အသုံးပြုနိုင်သည်။
ပုံတစ်ခုမှ စာသားကို ထုတ်ယူရန်၊ သင်သည် `AnnotateImageRequest` အရာဝတ္ထု၏ ဥပမာတစ်ခု ဖန်တီးပြီး လိုချင်သော အင်္ဂါရပ်များကို သတ်မှတ်ရန် လိုအပ်သည်။ ဤကိစ္စတွင်၊ သင်သည် ပုံမှစာသားကိုထုတ်ယူလိုကြောင်းညွှန်ပြရန်အတွက် `TEXT_DETECTION` အင်္ဂါရပ်ကို သင်သတ်မှတ်ထားမည်ဖြစ်သည်။ OCR ၏ တိကျမှုကို မြှင့်တင်ရန် ဘာသာစကား အရိပ်အမြွက် ကဲ့သို့သော အပိုကန့်သတ်ချက်များကို သင် သတ်မှတ်နိုင်သည်။
ထို့နောက်၊ သင်သည် ရုပ်ပုံဖိုင်ကို base64-encoded string တစ်ခုသို့ ကုဒ်လုပ်ပြီး ကုဒ်လုပ်ထားသော ပုံဒေတာကို အသုံးပြု၍ `Image` အရာဝတ္ထု၏ ဥပမာတစ်ခုကို ဖန်တီးရန် လိုအပ်သည်။ ဤ `Image` အရာဝတ္တုကို အစောပိုင်းက ဖန်တီးထားသည့် `AnnotateImageRequest` အရာသို့ ပေါင်းထည့်သင့်သည်။
တောင်းဆိုမှုကို စနစ်ထည့်သွင်းပြီးနောက်၊ သင်ရွေးချယ်ထားသောချဉ်းကပ်မှုပေါ်မူတည်၍ `batchAnnotateImages` သို့မဟုတ် `batchAnnotateFiles` နည်းလမ်းကို အသုံးပြု၍ Vision API သို့ ပေးပို့နိုင်ပါသည်။ API သည် ပုံအား လုပ်ဆောင်ပြီး ထုတ်ယူထားသော စာသားပါရှိသော တုံ့ပြန်မှုကို ပြန်ပေးပါမည်။
တုံ့ပြန်မှုမှ ထုတ်နုတ်ထားသော စာသားကို ဝင်ရောက်ကြည့်ရှုရန်၊ `AnnotateImageResponse` အရာဝတ္တု၏ `စာသားမှတ်ချက်များ` အကွက်ပေါ်တွင် ထပ်လောင်းနိုင်ပါသည်။ ဤအကွက်တွင် `EntityAnnotation` အရာဝတ္ထုများစာရင်းပါရှိပြီး၊ တစ်ခုစီသည် ပုံရှိ တွေ့ရှိထားသော စာသားအစိတ်အပိုင်းကို ကိုယ်စားပြုသည်။ `EntityAnnotation` အရာတစ်ခုစီ၏ `ဖော်ပြချက်` အကွက်တွင် ထုတ်ယူထားသော စာသားပါရှိသည်။
ဤသည်မှာ Google Vision API ကို အသုံးပြု၍ ပုံတစ်ခုမှ ထုတ်ယူထားသော စာသားကို မည်သို့ရယူရမည်ကို သရုပ်ပြသည့် Python ရှိ ကုဒ်အတိုအထွာတစ်ခုဖြစ်သည်-
python from google.cloud import vision def extract_text_from_image(image_path): client = vision.ImageAnnotatorClient() with open(image_path, 'rb') as image_file: content = image_file.read() image = vision.Image(content=content) request = vision.AnnotateImageRequest( image=image, features=[{'type': vision.Feature.Type.TEXT_DETECTION}] ) response = client.batch_annotate_images(requests=[request]) for annotation in response.responses[0].text_annotations: extracted_text = annotation.description print(extracted_text) # Usage extract_text_from_image('path_to_image.jpg')
ဤဥပမာတွင်၊ `extract_text_from_image` လုပ်ဆောင်ချက်သည် ထည့်သွင်းမှုအဖြစ် ရုပ်ပုံဖိုင်တစ်ခုဆီသို့ လမ်းကြောင်းကို ယူဆောင်သွားပြီး Vision API သို့ တောင်းဆိုချက်တစ်ခုပေးပို့ရန်အတွက် Google Cloud Vision ကလိုင်းယင့်စာကြည့်တိုက်ကို အသုံးပြုပါသည်။ ထို့နောက် ထုတ်ယူထားသော စာသားကို ရိုက်နှိပ်သည်။
Google Vision API ကို အသုံးပြု၍ ပုံတစ်ပုံမှ ထုတ်ယူထားသော စာသားကို ဝင်ရောက်ကြည့်ရှုရန်၊ ပတ်ဝန်းကျင်ကို စနစ်ထည့်သွင်းရန်၊ အလိုရှိသော အင်္ဂါရပ်များဖြင့် `AnnotateImageRequest` အရာဝတ္ထုကို ဖန်တီးရန်၊ ရုပ်ပုံဖိုင်ကို ကုဒ်နံပါတ်၊ API သို့ တောင်းဆိုချက် ပေးပို့ရန်နှင့် ထုတ်ယူထားသော စာသားကို ပြန်လည်ရယူရန် လိုအပ်ပါသည်။ တုံ့ပြန်မှုမှ Vision API ၏ OCR စွမ်းရည်များသည် လက်ရေးအပါအဝင် ရုပ်ပုံများမှ စာသားများကို ရှာဖွေခြင်းနှင့် ထုတ်ယူခြင်းကို လုပ်ဆောင်နိုင်သည်။
အခြား လတ်တလောမေးခွန်းများနှင့် အဖြေများ လက်ရေးမှစာသားကိုရှာဖွေတွေ့ရှိခြင်း:
- Google Vision API ကို အသုံးပြု၍ ရှုပ်ထွေးသောစာရွက်စာတမ်းများမှ စာသားများကို ထုတ်ယူသည့်အခါ မည်သည့်ကန့်သတ်ချက်များ ဖြစ်ပေါ်လာနိုင်သနည်း။
- Google Vision API ၏ စာသားကို အနက်ပြန်ဆိုခြင်းတွင် ယုံကြည်မှုအဆင့်များ၏ အဓိပ္ပါယ်မှာ အဘယ်နည်း။
- Google Vision API သည် လက်ရေးဖြင့်ရေးထားသော မှတ်စုများမှ စာသားကို မည်ကဲ့သို့ တိကျစွာ မှတ်မိပြီး ထုတ်ယူနိုင်သနည်း။
- လက်ရေးပုံများမှ စာသားများကို ရှာဖွေဖော်ထုတ်ခြင်းနှင့် ထုတ်ယူရာတွင် စိန်ခေါ်မှုများကား အဘယ်နည်း။
- Google Vision သည် လက်ရေးစာကို မှတ်မိနိုင်ပါသလား။