LLM Course

0. စတင်ပြင်ဆင်ခြင်း

1. Transformer models များ

2. 🤗 Transformers ကို အသုံးပြုခြင်း

3. Pretrained Model တစ်ခုကို Fine-tuning လုပ်ခြင်း

4. Models နှင့် Tokenizers များကို မျှဝေခြင်း

5. The 🤗 Datasets library

6. The 🤗 Tokenizers library

7. Classical NLP Tasks များ

နိဒါန်း Token Classification Masked Language Model တစ်ခုကို Fine-tuning လုပ်ခြင်း ဘာသာပြန်ခြင်း အနှစ်ချုပ်ဖော်ပြခြင်း Causal Language Model တစ်ခုကို အစကနေ Train လုပ်ခြင်း မေးခွန်းဖြေဆိုခြင်း LLM များကို ကျွမ်းကျင်ခြင်း အခန်း (၇) ဆိုင်ရာ မေးခွန်းများ

8. အကူအညီတောင်းခံနည်း

9. Demos များ တည်ဆောက်ခြင်းနှင့် မျှဝေခြင်း

10. အရည်အသွေးမြင့် Datasets များကို စုစည်းခြင်း

11. Large Language Models များကို Fine-tune လုပ်ခြင်း

12. Reasoning Models များ တည်ဆောက်ခြင်း new

သင်တန်း ဆိုင်ရာ အခမ်းအနားများ

Join the Hugging Face community

and get access to the augmented documentation experience

Collaborate on models, datasets and Spaces

Faster examples with accelerated inference

Switch between documentation themes

to get started

Pytorch TensorFlow

အခန်း (၇) ဆိုင်ရာ မေးခွန်းများ

ဒီအခန်းမှာ သင်ယူခဲ့တာတွေကို စစ်ဆေးကြည့်ရအောင်။

၁။ အောက်ပါ tasks တွေထဲက ဘယ်ဟာတွေကို token classification problem အဖြစ် ပုံဖော်နိုင်သလဲ။

၂။ token classification အတွက် preprocessing ရဲ့ ဘယ်အပိုင်းက အခြား preprocessing pipelines တွေနဲ့ ကွာခြားသလဲ။

၃။ token classification problem တစ်ခုမှာ words တွေကို tokenize လုပ်ပြီး tokens တွေကို label လုပ်ချင်တဲ့အခါ ဘယ်ပြဿနာ ဖြစ်ပေါ်လာသလဲ။

၄။ “Domain adaptation” ဆိုတာ ဘာကိုဆိုလိုသလဲ။

၅။ Masked language modeling problem မှာ labels တွေက ဘာတွေလဲ။

input sentence ထဲက tokens အချို့ကို random အနေနဲ့ mask လုပ်ထားပြီး labels တွေက original input tokens တွေပါ။ input sentence ထဲက tokens အချို့ကို random အနေနဲ့ mask လုပ်ထားပြီး labels တွေက original input tokens တွေဖြစ်ကာ၊ ဘယ်ဘက်ကို shifting လုပ်ထားပါတယ်။ input sentence ထဲက tokens အချို့ကို random အနေနဲ့ mask လုပ်ထားပြီး၊ label က sentence ဟာ positive ဖြစ်မဖြစ် ဒါမှမဟုတ် negative ဖြစ်မဖြစ်ပါ။ input sentences နှစ်ခုထဲက tokens အချို့ကို random အနေနဲ့ mask လုပ်ထားပြီး၊ label က sentences နှစ်ခုဟာ ဆင်တူခြင်း ရှိမရှိပါ။

၆။ အောက်ပါ tasks တွေထဲက ဘယ်ဟာတွေကို sequence-to-sequence problem အဖြစ် မြင်နိုင်သလဲ။

၇။ sequence-to-sequence problem အတွက် data ကို မှန်ကန်စွာ preprocess လုပ်ဖို့ နည်းလမ်းက ဘာလဲ။

inputs တွေနဲ့ targets တွေကို inputs=... နဲ့ targets=... နဲ့ tokenizer ကို အတူတူ ပေးပို့ရမယ်။ inputs တွေနဲ့ targets တွေ နှစ်ခုလုံးကို tokenizer ကို သီးခြားစီ ခေါ်ဆိုမှုနှစ်ခုနဲ့ preprocess လုပ်ရမယ်။ ပုံမှန်အတိုင်း၊ inputs တွေကိုပဲ tokenize လုပ်ရပါမယ်။ inputs တွေကို tokenizer ကို ပေးပို့ရမယ်၊ targets တွေကိုလည်း ပေးပို့ရမယ်၊ ဒါပေမယ့် special context manager အောက်မှာ ပေးပို့ရမယ်။

၈။ sequence-to-sequence problems တွေအတွက် <code> Trainer </code> ရဲ့ သီးခြား subclass တစ်ခု ဘာကြောင့် ရှိတာလဲ။

၁၀။ model အသစ်တစ်ခုကို ဘယ်အချိန်မှာ pretrain လုပ်သင့်လဲ။

၁၁။ language model တစ်ခုကို texts အများကြီးပေါ်မှာ pretrain လုပ်ဖို့ ဘာကြောင့် လွယ်ကူတာလဲ။

၁၂။ question answering task အတွက် data ကို preprocess လုပ်တဲ့အခါ အဓိက စိန်ခေါ်မှုတွေက ဘာတွေလဲ။

inputs တွေကို tokenize လုပ်ဖို့ လိုပါတယ်။ အလွန်ရှည်လျားတဲ့ contexts တွေကို ကိုင်တွယ်ဖြေရှင်းဖို့ လိုပါတယ်။ ဒါတွေက training features အများအပြားကို ဖြစ်ပေါ်စေပြီး အဖြေပါဝင်နိုင်ချေ ရှိသလို မရှိဘဲလည်း ဖြစ်နိုင်ပါတယ်။ မေးခွန်းရဲ့ အဖြေတွေကိုရော inputs တွေကိုပါ tokenize လုပ်ဖို့ လိုပါတယ်။ text ထဲက answer span ကနေ၊ tokenized input ထဲက start နဲ့ end token ကို ရှာရပါမယ်။

၁၃။ question answering မှာ post-processing ကို ပုံမှန်အားဖြင့် ဘယ်လိုလုပ်ဆောင်သလဲ။

model က အဖြေရဲ့ start နဲ့ end positions တွေကို ပေးပါတယ်၊ ပြီးတော့ သင်ဟာ သက်ဆိုင်ရာ tokens span ကို decode လုပ်ဖို့ပဲ လိုပါတယ်။ model က example တစ်ခုကနေ ဖန်တီးထားတဲ့ feature တစ်ခုစီအတွက် အဖြေရဲ့ start နဲ့ end positions တွေကို ပေးပါတယ်၊ ပြီးတော့ သင်ဟာ အကောင်းဆုံး score ရှိတဲ့ အဲဒီ feature အတွက် context ထဲက သက်ဆိုင်ရာ tokens span ကို decode လုပ်ဖို့ပဲ လိုပါတယ်။ model က example တစ်ခုကနေ ဖန်တီးထားတဲ့ feature တစ်ခုစီအတွက် အဖြေရဲ့ start နဲ့ end positions တွေကို ပေးပါတယ်၊ ပြီးတော့ သင်ဟာ အကောင်းဆုံး score ရှိတဲ့ အဲဒီ feature အတွက် context ထဲက span ကို ကိုက်ညီအောင် လုပ်ဖို့ပဲ လိုပါတယ်။ model က အဖြေတစ်ခုကို generate လုပ်ပါတယ်၊ ပြီးတော့ သင်ဟာ အဲဒါကို decode လုပ်ဖို့ပဲ လိုပါတယ်။

ဝေါဟာရ ရှင်းလင်းချက် (Glossary)

Token Classification Problem: စာသား sequence တစ်ခုအတွင်းရှိ token တစ်ခုစီကို အမျိုးအစားခွဲခြားသတ်မှတ်ခြင်း လုပ်ငန်း (ဥပမာ- Named Entity Recognition)။
Grammatical Components: စာကြောင်းတစ်ကြောင်းအတွင်းရှိ သဒ္ဒါဆိုင်ရာ အစိတ်အပိုင်းများ (ဥပမာ- noun, verb, adjective)။
Sequence Classification Problem: စာသား sequence တစ်ခုလုံးကို သတ်မှတ်ထားသော အမျိုးအစားတစ်ခုသို့ ခွဲခြားသတ်မှတ်ခြင်း လုပ်ငန်း။
Named Entity Recognition (NER): စာသားထဲက လူအမည်၊ နေရာအမည်၊ အဖွဲ့အစည်းအမည် စတဲ့ သီးခြားအမည်တွေကို ရှာဖွေဖော်ထုတ်ခြင်း။
Preprocessing Pipelines: AI မော်ဒယ်များအတွက် ဒေတာများကို ပြင်ဆင်ရန် အဆင့်ဆင့်လုပ်ဆောင်ရသော လုပ်ငန်းစဉ်များ။
Tokenize: စာသား (သို့မဟုတ် အခြားဒေတာ) ကို AI မော်ဒယ်များ စီမံဆောင်ရွက်နိုင်ရန် tokens တွေအဖြစ် ပိုင်းခြားပေးသည့် လုပ်ငန်းစဉ်။
Subword Tokenization Model: စကားလုံးများကို သေးငယ်သော subword units (ဥပမာ- word pieces, byte-pair encodings) များအဖြစ် ပိုင်းခြားသော model။
Full Tokenization Pipeline: စာသားကို tokens များအဖြစ် ပြောင်းလဲရန် လိုအပ်သော အဆင့်များအားလုံး (ဥပမာ- splitting, subword tokenization, special token addition)။
Special Tokens: Model များအတွက် အထူးအဓိပ္ပာယ်ရှိသော tokens များ (ဥပမာ- [CLS], [SEP], [PAD])။
-100 (Label): Loss တွက်ချက်မှုတွင် လျစ်လျူရှုရန် သတ်မှတ်ထားသော label တန်ဖိုး။
Truncate: input sequence ကို အရှည်သတ်မှတ်ချက်တစ်ခုအထိ ဖြတ်တောက်ခြင်း။
Pad: input sequence များကို သတ်မှတ်ထားသော အရှည်အထိ တူညီအောင် အပို tokens များထည့်သွင်းခြင်း။
Labels: AI မော်ဒယ်ကို လေ့ကျင့်ရာတွင် အသုံးပြုသော မှန်ကန်သည့် output တန်ဖိုးများ။
Original Labels: preprocessing မလုပ်မီက ဒေတာနှင့် တွဲလျက်ပါရှိသော မူရင်း labels များ။
Align Labels: original labels များကို tokenization ပြုလုပ်ပြီးနောက် ရရှိလာသော tokens များနှင့် ကိုက်ညီအောင် ချိန်ညှိခြင်း။
Domain Adaptation: မော်ဒယ်တစ်ခုကို မူလလေ့ကျင့်ထားသော domain မှ ကွဲပြားခြားနားသော domain အသစ်တစ်ခုတွင် ပိုမိုကောင်းမွန်စွာ လုပ်ဆောင်နိုင်စေရန် ချိန်ညှိခြင်း။
Inference: လေ့ကျင့်ပြီးသား Artificial Intelligence (AI) မော်ဒယ်တစ်ခုကို အသုံးပြုပြီး input data ကနေ ခန့်မှန်းချက်တွေ ဒါမှမဟုတ် output တွေကို ထုတ်လုပ်တဲ့ လုပ်ငန်းစဉ်။
Fine-tune: ကြိုတင်လေ့ကျင့်ထားပြီးသား (pre-trained) မော်ဒယ်တစ်ခုကို သီးခြားလုပ်ငန်းတစ်ခု (specific task) အတွက် အနည်းငယ်သော ဒေတာနဲ့ ထပ်မံလေ့ကျင့်ပေးခြင်းကို ဆိုလိုပါတယ်။
Robust: မတူညီသော input များ သို့မဟုတ် အခြေအနေများအောက်တွင် ကောင်းစွာလုပ်ဆောင်နိုင်ခြင်း။
Masked Language Modeling (MLM): စာကြောင်းတစ်ခုထဲမှ စကားလုံးအချို့ကို ဝှက်ထားပြီး ၎င်းတို့ကို ခန့်မှန်းစေခြင်းဖြင့် model ကို လေ့ကျင့်သော task (BERT ကဲ့သို့)။
Input Sentence: model သို့ ပေးပို့သော စာကြောင်း။
Randomly Masked: ကျပန်းရွေးချယ်ထားသော စကားလုံးများကို ဖုံးကွယ်ထားခြင်း။
Original Input Tokens: mask မလုပ်မီက မူရင်း input sequence ရှိ tokens များ။
Causal Language Modeling: စာကြောင်းတစ်ခု၏ နောက်ဆက်တွဲ token (စကားလုံး) ကို ခန့်မှန်းခြင်းဖြင့် model ကို လေ့ကျင့်သော task (GPT-2 ကဲ့သို့)။
Data Augmentation: Training data ကို အမျိုးမျိုးသော နည်းလမ်းများဖြင့် တိုးချဲ့ခြင်း။
Sequence-to-sequence Problem: input sequence တစ်ခုမှ output sequence တစ်ခုသို့ ပြောင်းလဲခြင်း လုပ်ငန်း (ဥပမာ- translation, summarization)။
Summarization: ရှည်လျားသော စာသားတစ်ခု၏ အနှစ်ချုပ်ကို ထုတ်လုပ်ခြင်း။
Question Answering Problem: ပေးထားသော စာသားတစ်ခုမှ မေးခွန်းတစ်ခု၏ အဖြေကို ရှာဖွေခြင်း။
Translation Problem: ဘာသာစကားတစ်ခုမှ အခြားဘာသာစကားတစ်ခုသို့ စာသားများကို ဘာသာပြန်ခြင်း။
Inputs: model သို့ ပေးပို့သော ဒေတာ။
Targets: model ၏ လိုချင်သော output များ (labels)။
Context Manager (Python): with statement ကို အသုံးပြု၍ အရင်းအမြစ်များကို စီမံခန့်ခွဲရန် ကူညီပေးသော Python အင်္ဂါရပ်။
Trainer: Hugging Face Transformers library မှ model များကို လေ့ကျင့်ရန်အတွက် မြင့်မားသောအဆင့် (high-level) API။
Custom Loss: ပုံမှန် loss function မဟုတ်ဘဲ သီးခြားလိုအပ်ချက်များအတွက် ဖန်တီးထားသော loss function။
Evaluation Loop: model ၏ စွမ်းဆောင်ရည်ကို အကဲဖြတ်ရန် လုပ်ဆောင်သော လုပ်ငန်းစဉ်။
generate() Method: Sequence-to-sequence models များတွင် text ကို generate (ထုတ်လုပ်) ရန် အသုံးပြုသော method။
Encoder: Transformer Architecture ၏ အစိတ်အပိုင်းတစ်ခုဖြစ်ပြီး input data (ဥပမာ- စာသား) ကို နားလည်ပြီး ကိုယ်စားပြုတဲ့ အချက်အလက် (representation) အဖြစ် ပြောင်းလဲပေးပါတယ်။
Decoder: Transformer Architecture ၏ အစိတ်အပိုင်းတစ်ခုဖြစ်ပြီး encoder ကနေ ရရှိတဲ့ အချက်အလက် (representation) ကို အသုံးပြုပြီး output data (ဥပမာ- ဘာသာပြန်ထားတဲ့ စာသား) ကို ထုတ်ပေးပါတယ်။
compile() Method: Keras API တွင် model ကို training အတွက် ပြင်ဆင်ရန် အသုံးပြုသော method။ ၎င်းသည် optimizer, loss function နှင့် metrics များကို သတ်မှတ်သည်။
Unsupervised Learning: Labels မပါဝင်သော data များကို အသုံးပြု၍ model ကို လေ့ကျင့်ခြင်း။
Loss Function: Model ၏ ခန့်မှန်းချက်များနှင့် အမှန်တကယ် labels များကြား ကွာခြားမှုကို တိုင်းတာသော function။
model.internal_loss_output: model ၏အတွင်းပိုင်းမှ ထုတ်လုပ်သော loss တန်ဖိုး။
model.fit(): Keras API တွင် model ကို training data ဖြင့် လေ့ကျင့်ရန် အသုံးပြုသော method။
Pretrain a New Model: မည်သည့် ကြိုတင်လေ့ကျင့်မှုမျှ မရှိဘဲ လုံးဝအသစ်ကနေ model တစ်ခုကို လေ့ကျင့်ခြင်း။
Compute Costs: AI model များ လေ့ကျင့်ရန်အတွက် လိုအပ်သော ကွန်ပျူတာ အရင်းအမြစ်များ (CPU, GPU) ၏ ကုန်ကျစရိတ်။
Self-supervised Problem: Input data ကိုယ်တိုင်ကနေ labels တွေကို ဖန်တီးယူပြီး model ကို လေ့ကျင့်တဲ့ ပြဿနာ (ဥပမာ- language modeling)။
Contexts (QA): မေးခွန်းရဲ့ အဖြေပါဝင်နိုင်တဲ့ ရှည်လျားသော စာသား။
Training Features: training အတွက် ပြင်ဆင်ထားသော input data ၏ အစိတ်အပိုင်းများ။
Answer Span: မေးခွန်းရဲ့ အဖြေပါဝင်တဲ့ text ထဲက အပိုင်း။
Start/End Token: answer span ရဲ့ စတင်တဲ့ token နဲ့ ဆုံးဖြတ်တဲ့ token ရဲ့ အနေအထား။
Post-processing: Model ၏ output များကို နောက်ဆုံးအသုံးပြုမှုအတွက် ပြင်ဆင်ခြင်း လုပ်ငန်းစဉ်။
Decode: token IDs များကို မူရင်းစာသား (သို့မဟုတ် အခြားပုံစံ) အဖြစ် ပြန်လည်ပြောင်းလဲခြင်း။
Score: Model က ခန့်မှန်းချက်တစ်ခုအတွက် ပေးသော ယုံကြည်စိတ်ချရမှု တန်ဖိုး။

Update on GitHub

←LLM များကို ကျွမ်းကျင်ခြင်း