oNo.1_models
Collection
15 items
•
Updated
Qwen3-235B-A22B-Thinking-2507 をベースとして、最後層の self-attention(q_proj / k_proj / v_proj / o_proj)に限定して LoRA 学習を行い、その差分を CPU 並列でベース重みにマージ(merge)たモデルです。学習には oNo-1 による difficult_problem_dataset_v4 の 500 件サブセットを用い、SFT(ChatML)と KV 自己蒸留を適用しました。本モデルはベース同等サイズの重みを持ち、実運用では分散推論(FSDP/TP 等)を前提とします。
詳細手順は以下の外部ドキュメントを参照してください。
Notion(推論手順): https://www.notion.so/277e14b94af5809a88f5e7a89c707bcb?source=copy_link
q_proj, k_proj, v_proj, o_projlora_r=8, lora_alpha=16, lora_dropout=0.1, lr=1e-4, epochs=1bf16=True, gradient_checkpointing=True, group_by_length=True, lazy_preprocess=True--kv_sd --kv_sd_alpha 0.9oNo-1/difficult_problem_dataset_v4_500(difficult_problem_dataset_v4 の 500 件サブセット)messages に <think>…</think> を含む思考テキストと最終回答を格納Qwen/Qwen3-235B-A22B-Thinking-2507(Apache-2.0)をベースに、最後層の一部を LoRA 微調整・マージした改変物です。再配布時は Apache-2.0 の条件(著作権表示・LICENSE 同梱等)に従ってください。Base model
Qwen/Qwen3-235B-A22B-Thinking-2507