weblab-llm-competition-2025-bridge / oNo-1-Qwen3-235B-A22B-Thinking-difficult-problem-dataset-v4

概要

Qwen3-235B-A22B-Thinking-2507 をベースとして、最後層の self-attention(q_proj / k_proj / v_proj / o_proj)に限定して LoRA 学習を行い、その差分を CPU 並列でベース重みにマージ(merge)たモデルです。学習には oNo-1 による difficult_problem_dataset_v4 の 500 件サブセットを用い、SFT(ChatML)と KV 自己蒸留を適用しました。本モデルはベース同等サイズの重みを持ち、実運用では分散推論(FSDP/TP 等)を前提とします。


推論方法

詳細手順は以下の外部ドキュメントを参照してください。

Notion(推論手順): https://www.notion.so/277e14b94af5809a88f5e7a89c707bcb?source=copy_link


学習レシピ

  • 方式: QLoRA(4bit NF4 / BF16 計算)
  • 対象モジュール: q_proj, k_proj, v_proj, o_proj
  • 主なハイパーパラメータ: lora_r=8, lora_alpha=16, lora_dropout=0.1, lr=1e-4, epochs=1
  • その他: bf16=True, gradient_checkpointing=True, group_by_length=True, lazy_preprocess=True
  • KV 自己蒸留: --kv_sd --kv_sd_alpha 0.9

データセット

  • 名称: oNo-1/difficult_problem_dataset_v4_500(difficult_problem_dataset_v4 の 500 件サブセット)
  • 形式: messages<think>…</think> を含む思考テキストと最終回答を格納
  • 作成プロセス(要約): 多段生成 → キュレーション/多様性フィルタ → 進化的改良 → 推論過程付与(SDG)
  • ライセンス: ODC-BY 1.0(データベース著作物の表示義務)

ライセンスと表記

  • モデル配布ライセンス: Apache-2.0 本モデルは Qwen/Qwen3-235B-A22B-Thinking-2507(Apache-2.0)をベースに、最後層の一部を LoRA 微調整・マージした改変物です。再配布時は Apache-2.0 の条件(著作権表示・LICENSE 同梱等)に従ってください。
  • 学習データライセンス: ODC-BY 1.0 本モデルの学習には ODC-BY 1.0 に基づくデータベースを利用しています。再配布時はデータ提供者への適切な表示(Attribution)を README 等に明記してください。

制限事項

  • 235B クラスの規模のため、単一 GPU での実用推論は困難です。分散推論(FSDP/TP 等)を推奨します。
  • 公開・配布時は、モデル(Apache-2.0)とデータセット(ODC-BY 1.0)の両条件を順守してください。
Downloads last month
5
Safetensors
Model size
235B params
Tensor type
BF16
·
Inference Providers NEW
This model isn't deployed by any Inference Provider. 🙋 Ask for provider support

Model tree for weblab-llm-competition-2025-bridge/oNo-1-Qwen3-235B-A22B-Thinking-difficult-problem-dataset-v4

Adapter
(2)
this model

Dataset used to train weblab-llm-competition-2025-bridge/oNo-1-Qwen3-235B-A22B-Thinking-difficult-problem-dataset-v4

Collection including weblab-llm-competition-2025-bridge/oNo-1-Qwen3-235B-A22B-Thinking-difficult-problem-dataset-v4