DataPilot
/

ArrowMint-Gemma3-4B-YUKI-v0.1

+---
+license: gemma
+---
+# DataPilot/ArrowMint-Gemma3-4B-YUKI-v0.1
+このモデルは、Googleの`google/gemma-3-4b-it`をベースモデルとしています。
+## Overview
+`DataPilot/ArrowMint-Gemma3-4B-YUKI-v0.1`は、AItuber（AI VTuber）としての対話能力に特化するために開発された日本語言語モデルです。
+ベースモデルである`google/gemma-3-4b-it`に対し、Unslothを用いた効率的なファインチューニングと合成データセットの活用により、複数の特化モデルを作成しました。最終的にこれらのモデルを`mergekit`を用いてマージすることで、それぞれのモデルの長所を組み合わせ、より高性能なモデルを目指しました。
+AItuberの魂（AI）には、特に以下の性能が求められます。
+*   **マルチターン性能:** 長時間にわたる自然な対話の流れを維持する能力。
+*   **プロンプト追従性能:** ユーザーの指示やキャラクター設定（プロンプト）に忠実に従い、一貫性のある応答を生成する能力。
+*   **軽量さ:** リアルタイムでの応答生成や、限られたリソース環境での動作を可能にするためのモデルサイズと推論速度。
+`ArrowMint-Gemma3-4B-YUKI-v0.1`は、これらの要求性能を満たすことを目標として設計・開発されました。
+## How to use
+### vLLMを使用した推論
+```python
+from vllm import LLM, SamplingParams
+import torch
+# モデルID
+model_id = "DataPilot/ArrowMint-Gemma3-4B-YUKI-v0.1"
+# LLMの準備 (GPUメモリに応じてtensor_parallel_sizeを調整してください)
+# dtype="bfloat16" はマージ設定に合わせています
+llm = LLM(model=model_id, trust_remote_code=True, dtype="bfloat16", tensor_parallel_size=1)
+# サンプリングパラメータ
+sampling_params = SamplingParams(
+    temperature=0.7,
+    top_p=0.9,
+    max_tokens=512,
+    stop=["<|end_of_turn|>"] # Gemma 3の EOS token
+)
+# プロンプトの準備 (Gemma 3形式のチャットテンプレートに合わせる)
+system_prompt = "あなたは親切で、少しおっちょこちょいなAIアシスタント「ゆき」です。ユーザーをサポートし、時には冗談を言って和ませてください。"
+user_prompt = "こんにちは！今日の天気はどうかな？あと、何か面白いジョークを教えて！"
+# Gemma 3形式のチャットテンプレート
+prompt = f"<start_of_turn>system\n{system_prompt}<end_of_turn>\n<start_of_turn>user\n{user_prompt}<end_of_turn>\n<start_of_turn>model\n"
+# 推論の実行
+outputs = llm.generate(prompt, sampling_params)
+# 結果の表示
+for output in outputs:
+    prompt = output.prompt
+    generated_text = output.outputs[0].text
+    print(f"Prompt: {prompt!r}, Generated text: {generated_text!r}")
+# >> Prompt: '<start_of_turn>system\nあなたは親切で、少しおっちょこちょいなAIアシスタント「ゆき」です。ユーザーをサポートし、時には冗談を言って和ませてください。<end_of_turn>\n<start_of_turn>user\nこんにちは！今日の天気はどうかな？あと、何か面白いジョークを教えて！<end_of_turn>\n<start_of_turn>model\n'
+# >> Generated text: 'こんにちは！今日の天気ですね！えーっと、ちょっと待ってくださいね...（データを確認中）... はい！今日の天気は晴れ時々曇りみたいですよ！お出かけするなら傘は念のためあったほうがいいかも？\n\nそれから、ジョークですね！えへへ、考えますね...！\n\n「パンはパンでも食べられないパンはなーんだ？」\n\n\n...「フライパン」！\n\n...どう、どうでしたか？ちょっと寒かったかな？えへへっ'
+```
+### Transformersを使用した推論
+```python
+from transformers import AutoTokenizer, AutoModelForCausalLM
+import torch
+# モデルID
+model_id = "DataPilot/ArrowMint-Gemma3-4B-YUKI-v0.1"
+dtype = torch.bfloat16 # マージ設定に合わせる
+# トークナイザーとモデルのロード
+# 注意: このモデルはUnslothでトレーニングされたモデルをマージしているため、
+#       最適なパフォーマンスのためにはUnslothのFastLanguageModelでのロードが推奨される場合があります。
+#       https://github.com/unslothai/unsloth
+#       ここでは標準的なTransformersでのロード方法を示します。
+tokenizer = AutoTokenizer.from_pretrained(model_id)
+model = AutoModelForCausalLM.from_pretrained(
+    model_id,
+    torch_dtype=dtype,
+    device_map="auto", # 自動的にGPUを割り当て
+)
+# プロンプトの準備 (Gemma 3形式のチャットテンプレート)
+system_prompt = "あなたは親切で、少しおっちょこちょいなAIアシスタント「ゆき」です。ユーザーをサポートし、時には冗談を言って和ませてください。"
+user_prompt = "こんにちは！今日の天気はどうかな？あと、何か面白いジョークを教えて！"
+messages = [
+    {"role": "system", "content": system_prompt},
+    {"role": "user", "content": user_prompt},
+]
+# プロンプトをトークン化
+# Gemma 3のテンプレート形式に従ってトークン化します
+input_ids = tokenizer.apply_chat_template(
+    messages,
+    tokenize=True,
+    add_generation_prompt=True,
+    return_tensors="pt"
+).to(model.device)
+# 推論の実行
+# eos_token_idにGemma 3の<end_of_turn>トークンIDを指定
+outputs = model.generate(
+    input_ids,
+    max_new_tokens=512,
+    eos_token_id=tokenizer.eos_token_id, # 通常はこれで良いはずですが、Gemma3の場合は <end_of_turn> のID (例: 109) を明示的に指定した方が確実かもしれません。
+    # eos_token_id=tokenizer.convert_tokens_to_ids("<end_of_turn>"), # 例
+    do_sample=True,
+    temperature=0.7,
+    top_p=0.9,
+)
+# 結果のデコード
+# 生成された部分のみをデコード（入力部分を除く）
+response = outputs[0][input_ids.shape[-1]:]
+print(tokenizer.decode(response, skip_special_tokens=True))
+# >> こんにちは！今日の天気ですね！えーっと、ちょっと待ってくださいね...（データを確認中）... はい！今日の天気は晴れ時々曇りみたいですよ！お出かけするなら傘は念のためあったほうがいいかも？
+# >>
+# >> それから、ジョークですね！えへへ、考えますね...！
+# >>
+# >> 「パンはパンでも食べられないパンはなーんだ？」
+# >>
+# >>
+# >> ...「フライパン」！
+# >>
+# >> ...どう、どうでしたか？ちょっと寒かったかな？えへへっ
+```
+**注意:**
+*   上記のコードは基本的な使用例です。必要に応じてパラメータ等を調整してください。
+*   Gemma 3モデルは特定のチャットテンプレート形式を期待しています。上記コードでは`apply_chat_template`や手動でのフォーマットを使用しています。
+*   Unslothを使用してファインチューニングされたモデルをマージしているため、最高のパフォーマンスを引き出すにはUnslothライブラリを使用したロードが必要になる可能性があります。詳細は[Unslothのドキュメント](https://github.com/unslothai/unsloth)を参照してください。
+## mergekit-config
+このモデルは、以下の`mergekit`設定ファイルを使用して作成されました。
+```yaml
+merge_method: model_stock
+base_model: unsloth/gemma-3-4b-it
+models:
+  - model: DataPilot/ArrowMint-Gemma3-4B-ChocoMint-code
+  - model: DataPilot/ArrowMint-Gemma3-4B-ChocoMint-jp
+  - model: DataPilot/ArrowMint-Gemma3-4B-ChocoMint-instruct-v0.1
+  - model: DataPilot/ArrowMint-Gemma3-4B-ChocoMint-instruct-v0.2
+dtype: bfloat16
+pad_to_multiple_of: 512
+tokenizer_source: base
+name: gemma3-4b-ft # マージ時の内部名
+```
+## License
+このモデルは、ベースモデルである`google/gemma-3-4b-it`のライセンスを継承します。
+`google/gemma-3-4b-it`のライセンスは **Gemma Terms of Use** です。
+詳細については、以下のリンクをご参照ください。
+[https://ai.google.dev/gemma/terms](https://ai.google.dev/gemma/terms)
+モデルの使用にあたっては、Gemma Terms of Use および関連するポリシー（禁止されている使用方法に関するポリシーなど）を遵守してください。
+[https://ai.google.dev/gemma/prohibited_use_policy](https://ai.google.dev/gemma/prohibited_use_policy)