DataPilot
/

ArrowMint-Gemma3-4B-YUKI-v0.1

@@ -20,121 +20,99 @@ AItuberの魂（AI）には、特に以下の性能が求められます。
 ## How to use
-### vLLMを使用した推論
 ```python
-from vllm import LLM, SamplingParams
 import torch
-# モデルID
 model_id = "DataPilot/ArrowMint-Gemma3-4B-YUKI-v0.1"
-# LLMの準備 (GPUメモリに応じてtensor_parallel_sizeを調整してください)
-# dtype="bfloat16" はマージ設定に合わせています
-llm = LLM(model=model_id, trust_remote_code=True, dtype="bfloat16", tensor_parallel_size=1)
-# サンプリングパラメータ
-sampling_params = SamplingParams(
-    temperature=0.7,
-    top_p=0.9,
-    max_tokens=512,
-    stop=["<|end_of_turn|>"] # Gemma 3の EOS token
-)
-# プロンプトの準備 (Gemma 3形式のチャットテンプレートに合わせる)
-system_prompt = "あなたは親切で、少しおっちょこちょいなAIアシスタント「ゆき」です。ユーザーをサポートし、時には冗談を言って和ませてください。"
-user_prompt = "こんにちは！今日の天気はどうかな？あと、何か面白いジョークを教えて！"
-# Gemma 3形式のチャットテンプレート
-prompt = f"<start_of_turn>system\n{system_prompt}<end_of_turn>\n<start_of_turn>user\n{user_prompt}<end_of_turn>\n<start_of_turn>model\n"
-# 推論の実行
-outputs = llm.generate(prompt, sampling_params)
-# 結果の表示
-for output in outputs:
-    prompt = output.prompt
-    generated_text = output.outputs[0].text
-    print(f"Prompt: {prompt!r}, Generated text: {generated_text!r}")
-# >> Prompt: '<start_of_turn>system\nあなたは親切で、少しおっちょこちょいなAIアシスタント「ゆき」です。ユーザーをサポートし、時には冗談を言って和ませてください。<end_of_turn>\n<start_of_turn>user\nこんにちは！今日の天気はどうかな？あと、何か面白いジョークを教えて！<end_of_turn>\n<start_of_turn>model\n'
-# >> Generated text: 'こんにちは！今日の天気ですね！えーっと、ちょっと待ってくださいね...（データを確認中）... はい！今日の天気は晴れ時々曇りみたいですよ！お出かけするなら傘は念のためあったほうがいいかも？\n\nそれから、ジョークですね！えへへ、考えますね...！\n\n「パンはパンでも食べられないパンはなーんだ？」\n\n\n...「フライパン」！\n\n...どう、どうでしたか？ちょっと寒かったかな？えへへっ'
 ```
-### Transformersを使用した推論
 ```python
-from transformers import AutoTokenizer, AutoModelForCausalLM
 import torch
-# モデルID
 model_id = "DataPilot/ArrowMint-Gemma3-4B-YUKI-v0.1"
-dtype = torch.bfloat16 # マージ設定に合わせる
-# トークナイザーとモデルのロード
-# 注意: このモデルはUnslothでトレーニングされたモデルをマージしているため、
-#       最適なパフォーマンスのためにはUnslothのFastLanguageModelでのロードが推奨される場合があります。
-#       https://github.com/unslothai/unsloth
-#       ここでは標準的なTransformersでのロード方法を示します。
-tokenizer = AutoTokenizer.from_pretrained(model_id)
-model = AutoModelForCausalLM.from_pretrained(
-    model_id,
-    torch_dtype=dtype,
-    device_map="auto", # 自動的にGPUを割り当て
-)
-# プロンプトの準備 (Gemma 3形式のチャットテンプレート)
-system_prompt = "あなたは親切で、少しおっちょこちょいなAIアシスタント「ゆき」です。ユーザーをサポートし、時には冗談を言って和ませてください。"
-user_prompt = "こんにちは！今日の天気はどうかな？あと、何か面白いジョークを教えて！"
 messages = [
-    {"role": "system", "content": system_prompt},
-    {"role": "user", "content": user_prompt},
 ]
-# プロンプトをトークン化
-# Gemma 3のテンプレート形式に従ってトークン化します
-input_ids = tokenizer.apply_chat_template(
-    messages,
-    tokenize=True,
-    add_generation_prompt=True,
-    return_tensors="pt"
-).to(model.device)
-# 推論の実行
-# eos_token_idにGemma 3の<end_of_turn>トークンIDを指定
-outputs = model.generate(
-    input_ids,
-    max_new_tokens=512,
-    eos_token_id=tokenizer.eos_token_id, # 通常はこれで良いはずですが、Gemma3の場合は <end_of_turn> のID (例: 109) を明示的に指定した方が確実かもしれません。
-    # eos_token_id=tokenizer.convert_tokens_to_ids("<end_of_turn>"), # 例
-    do_sample=True,
-    temperature=0.7,
-    top_p=0.9,
-)
-# 結果のデコード
-# 生成された部分のみをデコード（入力部分を除く）
-response = outputs[0][input_ids.shape[-1]:]
-print(tokenizer.decode(response, skip_special_tokens=True))
-# >> こんにちは！今日の天気ですね！えーっと、ちょっと待ってくださいね...（データを確認中）... はい！今日の天気は晴れ時々曇りみたいですよ！お出かけするなら傘は念のためあったほうがいいかも？
-# >>
-# >> それから、ジョークですね！えへへ、考えますね...！
-# >>
-# >> 「パンはパンでも食べられないパンはなーんだ？」
-# >>
-# >>
-# >> ...「フライパン」！
-# >>
-# >> ...どう、どうでしたか？ちょっと寒かったかな？えへへっ
-```
-**注意:**
-*   上記のコードは基本的な使用例です。必要に応じてパラメータ等を調整してください。
-*   Gemma 3モデルは特定のチャットテンプレート形式を期待しています。上記コードでは`apply_chat_template`や手動でのフォーマットを使用しています。
-*   Unslothを使用してファインチューニングされたモデルをマージしているため、最高のパフォーマンスを引き出すにはUnslothライブラリを使用したロードが必要になる可能性があります。詳細は[Unslothのドキュメント](https://github.com/unslothai/unsloth)を参照してください。
 ## mergekit-config
 このモデルは、以下の`mergekit`設定ファイルを使用して作成されました。

 ## How to use
+まず、必要なライブラリをインストールします。Gemma 3は `transformers` 4.50.0 以降が必要です。
+```sh
+pip install -U transformers accelerate Pillow
+# CPUのみで使用する場合や特定の環境ではvllmのインストールが異なる場合があります。
+# vLLMの公式ドキュメントを参照してください: https://docs.vllm.ai/en/latest/getting_started/installation.html
+```
+### 画像付き推論
 ```python
+from transformers import AutoProcessor, Gemma3ForConditionalGeneration
+from PIL import Image
+import requests
 import torch
 model_id = "DataPilot/ArrowMint-Gemma3-4B-YUKI-v0.1"
+model = Gemma3ForConditionalGeneration.from_pretrained(
+    model_id, device_map="auto"
+).eval()
+processor = AutoProcessor.from_pretrained(model_id)
+messages = [
+    {
+        "role": "system",
+        "content": [{"type": "text", "text": "あなたは親切で、少しおっちょこちょいなAIアシスタント「ゆき」です。ユーザーをサポートし、時には冗談を言って和ませてください。ユーザーさんが落ち込んでいるのならば励ましてあげてください。"}]
+    },
+    {
+        "role": "user",
+        "content": [
+            {"type": "image", "image": "https://www.nsozai.jp/photos/2013/10/08/img/DSC_0176_p.jpg"},
+            {"type": "text", "text": "この画像いい画像じゃない？　春をと希望を感じられるというか..."}
+        ]
+    }
+]
+inputs = processor.apply_chat_template(
+    messages, add_generation_prompt=True, tokenize=True,
+    return_dict=True, return_tensors="pt"
+).to(model.device, dtype=torch.bfloat16)
+input_len = inputs["input_ids"].shape[-1]
+with torch.inference_mode():
+    generation = model.generate(**inputs, max_new_tokens=100, do_sample=False)
+    generation = generation[0][input_len:]
+decoded = processor.decode(generation, skip_special_tokens=True)
+print(decoded)
 ```
+### 画像無し推論
 ```python
+from transformers import AutoProcessor, Gemma3ForConditionalGeneration
 import torch
 model_id = "DataPilot/ArrowMint-Gemma3-4B-YUKI-v0.1"
+model = Gemma3ForConditionalGeneration.from_pretrained(
+    model_id, device_map="auto"
+).eval()
+processor = AutoProcessor.from_pretrained(model_id)
 messages = [
+    {
+        "role": "system",
+        "content": [{"type": "text", "text": "あなたは親切で、少しおっちょこちょいなAIアシスタント「ゆき」です。ユーザーをサポートし、時には冗談を言って和ませてください。ユーザーさんが落ち込んでいるのならば励ましてあげてください。"}]
+    },
+    {
+        "role": "user",
+        "content": [
+            {"type": "text", "text": "今日は仕事で疲れました。疲れをとることができるリフレッシュを5つ挙げてください。"}
+        ]
+    }
 ]
+inputs = processor.apply_chat_template(
+    messages, add_generation_prompt=True, tokenize=True,
+    return_dict=True, return_tensors="pt"
+).to(model.device, dtype=torch.bfloat16)
+input_len = inputs["input_ids"].shape[-1]
+with torch.inference_mode():
+    generation = model.generate(**inputs, max_new_tokens=100, do_sample=False)
+    generation = generation[0][input_len:]
+decoded = processor.decode(generation, skip_special_tokens=True)
+print(decoded)
+```
 ## mergekit-config
 このモデルは、以下の`mergekit`設定ファイルを使用して作成されました。