Upload README_CN.md with huggingface_hub
Browse files- README_CN.md +61 -6
README_CN.md
CHANGED
|
@@ -24,7 +24,7 @@ tags:
|
|
| 24 |
</div>
|
| 25 |
<div align="center">
|
| 26 |
🤗 <a href="https://huggingface.co/qihoo360">Hugging Face</a>   |   
|
| 27 |
-
🤖 <a href="https://
|
| 28 |
💬 <a href="./assets/WeChat.png">WeChat (微信)</a>  
|
| 29 |
</div>
|
| 30 |
<br>
|
|
@@ -71,14 +71,17 @@ token,第二阶段我们加⼤了⾼质量数据的占⽐,训练了100B⾼
|
|
| 71 |
本次发布版本和下载链接见下表:
|
| 72 |
| Size | Model | BF16 | Int4|
|
| 73 |
|:-:|-|:-:|:-:|
|
| 74 |
-
| 7B | 360Zhinao2-7B-Base | <a href="https://
|
| 75 |
-
| 7B | 360Zhinao2-7B-Chat-4K | <a href="https://
|
| 76 |
-
| 7B | 360Zhinao2-7B-Chat-32K | <a href="https://
|
| 77 |
-
| 7B | 360Zhinao2-7B-Chat-360K | <a href="https://
|
| 78 |
|
| 79 |
<br>
|
| 80 |
|
| 81 |
# 模型评估
|
|
|
|
|
|
|
|
|
|
| 82 |
我们使⽤了开源⼯具opencompass对模型进⾏评估,对⽐了近半年国内外开源的10B以下模型,
|
| 83 |
360Zhinao2-7B具备较强的竞争⼒。360Zhinao2-7B在CEval(中⽂
|
| 84 |
考试)、C3(中⽂阅读理解)、lcsts(中⽂短⽂本摘要)等中⽂benchmark上表现不俗,中⽂
|
|
@@ -169,7 +172,59 @@ benchmark均分排名第⼀。在挑战性的竞赛数学数据集math上,同
|
|
| 169 |
</tr>
|
| 170 |
</table>
|
| 171 |
|
| 172 |
-
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
| 173 |
|
| 174 |
# 快速开始
|
| 175 |
简单的示例来说明如何利用🤖 ModelScope和🤗 Transformers快速使用360Zhinao2-7B-Base和360Zhinao2-7B-Chat
|
|
|
|
| 24 |
</div>
|
| 25 |
<div align="center">
|
| 26 |
🤗 <a href="https://huggingface.co/qihoo360">Hugging Face</a>   |   
|
| 27 |
+
🤖 <a href="https://modelscope.cn/organization/360zhinao">ModelScope</a>   |   
|
| 28 |
💬 <a href="./assets/WeChat.png">WeChat (微信)</a>  
|
| 29 |
</div>
|
| 30 |
<br>
|
|
|
|
| 71 |
本次发布版本和下载链接见下表:
|
| 72 |
| Size | Model | BF16 | Int4|
|
| 73 |
|:-:|-|:-:|:-:|
|
| 74 |
+
| 7B | 360Zhinao2-7B-Base | <a href="https://modelscope.cn/models/360zhinao/360Zhinao2-7B-Base/summary">🤖</a> <a href="https://huggingface.co/qihoo360/360Zhinao2-7B-Base">🤗</a> | |
|
| 75 |
+
| 7B | 360Zhinao2-7B-Chat-4K | <a href="https://modelscope.cn/models/360zhinao/360Zhinao2-7B-Chat-4K/summary">🤖</a> <a href="https://huggingface.co/qihoo360/360Zhinao2-7B-Chat-4K">🤗</a> | <a href="https://modelscope.cn/models/360zhinao/360Zhinao2-7B-Chat-4K-Int4/summary">🤖</a> <a href="https://huggingface.co/qihoo360/360Zhinao2-7B-Chat-4K-Int4">🤗</a> |
|
| 76 |
+
| 7B | 360Zhinao2-7B-Chat-32K | <a href="https://modelscope.cn/models/360zhinao/360Zhinao2-7B-Chat-32K/summary">🤖</a> <a href="https://huggingface.co/qihoo360/360Zhinao2-7B-Chat-32K">🤗</a> | <a href="https://modelscope.cn/models/360zhinao/360Zhinao2-7B-Chat-32K-Int4/summary">🤖</a> <a href="https://huggingface.co/qihoo360/360Zhinao2-7B-Chat-32K-Int4">🤗</a> |
|
| 77 |
+
| 7B | 360Zhinao2-7B-Chat-360K | <a href="https://modelscope.cn/models/360zhinao/360Zhinao2-7B-Chat-360K/summary">🤖</a> <a href="https://huggingface.co/qihoo360/360Zhinao2-7B-Chat-360K">🤗</a> | <a href="https://modelscope.cn/models/360zhinao/360Zhinao2-7B-Chat-360K-Int4/summary">🤖</a> <a href="https://huggingface.co/qihoo360/360Zhinao2-7B-Chat-360K-Int4">🤗</a> |
|
| 78 |
|
| 79 |
<br>
|
| 80 |
|
| 81 |
# 模型评估
|
| 82 |
+
|
| 83 |
+
## 基础模型
|
| 84 |
+
|
| 85 |
我们使⽤了开源⼯具opencompass对模型进⾏评估,对⽐了近半年国内外开源的10B以下模型,
|
| 86 |
360Zhinao2-7B具备较强的竞争⼒。360Zhinao2-7B在CEval(中⽂
|
| 87 |
考试)、C3(中⽂阅读理解)、lcsts(中⽂短⽂本摘要)等中⽂benchmark上表现不俗,中⽂
|
|
|
|
| 172 |
</tr>
|
| 173 |
</table>
|
| 174 |
|
| 175 |
+
|
| 176 |
+
## Chat模型
|
| 177 |
+
|
| 178 |
+
### 后训练数据
|
| 179 |
+
360自有通用微调数据50w,该数据综合考虑各个技能及360垂直业务数据,生成方法如下:
|
| 180 |
+
1. 数据多样性:根据360自有标签体系进行领域,意图,难度,长度的分层采样,确保指令多样性
|
| 181 |
+
2. 数据质量:使用开源数据以及自有的偏序数据训练了360gpt-pro-rm(reward bench得分92.59),使用该模型进行样本筛选,过滤response低质数据
|
| 182 |
+
3. 复杂指令进化:使用进化方式做复杂指令优化,优化指令跟随能力
|
| 183 |
+
|
| 184 |
+
### 训练方法
|
| 185 |
+
1. 全参数微调
|
| 186 |
+
|
| 187 |
+
基于通用后训练数据,进行全参数微调,选择最优checkpoint作为sft-base。
|
| 188 |
+
|
| 189 |
+
2. Lora offline DPO强化
|
| 190 |
+
|
| 191 |
+
使用人类标注好的偏好pair对,采用Lora方法对sft-base进行lora微调,然后进行lora DPO训练。
|
| 192 |
+
|
| 193 |
+
3. Iterative on-policy DPO 全参数强化
|
| 194 |
+
|
| 195 |
+
使用sft-base模型在训练prompt上采样多个答案,用360gpt-pro-rm打分,取最高最低分组pair进行DPO训练。我们迭代地使用这种on-policy DPO提升模型效果。
|
| 196 |
+
|
| 197 |
+
4. 模型合并
|
| 198 |
+
|
| 199 |
+
在360公司白盒评测集合4上,针对上述3个模型做自动评测,发现不同模型各有其又是技能,考虑模型合并方案。基于sft模型为base做内插得到模型v1,然后仍以sft模���为base和v1模型进行外插,外插系数0.2 最终得到360Zhicao2-7B-Chat-4k.
|
| 200 |
+
|
| 201 |
+
### 模型效果
|
| 202 |
+
我们在一些经典任务上对 360Zhicao2-7B-Chat-4k 模型进行了评测。IFEval (prompt strict) 仅次于GLM4-9B,7b开源模型最高;MT-bench第3名略差于Qwen2.5-7B,7B模型排名第二;CF-Bench第3,在PSR上仅次于GLM4-9B,详细结果如下表:
|
| 203 |
+
|
| 204 |
+
| Model | MT-bench | IFEval(strict prompt) | CFBench(CSR,ISR,PSR) | | |
|
| 205 |
+
|----------------------|----------|-----------------------|----------------------|------|------|
|
| 206 |
+
| Qwen2.5-7B-Instruct | **8.07** | 0.556 | **0.81** | 0.46 | 0.57 |
|
| 207 |
+
| Yi-9B-16k-Chat | 7.44 | 0.455 | 0.75 | 0.4 | 0.52 |
|
| 208 |
+
| GLM4-9B-Chat | **8.08** | **0.634** | **0.82** | 0.48 | 0.61 |
|
| 209 |
+
| InternLM2.5-7B-Chat | 7.39 | 0.540 | 0.78 | 0.4 | 0.54 |
|
| 210 |
+
| 360Zhicao2-7B-Chat-4k| 7.86 | **0.577** | 0.8 | 0.44 | 0.57 |
|
| 211 |
+
|
| 212 |
+
|
| 213 |
+
|
| 214 |
+
### 长文本微调
|
| 215 |
+
与360Zhinao1开源时的做法基本一致,我们将RoPE base依次扩大为1000,000和50,000,000,混合长短文本的SFT数据依次拼接至32k和360k,将gradient checkpointing、ZeRO3 offload和ring attention等技术结合,依次微调得到32k和360k长文本模型。在各个32k benchmark上位列第一梯队。
|
| 216 |
+
|
| 217 |
+
| Model | LooGLE-长依赖QA | Loong-Set 1 (32k) | LongBench-Chat (32k截断) | LEval-96题子集胜率 | LEval-客观题均分 |
|
| 218 |
+
|------------------------------|-----------------|-------------------|--------------------------|--------------------|------------------|
|
| 219 |
+
| GLM4-9B-Chat | 0.36 | 55.24 | 6.60 | 0.49 | 63.96 |
|
| 220 |
+
| InternLM2.5-7B-Chat | 0.39 | 42.76 | 5.70 | 0.44 | 61.64 |
|
| 221 |
+
| 360Zhinao2-7B-Chat-32k | 0.33 | 39.37 | 5.44 | 0.44 | 60.48 |
|
| 222 |
+
| 360Zhinao2-7B-Chat-360k | 0.34 | 32.16 | 5.08 | 0.38 | 53.00 |
|
| 223 |
+
| Yi-1.5-9B-Chat | 0.25 | 32.77 | 4.70 | 0.37 | 56.22 |
|
| 224 |
+
|
| 225 |
+
<br>
|
| 226 |
+
|
| 227 |
+
|
| 228 |
|
| 229 |
# 快速开始
|
| 230 |
简单的示例来说明如何利用🤖 ModelScope和🤗 Transformers快速使用360Zhinao2-7B-Base和360Zhinao2-7B-Chat
|