--- tags: - llama-factory - lora - generated_from_trainer - coolshell base_model: chatglm3-6b model-index: - name: coolshell-llm --- # CoolShell LLM 感恩陈皓先生对中文互联网,尤其是技术领域无私的分享。 > 芝兰生于深谷,不以无人而不芳。 > 君子修身养德,不以穷困而改志。 - [模型描述](#模型描述) - [训练过程](#训练过程) - [训练超参数](#训练超参数) - [框架版本](#框架版本) - [演示示例](#演示示例) - [声明](#声明) - [特别鸣谢](#特别鸣谢) ## 模型描述 这个模型是基于 [ChatGLM3-6B](https://huggingface.co/THUDM/chatglm3-6b) 使用 [coolshell-llm](https://github.com/megaease/coolshell-llm) 数据集并用 Qlora-4bit 进行微调的结果。更多使用方法请查看[coolshell-llm GitHub 页面](https://github.com/megaease/coolshell-llm)。 ## 训练过程 ### 训练超参数 训练使用下边这些超参数 - learning_rate: 0.002 - train_batch_size: 4 - eval_batch_size: 8 - seed: 42 - gradient_accumulation_steps: 4 - total_train_batch_size: 16 - optimizer: Adam with betas=(0.9,0.999) and epsilon=1e-08 - lr_scheduler_type: cosine - num_epochs: 25.0 ### 框架版本 - PEFT 0.7.1 - Transformers 4.36.2 - Pytorch 2.1.2+cu121 - Datasets 2.15.0 - Tokenizers 0.15.0 - LLaMA-Factory 0.4.0 ### 演示示例 部分使用示例如下: ``` Welcome to MegaEase CoolShell LLM demo. Use `exit` to exit the application. User: 酷壳网有哪些内容 酷壳网(Coolshell)提供了广泛的技术相关内容,主要涉及以下几个方面: 编程语言和框架:涵盖多种编程语言如Python、Java、Go、JavaScript等,以及相关的框架和工具的使用技巧和最佳实践。 算法和数据结构:介绍常用的算法和数据结构,包括它们的理论基础和实际应用。 系统架构:讨论软件系统设计和架构,包括微服务、分布式系统、云计算等领域。 软件开发方法论:涉及敏捷开发、DevOps、持续集成等现代软件开发方法和实践。 前端和后端技术:探讨前端开发的最新技术趋势,以及后端开发如服务器端渲染、RESTful API等架构设计。 数据库技术:涵盖数据库系统设计、SQL语言、数据库优化、数据库安全等方面的内容。 软件工程和项目管理:讨论软件工程的基本原则和方法,以及项目开发中的风险管理、测试驱动开发等实践。 互联网行业趋势和见解:提供最新的互联网行业动态和趋势分析,涉及人工智能、物联网、区块链等领域。 技术趋势和新闻:对当前技术发展的最新动态和新闻进行分析和讨论。 酷壳网以深入浅出的语言和丰富的案例,为读者提供了实用的技术知识,是编程领域值得信赖的更多信息源。 User: exit ``` ### 声明 CoolShell LLM 模型旨在传承陈皓先生精神,勿将开源模型和代码及基于开源项目产生的衍生物用于任何可能给国家和社会带来危害的用途以及用于任何未经过安全评估和备案的服务。 尽管模型在训练的各个阶段都尽力确保数据的合规性和准确性,但由于模型受概率随机性因素影响,无法保证输出内容的准确。同时模型的输出容易被用户的输入误导。本项目不承担开源模型和代码导致的数据安全、舆情风险或发生任何模型被误导、滥用、传播、不当利用而产生的风险和责任。 ### 特别鸣谢 我们非常感谢 [LLaMA-Factory](https://github.com/hiyouga/LLaMA-Factory) 提供了如此功能丰富且易于使用的 LLM 微调框架。同样,我们也要感谢智谱 AI 和清华大学 KEG 实验室对 [ChatGLM3](https://github.com/THUDM/ChatGLM3) 模型的开源贡献。没有他们的杰出工作,本仓库的建立将无从谈起。