[ ]
快速上手 – pypi (pip install)
本教程在配置为 a800(80gb) 的本地机器上运行 yi-34b-chat, 并进行推理。
第 0 步:前提条件
确保安装了 python 3.10 以上版本。
-
如果你想运行 yi 系列模型,参阅「」。
第 1 步:准备环境
如需设置环境,安装所需要的软件包,运行下面的命令。
git clone https://github.com/01-ai/yi.git
cd yi
pip install -r requirements.txt
第 2 步:下载模型
你可以从以下来源下载 yi 模型。
第 3 步:进行推理
你可以使用 yi chat 模型或 base 模型进行推理。
使用 yi chat 模型进行推理
创建一个名为 的文件,并将以下内容复制到该文件中。
quick_start.py
from transformers import automodelforcausallm, autotokenizer model_path = '
' tokenizer = autotokenizer.from_pretrained(model_path, use_fast=false) # since transformers 4.35.0, the gpt-q/awq model can be loaded using automodelforcausallm. model = automodelforcausallm.from_pretrained( model_path, device_map="auto", torch_dtype='auto' ).eval() # prompt content: "hi" messages = [ {"role": "user", "content": "hi"} ] input_ids = tokenizer.apply_chat_template(conversation=messages, tokenize=true, add_generation_prompt=true, return_tensors='pt') output_ids = model.generate(input_ids.to('cuda')) response = tokenizer.decode(output_ids[0][input_ids.shape[1]:], skip_special_tokens=true) # model response: "hello! how can i assist you today?" print(response)-
运行 代码。
quick_start.py
python quick_start.py
你将得到一个类似输出,如下所示。🥳
hello! how can i assist you today?
使用 yi base 模型进行推理
步骤与「」类似。
你可以使用现有文件 进行推理。
python demo/text_generation.py --model <your-model-path>
你将得到一个类似输出,如下所示。🥳 ⬇️
[ ]
快速上手 – docker
🚀 教程:在本地 docker 上运行 yi-34b-chat。⬇️
快速上手 – conda-lock
🚀 如需创建一个可以完全重现的 conda 环境锁定文件,你可以使用 工具。⬇️
快速上手 – llama.cpp
🚀 教程:在本地 llama.cpp 上运行 yi-chat-6b-2bits。⬇️
[ ]
快速上手 – 使用 web demo
你可以使用 yi chat 模型(yi-34b-chat)创建 web demo。注意:yi base 模型(yi-34b)不支持该功能。
第三步:启动 web demo 服务,运行以下命令。
python demo/web_demo.py -c <你的模型路径>
命令运行完毕后,你可以在浏览器中输入控制台提供的网址,来使用 web demo 功能。
[ ]
微调
bash finetune/scripts/run_sft_yi_6b.sh
完成后,你可以使用以下命令,比较微调后的模型与 base 模型。
bash finetune/scripts/run_eval.sh
你可以使用 yi 6b 和 34b base 模型的微调代码,根据你的自定义数据进行微调。⬇️
[ ]
量化
gpt-q 量化
python quantization/gptq/quant_autogptq.py \ --model /base_model \ --output_dir /quantized_model \ --trust_remote_code
如需评估生成的模型,你可以使用以下代码。
python quantization/gptq/eval_quantized_model.py \
--model /quantized_model \
--trust_remote_code
详细的量化过程。⬇️
awq 量化
python quantization/awq/quant_autoawq.py \ --model /base_model \ --output_dir /quantized_model \ --trust_remote_code
如需评估生成的模型,你可以使用以下代码。
python quantization/awq/eval_quantized_model.py \
--model /quantized_model \
--trust_remote_code
详细的量化过程。⬇️
[ ]
部署
如果你想部署 yi 模型,确保满足以下软件和硬件要求。
软件要求
在使用 yi 量化模型之前,确保安装以下软件。
模型 | 软件 |
---|---|
yi 4-bits 量化模型 | |
yi 8-bits 量化模型 |
硬件要求
部署 yi 系列模型之前,确保硬件满足以下要求。
chat 模型
模型 | 最低显存 | 推荐gpu示例 |
---|---|---|
yi-6b-聊天室 | 15 千兆字节 | rtx 3090 rtx 4090 a10 a30 |
yi-6b-聊天-4位 | 4 千兆字节 | rtx 3060 rtx 4060 |
yi-6b-chat-8位 | 8 千兆字节 | rtx 3070 rtx 4060 |
yi-34b-聊天室 | 72 千兆字节 | 4 x rtx 4090 a800 (80gb) |
yi-34b-聊天-4位 | 20 千兆字节 | rtx 3090 rtx 4090 a10 a30 a100 (40gb) |
yi-34b-聊天-8位 | 38 千兆字节 | 2 个 rtx 3090 2 个 rtx 4090 a800 (40gb) |
以下是不同 batch 使用情况下的最低显存要求。
模型 | 批次=1 | 批次=4 | 批次=16 | 批次=32 |
---|---|---|---|---|
yi-6b-聊天室 | 12 千兆字节 | 13 千兆字节 | 15 千兆字节 | 18千兆字节 |
yi-6b-聊天-4位 | 4 千兆字节 | 5千兆字节 | 7 千兆字节 | 10 千兆字节 |
yi-6b-chat-8位 | 7 千兆字节 | 8 千兆字节 | 10 千兆字节 | 14千兆字节 |
yi-34b-聊天室 | 65 千兆字节 | 68千兆字节 | 76千兆字节 | > 80 gb |
yi-34b-聊天-4位 | 19 千兆字节 | 20 千兆字节 | 30 千兆字节 | 40 千兆字节 |
yi-34b-聊天-8位 | 35 千兆字节 | 37 千兆字节 | 46千兆字节 | 58 千兆字节 |
base 模型
模型 | 最低显存 | 推荐gpu示例 |
---|---|---|
易-6b | 15 千兆字节 | rtx3090 rtx4090 a10 a30 |
易-6b-200k | 50 千兆字节 | a800 (80 gb) |
易-34b | 72 千兆字节 | 4 x rtx 4090 a800 (80 gb) |
一-34b-200k | 200 千兆字节 | 4 个 a800 (80 gb) |
原创文章,作者:校长,如若转载,请注明出处:https://www.yundongfang.com/yun287742.html