ChatGLM的容器化部署可以通过Docker来实现,以下是一个详细的步骤指南:
环境准备
-
硬件要求:
- 推荐使用NVIDIA GPU,显存至少24GB(如RTX3090),内存至少32GB,系统盘200GB。
- 如果没有GPU,也可以在CPU上进行推理,但速度会较慢。
-
软件要求:
- 操作系统:Linux(推荐Ubuntu 18.04或更高版本)。
- Python:3.7或更高版本。
- Docker:确保已安装Docker。
下载模型与源码
-
下载模型:

- 从Hugging Face的Model Hub或官方链接下载ChatGLM-6B模型。
- 模型名称通常为“THUDM/chatglm3-6b”。
-
下载源码:
- 使用git克隆ChatGLM3的源码仓库:
git clone https://github.com/THUDM/ChatGLM3.git。 - 进入源码目录:
cd ChatGLM3。
- 使用git克隆ChatGLM3的源码仓库:
创建Conda环境并安装依赖
-
创建Conda环境:
conda create -n chatglm3 python=3.10 -y source activate chatglm3
-
修改国内源并安装依赖:
pip config set global.index-url http://mirrors.aliyun.com/pypi/simple pip config set install.trusted-host mirrors.aliyun.com pip install -r requirements.txt
构建Docker镜像
-
编写Dockerfile:
-
在ChatGLM3源码目录下创建一个Dockerfile,内容如下:
FROM python:3.10 WORKDIR /app COPY . /app RUN pip install --no-cache-dir -r requirements.txt EXPOSE 8501 CMD ["streamlit", "run", "composite_demo/main.py"]
-
-
构建镜像:
docker build -t chatglm3 .
运行Docker容器
-
运行容器:
docker run -it --name chatglm3-container -p 8501:8501 chatglm3
-
访问应用:
- 打开浏览器,访问
http://localhost:8501,即可看到ChatGLM的界面。
- 打开浏览器,访问
注意事项
- 模型加载:首次运行时,模型会自动下载,如果事先已准备好模型,可修改
composite_demo/client.py中的MODEL_PATH变量,指向本地模型路径。 - 依赖问题:如遇到依赖包未完整下载的情况,根据错误提示安装缺失的依赖库,特别是
huggingface_hub的版本问题,可指定版本安装,如pip install huggingface_hub==0.21.4。 - 性能优化:对于大型模型,可考虑使用多GPU进行分布式推理,或对模型进行量化以减少显存占用。
通过以上步骤,即可实现ChatGLM的容器化部署,Docker的使用简化了部署流程,使得模型可以更方便地在不同环境中运行。
-
喜欢(0)
-
不喜欢(0)

