本帖最后由 Eureka 于 2025-9-29 00:01 编辑
马上国庆节了,写了个小玩具给大伙耍耍。
众所周知,阿里开源的Cosyvoice文本转语音大模型的效果非常的不错,
我也把玩了很久
但苦于没有高性能的显卡(租的卡总有一种紧迫感,用得不舒坦 ),所以写了个纯CPU运行的版本。
相较于官方原版:
CPU推理时 原版 精简后
内存占用 4G+ 4G+
硬盘占用 20G+ 8.93G
速度相同 50s/it 50s/it
对于原版,做了以下处理:
1. 剔除不必要的Python环境依赖和模型文件,硬盘占用减少10G
2. 基于python:3.10-slim镜像(裸镜像仅43M大小),并且使用Docker打包,系统更轻量的同时,不会遇到安装报错、版本不兼容、网络错误等等等等问题,小白也能轻松部署。
3. 重写了WebUI,(原版UI仅供测试使用,并且解决了第一次生成时,无法获取音频的问题),步骤指导更清晰!
硬件要求:
- 物理内存推荐 8G,不够的话再加swap缓存也能跑,但是慢。
- 硬盘剩余空间大于 10G
- 流量消耗大约 10G
- CPU在推理时,会满载95%+(注意vps商家有无限制)
好了,说了那么多,下面就是详细步骤了:
第一步:将下面内容保存为docker-compose.yml
• services:
• cov:
• image: eureka6688/cosyvoice:latest # arm架构请将"latest"替换成"arm"
• container_name: cov
• ports:
• - "50000:50000"
• command: ["python", "web.py", "--port", "50000"]
• stdin_open: true
• tty: true
• restart: unless-stopped
马上国庆节了,写了个小玩具给大伙耍耍。
众所周知,阿里开源的Cosyvoice文本转语音大模型的效果非常的不错,
我也把玩了很久
但苦于没有高性能的显卡(租的卡总有一种紧迫感,用得不舒坦 ),所以写了个纯CPU运行的版本。
相较于官方原版:
CPU推理时 原版 精简后
内存占用 4G+ 4G+
硬盘占用 20G+ 8.93G
速度相同 50s/it 50s/it
对于原版,做了以下处理:
1. 剔除不必要的Python环境依赖和模型文件,硬盘占用减少10G
2. 基于python:3.10-slim镜像(裸镜像仅43M大小),并且使用Docker打包,系统更轻量的同时,不会遇到安装报错、版本不兼容、网络错误等等等等问题,小白也能轻松部署。
3. 重写了WebUI,(原版UI仅供测试使用,并且解决了第一次生成时,无法获取音频的问题),步骤指导更清晰!
硬件要求:
- 物理内存推荐 8G,不够的话再加swap缓存也能跑,但是慢。
- 硬盘剩余空间大于 10G
- 流量消耗大约 10G
- CPU在推理时,会满载95%+(注意vps商家有无限制)
好了,说了那么多,下面就是详细步骤了:
第一步:将下面内容保存为docker-compose.yml
• services:
• cov:
• image: eureka6688/cosyvoice:latest # arm架构请将"latest"替换成"arm"
• container_name: cov
• ports:
• - "50000:50000"
• command: ["python", "web.py", "--port", "50000"]
• stdin_open: true
• tty: true
• restart: unless-stopped