【自部署】TTS文本转语音大模型（docker一键使用）

📌 【自部署】TTS文本转语音大模型（docker一键使用）共 10 樓

主帖Eureka

🕐 2025-9-27 17:12:36

本帖最后由 Eureka 于 2025-9-29 00:01 编辑

马上国庆节了，写了个小玩具给大伙耍耍。

众所周知，阿里开源的Cosyvoice文本转语音大模型的效果非常的不错，

我也把玩了很久

但苦于没有高性能的显卡（租的卡总有一种紧迫感，用得不舒坦），所以写了个纯CPU运行的版本。

相较于官方原版：

CPU推理时原版精简后

内存占用 4G+ 4G+

硬盘占用 20G+ 8.93G

速度相同 50s/it 50s/it

对于原版，做了以下处理：

1. 剔除不必要的Python环境依赖和模型文件，硬盘占用减少10G

2. 基于python:3.10-slim镜像（裸镜像仅43M大小），并且使用Docker打包，系统更轻量的同时，不会遇到安装报错、版本不兼容、网络错误等等等等问题，小白也能轻松部署。

3. 重写了WebUI，（原版UI仅供测试使用，并且解决了第一次生成时，无法获取音频的问题），步骤指导更清晰！

硬件要求：

- 物理内存推荐 8G，不够的话再加swap缓存也能跑，但是慢。

- 硬盘剩余空间大于 10G

- 流量消耗大约 10G

- CPU在推理时，会满载95%+（注意vps商家有无限制）

好了，说了那么多，下面就是详细步骤了：

第一步：将下面内容保存为docker-compose.yml

• services:

• cov:

• image: eureka6688/cosyvoice:latest # arm架构请将＂latest＂替换成＂arm＂

• container_name: cov

• ports:

• - "50000:50000"

• command: ["python", "web.py", "--port", "50000"]

• stdin_open: true

• tty: true

• restart: unless-stopped

#5 樓Eureka

🕐 2025-9-27 18:01:17

本帖最后由 Eureka 于 2025-9-29 00:50 编辑

演示效果请移步：https://gallery.chaomeng.de/?cosyvoice_demo

新增ARM版，移步：https://hostloc.com/thread-1437008-1-1.html

#? 樓van

🕐 2025-9-27 19:49:25

6啊，老哥，试试看

#? 樓swds

🕐 2025-9-27 17:33:36

有ARM版没. 甲骨文arm闲置中

#? 樓Eureka

🕐 2025-9-27 17:59:25

swds 发表于 2025-9-27 17:33

有ARM版没. 甲骨文arm闲置中

#? 樓fxzou

🕐 2025-9-27 18:00:45

感谢分享

#? 樓扫地僧

🕐 2025-9-27 18:13:20

Eureka 发表于 2025-9-27 17:59

没有额

#? 樓Eureka

🕐 2025-9-27 18:18:38

扫地僧发表于 2025-9-27 18:13

源码开源么？可以的话我帮编译一个

#? 樓杜甫

🕐 2025-9-27 19:02:46

论坛这样的好帖越来越少了。

#? 樓半夏

🕐 2025-9-27 19:06:53

感谢大佬分享
[圖片] https://cdn.jsdelivr.net/gh/master-of-forums/master-of-forums/public/images/patch.gif