text2video – 文本转视频大模型工具,包含画面、字幕和声音

这个工具的设计目的是将一段文本自动转换为视频,并保存到本地。它的初衷是实现小说的可视化阅读,让读者能够以一种全新的方式体验文字内容。

file

Docker 一键启动

运行以下命令即可快速启动项目:

docker-compose up --build

本地开发环境

  • 开发环境:macOS,Python 3.10.12。
  • 必备工具:需要安装 FFmpeg,用于视频和音频的合成处理。

安装依赖:

pip install -r requirements.txt

提高绘图质量

  • OpenAI API:配置 OpenAI 的 API key 来生成更高质量的提示词。

    OPEN_AI_API_KEY="your open ai api key"
    OPEN_AI_BASE_URL="https://api.moonshot.cn/v1"
  • Huggingface API:生成 Huggingface 的 API token 用于图像生成。

  • 有道翻译:对于中文内容,使用有道翻译提升图片生成的质量。

配置 token:

API_TOKEN="your huggingface api token"

如果使用 Pollinations-AI,则无需填写 token,因为该模型使用 ChatGPT 的 Dalle-2 模型。

安装 FFmpeg

FFmpeg 是必要的,因为视频合成和声音处理都依赖它。

开始使用

启动服务:

python3.10 app.py

访问本地服务:

http://127.0.0.1:5001/

通过以上步骤,一个具有画面、字幕和声音的文本转视频工具就可以顺利生成了,实现了小说内容的可视化阅读功能。

官方链接

Comments

No comments yet. Why don’t you start the discussion?

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注