auto-video-generateor AI自动解说类视频生成器

介绍

该项目是一个自动视频生成器,它可以根据给定的主题自动生成解说视频。用户输入主题文字后,系统会调用大型语言模型生成相应的故事或解说文本,随后利用语音合成接口生成解说的语音,并通过图像生成接口创建与文本内容相符的配图。最后,系统将语音和配图融合在一起,生成完整的解说视频。

项目地址:https://github.com/kuangdd2024/auto-video-generateor

实现这个系统需要多个步骤,包括生成故事文本、分句、语音合成、图像生成、生成视频,以及使用Gradio进行交互。。

  • 步骤 1: 生成故事文本 为了简化,我们先手动创建一个示例故事文本。
  • 步骤 2: 分句 使用re库或自然语言处理工具将文本分句。
  • 步骤 3: 语音合成 使用pyttsx3库或其他语音合成模型进行语音合成。
  • 步骤 4: 文生图 使用pillow库或其他文生图模型生成图片。
  • 步骤 5: 生成视频 使用moviepy库将图片和音频组合成视频。
  • 步骤 6: 使用Gradio实现交互 使用gradio库创建一个简单的交互界面。

资源校对交互页面

校对用于合成视频的文本、语音和图像资源,可以进行修改或重新生成,直到满意为止。。

resource_checking.png

使用方法

执行代码

1
2
# 参数可选:1 2 3 4
python main.py 4

打开浏览器

http://127.0.0.1:8000/

界面:

web11ui

交互操作

用户在gradio界面输入主题文字,生成并编辑故事文本,然后生成语音、图片资源,最终合成视频。

注意事项

  1. 生成视频后会把生成的文本、语音、图片的多媒体材料保存到目录中(默认:mnt/materials/[时间戳])。
  2. 保存多媒体材料的目录结构样例如下:
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
2024-08-12_18.29.54
│ story.txt
│ video.mp4

├─audio
│ audio_0.wav
│ audio_1.wav
│ audio_2.wav
│ audio_3.wav
│ audio_4.wav

├─image
│ image_0.png
│ image_1.png
│ image_2.png
│ image_3.png
│ image_4.png

└─text
text_0.txt
text_1.txt
text_2.txt
text_3.txt
text_4.txt