OpenAI+Python 文本批量生成视频工具整合包食用指南

2023-05-29 22:06| 来源: 网络整理| 查看: 265

一、工具说明：

1．本工具为使用Python进行代码编写，利用Python自动化执行文本处理工作及音、视频生成。使用segtok工具对长文本进行语义分割；通过使用OpenAI的自然语言大模型对文本进行翻译和进一步处理后生成用于绘图的关键词（当前版本内删除了关于生成绘图关键词的部分，下版本将更换接入的自然语言大模型用于生成绘图关键词）；使用EDGE TTS生成文本所对应的音频文件；利用Stable Diffusion的API接口输入绘图所需的prompts和参数；最后使用Moviepy对已经编码的图片、音频文件进行对齐合成视频文件。

2．本整合包已经集成工具所需的运行环境，不需要再进行运行环境的部署，解压即用。

二、工具基础使用指南：

0．工具文件夹结构说明（此部分可跳过）

（1）Env文件夹为工具运行所需环境文件，请不要进行修改，修改后工具无法运行；

（2）image文件夹为绘图生成文件保存文件夹，在每次成功生成视频后会进行清空以节省储存空间；

（3）input文件夹为文本输入及小说类文本切割后按章节保存文本的文件夹，再每次成功生成视频后会删除对应文本文件以节省储存空间。文件夹内预置文件的保存格式为xxx.docx；

（4）PortableGit文件夹为预置的Git工具，便于用户使用Git工具向Env文件夹中添加所需环境文件；

（5）txt文件夹为工具运行过程中保存长文本语义分割后的结果、翻译结果、生成绘图prompt结果的临时文件夹，在工具运行中会反复覆写。文件夹内预置文件保存格式为txt.xlsx；

（6）video文件夹为保存生成视频及完整音频，同一文本生成的视频及完整音频文件时间戳相同，不同文本生成的视频及完整音频文件按照生成的先后顺序具有不同的时间戳；

（7）voice文件夹为临时保存语义分割后文本分段生成音频文件，在成功生成视频后会清空本文件夹以节省储存空间。

1. 将获取的文字生成视频一键整合包.7z解压缩至计算机D盘根目录，如图所示：

2. 打开OpenAI密钥.txt，并按照文字所示添加你的OpenAI密钥至环境变量

3.1 单篇文本生成视频

（1）打开input文件夹，任意选择一个.docx文件打开将需要处理的文本粘贴至文件内并保存；删除其余input文件夹内的文件。

（2）运行启动工具.bat开始运行工具

等待全部任务进度条执行完毕后，到video文件内查看生成的视频和完整音频文件。

3.2 小说类文本批量生成视频

（1）打开input.txt文件，将全部小说文本粘贴进文件并保存；

（2）运行小说文本分割工具.bat将小说文本按章节分割为待处理的xxx.docx文件并保存在input文件夹内；

（3）运行启动工具.bat开始运行工具，工具会自动按照章节以此进行处理并生成视频；

在每一章文本成功生成视频后会等待10秒后继续进行下一章文本的处理，此时可选择关闭工具或等待全部任务执行完毕后，到video文件内查看生成的视频和完整音频文件。

三、工具进阶使用指南：

1．如何修改绘图参数

使用记事本或Notepad++打开step2_txt_to_image.py文件，修改data部分的绘图参数（可与Stable Diffusion Web UI对照进行）。绘图模型可以直接在Web UI界面选择。

2．如何修改音频的声音选择

使用记事本或Notepad++打开step3_txt_to_voice.py文件，修改zh-CN-YunxiNeural为你需要的声音。

具体支持声音列表如下：zh-CN-XiaoxiaoNeural、zh-CN-XiaoyiNeural、zh-CN-YunjianNeural、zh-CN-YunxiNeural、zh-CN-YunxiaNeural、zh-CN-YunyangNeural、zh-HK-HiuGaaiNeural、zh-HK-HiuMaanNeural、zh-HK-WanLungNeural、zh-TW-HsiaoChenNeural、zh-TW-YunJheNeural、zh-TW-HsiaoYuNeural。

3．如何修改txt_to_video文件夹保存路径

需要将如图所示选中的python脚本和bat文件中关于路径的代码全部修改为你所保存txt_to_video文件夹的对应路径。

四、使用中须注意事项

1. 运行工具应使用全局代理，防止访问API时暴露IP被OpenAI封禁；

2．应当以管理员权限运行工具，防止工具无读取、写入文件权限导致错误；

3．运行工具前须启动Stable Diffusion并打开API；

4．本版代码所有路径及文件名称、格式为固定格式，使用时勿进行修改，路径及文件名称、格式错误将无法运行；

5.发生速率限制为正常现象，此为OpenAI及EDGE TTS为方式服务器压力过大而设，代码中已经设定在遵守最大访问速率限制的前提下反复尝试访问；

6.音频文件生成时所需网络访问环境与OpenAI的API不同，建议采取智能全局代理方案。

五、疑难解答及处理方式

这几天B站私信回的头有点大了，所以使用出现问题的可以来Q群：797579852

【本文地址】

公司简介

联系我们