使用nodejs完成TTS有声书的制作

软件: FLUENT
全方位数据报表
许可分析

许可分析

免费体验
识别闲置、及时回收
许可优化

许可优化

免费体验
多维度智能分析
许可分析

许可分析

免费体验
减少成本、盘活许可
许可优化

许可优化

免费体验

本文旨在介绍使用 Node.js、Moegoe、puppeteer 和 ffmpeg 集成批量生成有声书视频的方法,以绫地宁宁为例进行操作。以下为经过改写的文章:


使用 Node.js、Moegoe、Puppeteer 和 ffmpeg 批量生成有声书视频的方法


当前网络媒体中,基于TTS技术的亚文化二次创作形式多样,例如电棍活字印刷、绫地宁宁朗诵等。此类作品通常需要作者手动编辑、输入文本并将之剪辑成视频,效率一般不高。本文主要以绫地宁宁朗诵为例,解释如何通过使用 Node.js 进行自动化操作,高效地制作有声书视频。


使用工具:

1. Node.js:这是一个能够运行在服务器端的 JavaScript 执行环境,允许 JavaScript 作为服务端语言使用。Node.js 提供大量内置模块,用于操作文件、进程和网络等对象,与 CMD 或 PowerShell 相似。

2. Moegoe:这是一款基于 VITS 的 AI 声音合成引擎,专注于 TTS(Text to Sound,文字转语音)功能。Moegoe 集成了多种预处理的音色模型,用户可以通过加载这些模型文件来使用指定音色进行朗诵。最常用的其中一个是绫地宁宁(綾地 寁子)的音色,广泛在 Bilibili 上被二次创作使用。


操作思路:


1. 文本加工:首先,人工手动将《茶花女》的原始文本转换为适合进一步处理的格式。这包括使用正则表达式对文本进行分段、去除不必要的注释分隔符、制表符等。


2. 利用 Node.js 注释信息:使用 JS 中的 String 对象方法,对原文文本中的每个句子进行标签化,包括句子的章节、文档行号与段落号等信息。结果被记录为 JSON 对象数组。


3. 视频与音频制作:

   视觉部分:利用 puppeteer,预先建立一个包含文本预置和位置信息的网页记忆卡。该卡允许点取超链接、保存图象及截图,随后由无头浏览器内置功能生成静态图片。

   音频部分:将音频通过 Moegoe 输出,直接利用 Node.js 中的 child_process 模块操作 Python 包含的 Moegoe 进程,生成指定音色的朗读片段。重点关注编码问题:通过 iconvlite 库解决 Windows 命令行界面默认的 GB2312 编码与 Python 脚本的兼容性问题。

   结合输出:使用 ffmpeg 对渲染的图片与合成的音频进行合并,生成最终视频文件。视频文件通过拼接相应片段并添加片头与片尾构成完整有声书。


面临的挑战与解决方案:


Moegoe 操作封装:重写命令行界面以实现 Node.js API 化操作。理解 Moegoe 命令行结构,重写与之匹配的脚本逻辑。

编码兼容性:引入 iconvlite 库解决字符编码不匹配导致的乱码问题。

批量生成管理:通过分段处理原文信息,集成图片生成、音频生成与视频生成脚本。合理处理异步操作,优化 promise 链的执行流程。


源代码


虽然提供的源代码链接无法访问,但实际的程序结构通常应遵循以下类思路设计:

1. 文本处理脚本:负责文本的读取、分段和标记化。

2. 图片与音频生成:使用 puppeteer 和 Moegoe 分别创建准备好的图片和声音文件。

3. 整合视频:使用 ffmpeg 将图片和音频合并成视频文件。


此外,确保在实际编程中考虑到异步操作的管理,尤其是通过 await、async 关键字与 promise 链的正确使用与优化。这确保整个流程的平滑进行,避免因未处理的异步链导致的流程冻结。


确保将这些阶段分块完成编码工作,并在每个步骤都进行严格的测试,以保证整体方案的稳定性和高效性。

<strong>源代码</strong><br><br>虽然提供的源代码链接无法访问,但实际的程序结构通常应遵循以下类思路设计:

1. 文本处理脚本:负责文本的读取、分段和标记化。

2. 图片与音频生成:使用 puppeteer 和 Moegoe 分别创建准备好的图片和声音文件。

相关推荐

康乃尔大学Fluent教程~~~~~分享~
LMS 结构噪声及流体噪声解决方案
FLUENT动网格参数设置方法
非稳态CFD问题
教你如何用fluent长网格
【资料】FLUENT大涡模拟及声学分析官方实例
行业应用方案 | 航空发动机与燃气轮机
【年终系列实例EX3】基于FLUENT进行旋风分离器流场计算
hypermesh网格和设置,使模型能为fluent很好读出
顺时针逆时针同时旋转滑移动网格全程操作视频+全部网格文件+fluent计算文件
翼型旋转+角度突变重叠网格+动网格,全程建模+ICEM+fluent操作视频和全部文件
3D翼型俯仰仿真,含ICEM文件+网格质量调整和fluent设置操作视频+UDF
动网格之重叠网格制作单螺杆泵流场,包括全部网格、UDF、计算文件和fluent操作视频教程
fluent动网格,水流被搅拌同时收到高温壁面加热汽化,全程操作视频、全部计算文件、udf等文件
1/2扑翼重叠网格动网格仿真,带全套操作视频教程+全部网格文件+fluent计算文件
fluent仿真中对于螺旋管道结构在设置流固耦合时为什么设置不出来?
齿轮泵喷油算例仿真,含全部几何文件、网格文件和fluent计算文件
Fluent中计算收敛标准浅析
fluent VOF模拟溃坝,水流沿河渠流向下游(含网格划分及fluent全程操作视频和计算文件)
北京理工大学韩占忠“fluent通用流体数值模拟学习”内容

最近推荐

Jira任务管理与禅道系统的对比
Fusion 360 for mac v1.8.3 苹果电脑版
美国网络攻击他国的程序,被中国研究员破解!45个国家遭黑客攻击
工程师2小时破解3G网络128位通讯加密方法
英伟达算法遭破解,RTX30系恢复100%挖矿算力:显卡降价结束了?
速查!安卓系统可能遭遇重大风险,两分钟可轻松破解锁屏
大众背后的网络故事
AMD强势回归 3A服务器平台“Fiorano”重装上阵
6小时与100万用户 微软的Outlook邮箱
一张图看懂《分布式存储发展白皮书2023》
index-foot-banner-pc index-foot-banner-phone

点击一下 免费体验万千客户信任的许可优化平台

与100+大型企业一起,将本增效

与100+大型企业一起,将本增效

申请免费体验 申请免费体验