主要功能:

文本转语音(微软Azure接口/Edge接口/火山TTS接口/海螺TTS接口/阿里云百炼平台(CosyVoice、Sambert)TTS接口、CosyVoice声音复刻、支持超长文本转音频、Srt字幕编辑、Srt字幕合成语音、AI语音识别导出字幕等...

近期更新:

v0.4.7

  • 1、优化:音频合并模块优化,合并速度提升约百分之三十;
  • 2、优化:超工文本合成卡文件预处理问题,提升合成稳定性;
    • 注意:所有HD角色网站自建微软VIP线路全部支持,使用微软APIKEY注意,区域必须为美国东部西欧东南亚,其它区域APIKEY无法使用,微软免费API接口HD角色基本都不可用。
    • 晓晓-对话-HD-Neural(XiaoxiaoConversational) 角色已被官方移除,全部无法使用

友情提示:

  1. ZTJ-TTS-N为最新版本TTS文本转语音工具,工具开发定位为网站VIP福利!本工具所有功能有文档,有视频,简单问题请自行查阅学习,使用本工具不提供任何1对1解答服务!!!

  2. 本网站账号密码即为 ZTJ-TTS-N 账号密码;

  3. 本网站VIP用户即为ZTJ-TTS-N VIP用户,本网站非VIP用户即为ZTJ-TTS-N 普通用户;

  4. 非VIP用户仅开放基础TTS合成功能(合成内容有长度限制,无次数限制)!
  5. 问题反馈:点击软件左下角“意见反馈”,填写问题相关内容并提交,以便查找定位解决!!!

  6. 首次使用,请仔细阅读以下文档/视频,磨刀不误砍柴功!


特别说明:关于微软TTS接口

一、2023.10.25日开始,微软官方对TTS免费接口合成次数进行了限制,每日合成上限为20次,此限制是基于当前设备公网IP地址,问题表现一直合成失败429("code":"TooManyRequests","message":"The rate limit has been reached. The timeout in seconds can be found in the Retry-After header."),当合成次数达到上限后,此公网IP就需要等待24小时后才可以继续合成,解决方法:

  • 1、使用网站搭建的微软接口VIP线路普通用户5000字符/天,网站VIP用户50000字符/天试听免费不计额度(使用VIP线路时日志窗口会有额度信息显示)
  • 2、自行申请使用官方的apikey,官方Apikey免费额度为每月50W字符(汉字约25W字符)(点击观看视频教程),注意:微软官方是以token计量
  • 3、自行购买HTTPS/SOCKS5代理绕过此限制,前提:要求代理节点IP够多,够干净,否则用的人多了,很快就会被大范围限制;
  • 4、临时应急可以通过使用全局代理切换公网IP,如果是家庭环境,可以通过重新拔号上网达到切换公网IP的目的,如果可以连接手机热点,则可以通过手机端开启/关闭飞行模式达到切换公网IP的目的(注意:公网IP资源有限,并不是说你切换了一个新的公网IP就一定可以合成20次,可以合成20次的前提是,你拿到的这个公网IP在你之前24小时内,没有被别人用于微软TTS合成,如果这个公网IP被别人拿去合成过,那20次用一次就少一次,如果被别人把20次用完,你就会直接429;

二、2023.12.8日傍晚开始,微软TTS免费接口对TTS合成音频音质进行了限制;


界面

1、登录界面

登录界面

用户名密码就是网站的用户名密码,没有注册,就点击注册按钮跳转到网站,注册一个账号。

2、主界面

3、设置界面

4、超长文本合成

(约为330W字文本,一次性合成音频,超180小时)

视频教程


ZTJ-TTS-N 扣子智能助手(需注册COZE平台,登录后使用):

https://www.coze.cn/store/agent/7482725069262176283?bot_id=true


文字教程

1、接口

  • 微软Azure接口:支持文本配音、导出Srt字幕(M1/M2模式)、Srt字幕配音,

    • 支持使用官方免费API接口(完全免费,官方有每日20次限制

    • 支持使用官方APIkey(需要自行申请注册 Azure TTS 服务,创建apikey

    • 网站自建微软接口VIP线路套餐,后端采用APIKEY连接官方API,需要购买网站微软接口VIP线路字符套餐

  • Edge朗读接口:支持文本配音、导出Srt字幕(M1/M2模式)、Srt字幕配音(完全免费,不需要APIKEY

  • 火山TTS支持文本配音、导出Srt字幕(M1/M2模式)、Srt字幕配音(需要自行申请注册申请火山引擎Apikey,视频教程

  • 海螺TTS仅支持文本配音功能、导出Srt字幕(M2模式)(需要自行申请注册申请海螺AI平台Apikey视频教程);

  • CosyVoice仅支持文本配音功能、导出Srt字幕(M2模式)(需要自行申请注册申请阿里云百炼平台Apikey视频教程);

    • 注意:使用CosyVoice接口进行TTS文本转语音时,文本内容不能包含英文引号",以及换行回车,因为此接口提交数据为JSON格式,英文引号"或换行回车会破坏JSON数据格式,导致合成失败。
  • Sambert仅支持文本配音功能、导出Srt字幕(M2模式)(需要自行申请注册申请阿里云百炼平台Apikey视频教程);

2、六个TTS文本转语音接口官方价格表

接口 价格 备注
微软 $15/100 万字符 每月50万字符免费额度(一个中文=2个字符)
Edge 🆓 完全免费
火山 ¥5元/万字符 调用后付费(1个汉字算1个字符)
海螺 ¥2元/万字符 speech-01-turbo(1个汉字算2个字符)
CosyVoice ¥2元/万字符 声音复刻免费(1个汉字算作2个字符)
Sambert ¥1元/万字符 1个汉字算1个字符

3、角色

当前角色参数设置,每个接口都不一样,请根据实际情况选择设置。

4、添加多角色

微软、Edge接口支持多角色配置。

使用方法:在角色区域设置好角色各项参数,填写角色名称后,点击右侧的添加按钮,即可将当前角色添加入多角色列表,后续需要使用时,即可进行多角色设置:

在文本配音界面右侧多角色列表点击鼠标右键,可对指定多角色进行管理:

3、文本配音

3.1、中小文本

img

  • 角色试听

    微软、Edge、火山接口:以左侧当前角色设置参数试听当前文本内容,支持选择指定文本试听;

    海螺、CosyVoice、Sambert接口:试听内容为官方各角色试听音频素材,非当前文本内容试听。

  • 设置角色

    使用此功能需要在左侧列表先添加角色,然后使用指定角色对选中范围文本内容进行标记,进行过角色标记的内容在后面进行语音合成时,将以指定的角色设置进行语音合成。

    使用方法:在中小文本编辑区域,选择要指定角色的文本内容,鼠标右键--设置角色--选择左侧角色列表中添加好的指定角色即可。

    注意:不支持角色嵌套,如果存在角色嵌套会导致无法合成(角色嵌套是指在已指定角色的文本中再次指定其它角色)

    角色嵌套示例:{R云健(男性)(1)|xxx{R晓辰(女性)(0)|xxxxxxxxxxxxxxxR}xxxR}

  • 插入间隔

    在当前光标位置插入指定时长间隔,单位为毫秒(ms),1000ms=1秒

3.2、超大文本

  • 支持文件格式:编码格式为utf8的txt文档,非utf8编码将显示编码错误

    image-20230927102814577

  • 导入方法

    • 拖放:选择需要导入的txt文件,直接拖到软件界面导入

    • 超大文本表格区域鼠标右键--导入,选择文件完成导入

  • 不限制文件大小

    • 小提示:一般情况下,20000字符中文内容,合成音频后的时长约为2小时(120分钟)左右,以此类推,10000字符中文内容长度合成音频时长约为1小时左右,1600字符中文内容合成音频时长约为10分钟。

3.3、全局间隔

img

全局间隔,主要用于一键设置全文所有语句间隔停顿时间,勾选启用。

3.4、导出Srt字幕

img

文本配音时是否同步导出Srt字幕,勾选启用。

导出模式:

m1模式:纯算法本地实现,有概率生成失败(为确保成功率和准确率,使用此功能时单次字符数量不得超过50000),建议使用m1模型导出字幕,角色语速不要设置太快,太快也会导致导出字幕失败。

注意:普通文本配音 与 导出Srt字幕m1模式的文本配音是两种截然不同的模式,合成效果也会有所不同,另外导出Srt字幕模式的文本配音不支持自定义插入间隔,两者有冲突,有可能造成合成失败。此外,m1模式导出Srt字幕时根据角色语速不同,需要对全局间隔参数进行微调,具体的全局间隔数值需要自己进行耐心调校测试,否则生成效果可能会不尽人意。

m2模式:服务器远程AI识别生成字幕,优点:成功率高,支持最长不超过3小时音频生成字幕,缺点:由于是AI识别生成,可能有少量字幕内容音对字不对。

3.5、多音字

  • 直接使用拼音替代

    img

    使用查拼音功能查完后,将文本中需要指定音调的多音字使用查询到的指定音调的拼音替换

  • 编辑替换多音字列表

文本清理--多音字替换,输入原始多音字英文和替换的同音字,一行一个,如上图所示,编辑完成后,点击保存配置即可

注意:此处将直接对合成文本中的多音字进行全局替换,所以使用多音字替换后,导出Srt时,也需要对导出的Srt中的多音字文本进行手动还原。

4、字幕配音

4.1、字幕编辑

img

字幕编辑表格区域点击鼠标右键--导入,导入需要编辑的Srt字幕文件,导入完成后就可以开始修改,修改完成后,点击鼠标右键--保存,即可将修改后的srt进行保存

4.2、字幕配音

img

  • 导入:导入字幕,或者直接将Srt字幕文件拖动到软件界面完成导入

  • 清空:清空列表

注意:!!!

根据Srt字幕内容进行配音,需要注意,此模式对Srt字幕文件合理性要求较高,所谓字幕文件合理性,是指逐条字幕内容与其所对应的时间轴是否匹配,简单举例:

5
00:00:12,381 --> 00:00:14,109
这就是为什么我们将选项放在一起的原因让您了解我们的指南

以上是字幕文件中的一组字幕数据,含义如下:

序号

字幕开始时间:00:00:12,381 --> 字幕结束时间:00:00:14,109

字幕内容:这就是为什么我们将选项放在一起的原因让您了解我们的指南

空行结束

以上是一条标准的SRT字幕格式,包含序号、字幕开始/结束时间、字幕文本内容、空行结束,缺一不可!

通过简单计算可获取此条字幕内容显示的时间=结束时间(14.109)-开始时间(12.381)=1.728(秒)

这就是非常典型不合理的字幕文件,因为正常情况下,这么长的一段字幕内容,完整表述所需的时间绝对不止1.728秒,

如果你的字幕文件存在类似于这种不合理的时间轴,软件为了准确对齐时间轴,就只能对这段内容的音频进行加速处理,以缩短这条字幕音频的时长,让其小于1.728秒,如果不对这段字幕对应的音频进行加速处理,那么这条音频就无法在时间轴指定的时间内播放完成,它就会直接影响下一条字幕,造成尾压头声音重叠的问题。

总结:如果你在进行Srt字幕配音时,发现最终音频中时不时有语句突然加速的现象,那么,请参照上述内容,自行手动调整加速语句对应Srt字幕文件时间轴,以确保其合理性。

小提示:这种问题通常都是对字幕文件进行翻译以后出现,原因就是原始字幕文件的时间轴使用原始语言是合理的,经过翻译后同样一句话,内容长度会发生变化,而此时时间轴没变,这才是根源。

5、语音识别

注意:模型下载完成后需要移动到软件目录下的whisper文件夹中

img

  • 1、选择音视频目录:选择需要进行语音识别的音视频文件保存目录,软件将对指定目录下所有.mp4/.mp3/*.wav文件进行批量AI语音识别;

  • 2、选择语音:选择音视频文件的语言类型,zh:中文,en:英文,找不到或是不知道就保持默认:auto即可。

  • 3、选择模型:模型越大,需要内存越大,识别结果越准确,识别时间也会越长,点此下载模型文件

    • 所有模型共分五个档次,从小到大分别为:tiny、base、small、medium、large

    • 模型越大,需要内存越多,识别结果相对越准确,语音识别需要的时间也会越长,

    • 模型命名:每1档模型又分为4个型号,以base模型为例:

      • base.bin:基础模型,适合处理多种语言的语音识别任务。这个模型体积适中,性能较为平衡,适合在多语言场景下使用。

      • base-q5_1.bin:base 模型的量化版本,q5_1 表示使用了一种特定的量化方案,在保持较好准确率的同时显著减少了模型的体积,适合在资源有限的设备上运行。

      • base.en.bin:基于 base 模型专门为英文语音识别优化的版本。相比于多语言版本,它可能在处理英文语音时性能更好,识别准确率更高。

      • base.en-q5-1.bin:base.en 模型的量化版本,q5_1 表示使用了一种特定的量化方案,在保持较好准确率的同时显著减少了模型的体积,适合在资源有限的设备上运行。

    • 请结合自身需求选择下载合适的模型。

  • 4、输出文件:识别出的文本内容保存格式,当前支持输出 txt/srt/vtt/lrc 格式,识别成功后,输出文本文件保存在音视频文件相同目录且名称相同。

  • 5、启用GPU加速(需要有显卡,其次需要安装显卡对应版本的CUDA,这块坑比较多,大家自行查阅相关资料)

6、设置选项

  • 微软TTS线路测试:免费线路延迟测试(通常情况下,晚上是使用高峰期,此时免费接口服务器响应会变慢,甚至无响应,导致合成失败)

  • 保存目录:TTS合成音频保存目录

    • 打开:打开保存目录

    • 选择文件夹:选择音频保存目录

  • 任务结束是否播放提示音:勾选播放,不勾选不播放

  • 任务结束打开保存目录:在语音合成任务完成后打开保存目录(如果保存文件夹已经有打开则不会再打开)

  • 任务结束删除音频片段:勾选删除所有音频片段

  • 是否进行最终完整合并:就是将所有分段音频文件合并成一个音频文件。

  • 合成结束添加片头/背景音乐

    TTS语音合成完成后,自动添加指定/随机随机音乐,

    • 添加指定片头/背景音乐,点击按钮弹出音频文件选择窗口,选择相应的背景音乐即可;

    • 添加随机片头/背景音乐,在第一次弹出的音频选择窗口点击“取消”,然后软件会自动进入文件夹浏览选择窗口,选择背景音乐所在文件夹后确定即可。

    • 循环:勾选后,当TTS语音时间很长,而背景音乐时长较短时,会重复循环播放背景音乐,直到TTS音频结束,不勾选时,背景音乐播放一次就会结束播放;

  • 自定义代理:

img

解决微软免费接口访问速率限制(429问题),使用方法:设置代理的IP地址和端口后,选择相应的代理类型,最后勾选上面的启用即可。

  • 微软接口VIP线路:后端采用APIKey形式,全面解决微软免费接口访问速率限制429问题

    • VIP用户每天50000字符!有更高使用需求的朋友可为指定账号单独购买更高额度套餐。详情:https://ztjun.fun/2323.html

  • 微软APIkey:使用微软Azure接口时,勾选生效,需要自行申请注册微软Azure TTS服务apikey,点击观看视频教程,区域选择一定不能错,错了无法获取token,提示:最好不要在某宝等平台购买此apikey,群里已经有N例了,用着用着莫明其妙就失效,无法获取token!

  • 火山TTS:需要自行注册并开通【语音合成】服务,点击观看视频教程,注册开通后,如下图所示获取并填写AppID/Token

img

  • 海螺TTS:

获取groupID:

获取Token密钥:

  • 阿里云百炼平台API-KEY:

登录阿里云百炼平台,在右侧顶部找到用户按钮--选择API-KEY

  • 运行日志:日志信息,出现问题方便定位。

7、CosyVoice声音复刻

7.1、需要注册创建阿里云百炼API-KEY。

7.2、获取CosyVoice复刻角色:

  • 获取已经创建好的复刻角色,获取到角色后,会将复刻角色添加到CosyVoice接口,中文,角色列表末尾

7.3、CosyVoice声音复刻:

  • 新建复刻角色:

    • 选择要复刻或克隆的mp3、wav音频文件,mp3、wav音频文件要满足以下要求:时长10~20秒,采样率16KHz及以上,mp3音频大小10MB以内

    • 填写自定义角色前缀,新建复刻角色成功后,此角色前缀会添加到CosyVoice接口,中文,角色列表末尾,要求:只允许数字和小写字母,长度小于10个字符。

    • 设置好后,点击“新建复刻角色”按钮,等待复刻完成,即可在CosyVoice接口,中文,角色列表末尾选择该角色进行使用。

  • 更新指定复刻角色:对前面复刻的效果不满意时,可以在复刻角色列表中找到并选择要更新的复刻角色,重新选择mp3音频文件,然后点击“更新指定复刻角色”,等待完成即可

  • 删除指定复刻角色:从复刻角色列表选择要删除的复刻角色名称,点击“删除指定复刻角色”按钮,等待完成即可。

 


常见问题 & 注意事项

1、路径问题

img

上图可以看到,当前程序路径即为软件所在目录的完整路径,在此完整路径中,不能有空格或是英文小括号等特殊字符,它们会导致TTS语音合成后无法进行最终合并;

解决办法:将ztj-tts-n文件夹剪切到其它盘符的根目录下,确保ztj-tts-n所在文件夹名称中不包括空格或英文小括号等特殊字符即可。

2、权限问题

问题表现:文件无法拖放/音频合成完成后无法合并/勾选删除分段音频无法删除等等;

解决方法:可以尝试把各类电脑管家/杀毒软件关闭,再使用管理员权限运行(不要使用快捷方式),如果有弹出对话框询问是否允许之类的提示,记得一定要允许!!!

3、误杀问题

问题表现:ZTJ-TTS-N压缩包下载后一解压就被删了,或者用着用着就没了;

解决办法:关闭win10以上系统文件实时保护功能(Windows安全中心--病毒和威胁防护--“病毒和威胁防护”设置--管理设置--实时保护--关闭)、关闭杀毒软件(原因是软件有加密保护,会造成杀毒软件误杀);

img

4、合成失败问题

  • 1、超长文本需要要注意文本所在路径以及txt文本文件名称,两者都尽量不要包含特殊字符如英文括号/空格等,它们可能导致合成失败;

  • 2、中小文件合成时,需要检查文本内容是否包含特殊字符,特别需要警惕那些看起来像空格的不可见字符,因为很多特殊符号肉眼看起来非常像是空格,但实际上它是特殊符号,推荐使用notepad等文本编辑工具进行查看编辑删除;

  • 小技巧:如何快速分辨是文件名/路径导致的合成失败还是文本内容有问题导致的合成失败:如果是文件名或路径问题,那么日志窗口在显示提交合成文本后就没有后续了,如果是文本内容有问题,那么日志窗口提交文本后会有相应错误提示的,通过这一点就可以快速分辨是路径、文件名问题还是文本内容问题;

5、无法下载问题:Microsoft Edge 阻止不安全的下载

解决办法:

img

6、常见错误码

  • -1/-3:网络不稳定,连接超时;

  • -2:网络问题缺失数据,校验未通过;

  • 200:请求成功;

  • 400[ms/edge]:合成文本内存在特殊字符,请检查去除后再试;

  • 429[ms]:当前IP已达到合成上限;

  • 3010[hs]:文本长度超限;

  • 3011[hs]:无效文本;

本站所有资源版权均属于原作者所有,这里所提供资源均只能用于参考学习使用,请在下载后24小时内删除,严禁商用。若由于商用引起版权纠纷,一切责任均由使用者承担。 【注意:本站发布资源来源于网络搜集,均有较强时效性,请在下载前注意查看文章资源发布或更新时间,距离当前时间太久的资源不建议下载,特别是安卓专区相关资源,会有大概率失效无法使用】