主要功能:
文本转语音(微软Azure接口/Edge接口/火山TTS接口/海螺TTS接口/阿里云百炼平台(CosyVoice、Sambert)TTS接口、CosyVoice声音复刻、支持超长文本转音频、Srt字幕编辑、Srt字幕合成语音、AI语音识别导出字幕等...
近期更新:
v0.4.7
- 1、优化:音频合并模块优化,合并速度提升约百分之三十;
- 2、优化:超工文本合成卡文件预处理问题,提升合成稳定性;
- 注意:所有HD角色网站自建微软VIP线路全部支持,使用微软APIKEY注意,区域必须为美国东部、西欧、东南亚,其它区域APIKEY无法使用,微软免费API接口HD角色基本都不可用。
- 晓晓-对话-HD-Neural(XiaoxiaoConversational) 角色已被官方移除,全部无法使用
友情提示:
-
ZTJ-TTS-N为最新版本TTS文本转语音工具,工具开发定位为网站VIP福利!本工具所有功能有文档,有视频,简单问题请自行查阅学习,使用本工具不提供任何1对1解答服务!!!
-
本网站账号密码即为 ZTJ-TTS-N 账号密码;
-
本网站VIP用户即为ZTJ-TTS-N VIP用户,本网站非VIP用户即为ZTJ-TTS-N 普通用户;
- 非VIP用户仅开放基础TTS合成功能(合成内容有长度限制,无次数限制)!
-
问题反馈:点击软件左下角“意见反馈”,填写问题相关内容并提交,以便查找定位解决!!!
-
首次使用,请仔细阅读以下文档/视频,磨刀不误砍柴功!
一、2023.10.25日开始,微软官方对TTS免费接口合成次数进行了限制,每日合成上限为20次,此限制是基于当前设备公网IP地址,问题表现一直合成失败429("code":"TooManyRequests","message":"The rate limit has been reached. The timeout in seconds can be found in the Retry-After header."),当合成次数达到上限后,此公网IP就需要等待24小时后才可以继续合成,解决方法:
- 1、使用网站搭建的微软接口VIP线路,普通用户5000字符/天,网站VIP用户50000字符/天,试听免费不计额度(使用VIP线路时日志窗口会有额度信息显示)
- 使用方法:选择“微软”接口,设置选项--微软接口VIP线路--勾选“线路1”启用
- 有更高使用需求的朋友可选择为指定账号单独购买额度套餐!点击查看购买套餐及使用演示教程(注意:不是网站VIP用户无法购买,购买了也无法使用)
- 2、自行申请使用官方的apikey,官方Apikey免费额度为每月50W字符(汉字约25W字符)(点击观看视频教程),注意:微软官方是以token计量
- 3、自行购买HTTPS/SOCKS5代理绕过此限制,前提:要求代理节点IP够多,够干净,否则用的人多了,很快就会被大范围限制;
- 4、临时应急可以通过使用全局代理切换公网IP,如果是家庭环境,可以通过重新拔号上网达到切换公网IP的目的,如果可以连接手机热点,则可以通过手机端开启/关闭飞行模式达到切换公网IP的目的(注意:公网IP资源有限,并不是说你切换了一个新的公网IP就一定可以合成20次,可以合成20次的前提是,你拿到的这个公网IP在你之前24小时内,没有被别人用于微软TTS合成,如果这个公网IP被别人拿去合成过,那20次用一次就少一次,如果被别人把20次用完,你就会直接429;
二、2023.12.8日傍晚开始,微软TTS免费接口对TTS合成音频音质进行了限制;
界面
1、登录界面
用户名密码就是网站的用户名密码,没有注册,就点击注册按钮跳转到网站,注册一个账号。
2、主界面
3、设置界面
4、超长文本合成
(约为330W字文本,一次性合成音频,超180小时)
视频教程
- ZTJ-TTS-N 软件使用教程:https://www.bilibili.com/video/BV1aDRNY1EmT/
-
注册微软Azure申请APIKEY,:https://www.bilibili.com/video/BV1Ee411C7p5/
-
火山TTS注册申请创建【语音合成】应用获取APPID/AccessToken:https://www.bilibili.com/video/BV11j411j7C8/
- 海螺AI API-KEY注册创建,视频教程:https://ztjun.fun/3812.html
-
阿里云百炼平台(CosyVoice、Sambert)API-KEY申请,:https://ztjun.fun/3814.html
-
ZTJ-TTS-N 扣子智能助手(需注册COZE平台,登录后使用):
https://www.coze.cn/store/agent/7482725069262176283?bot_id=true
文字教程
1、接口
-
微软Azure接口:支持文本配音、导出Srt字幕(M1/M2模式)、Srt字幕配音,
-
支持使用官方免费API接口(完全免费,官方有每日20次限制)
-
支持使用官方APIkey(需要自行申请注册 Azure TTS 服务,创建apikey)
-
网站自建微软接口VIP线路套餐,后端采用APIKEY连接官方API,需要购买网站微软接口VIP线路字符套餐;
-
-
Edge朗读接口:支持文本配音、导出Srt字幕(M1/M2模式)、Srt字幕配音(完全免费,不需要APIKEY)
-
火山TTS:支持文本配音、导出Srt字幕(M1/M2模式)、Srt字幕配音(需要自行申请注册申请火山引擎Apikey,视频教程)
-
海螺TTS:仅支持文本配音功能、导出Srt字幕(M2模式)(需要自行申请注册申请海螺AI平台Apikey,视频教程);
-
CosyVoice:仅支持文本配音功能、导出Srt字幕(M2模式)(需要自行申请注册申请阿里云百炼平台Apikey,视频教程);
- 注意:使用CosyVoice接口进行TTS文本转语音时,文本内容不能包含英文引号",以及换行回车,因为此接口提交数据为JSON格式,英文引号"或换行回车会破坏JSON数据格式,导致合成失败。
-
Sambert:仅支持文本配音功能、导出Srt字幕(M2模式)(需要自行申请注册申请阿里云百炼平台Apikey,视频教程);
接口 | 价格 | 备注 |
---|---|---|
微软 | $15/100 万字符 | 每月50万字符免费额度(一个中文=2个字符) |
Edge | 🆓 | 完全免费 |
火山 | ¥5元/万字符 | 调用后付费(1个汉字算1个字符) |
海螺 | ¥2元/万字符 | speech-01-turbo(1个汉字算2个字符) |
CosyVoice | ¥2元/万字符 | 声音复刻免费(1个汉字算作2个字符) |
Sambert | ¥1元/万字符 | 1个汉字算1个字符 |
3、角色
当前角色参数设置,每个接口都不一样,请根据实际情况选择设置。
4、添加多角色
微软、Edge接口支持多角色配置。
使用方法:在角色区域设置好角色各项参数,填写角色名称后,点击右侧的添加按钮,即可将当前角色添加入多角色列表,后续需要使用时,即可进行多角色设置:
在文本配音界面右侧多角色列表点击鼠标右键,可对指定多角色进行管理:
3、文本配音
3.1、中小文本
-
角色试听
微软、Edge、火山接口:以左侧当前角色设置参数试听当前文本内容,支持选择指定文本试听;
海螺、CosyVoice、Sambert接口:试听内容为官方各角色试听音频素材,非当前文本内容试听。
-
设置角色
使用此功能需要在左侧列表先添加角色,然后使用指定角色对选中范围文本内容进行标记,进行过角色标记的内容在后面进行语音合成时,将以指定的角色设置进行语音合成。
使用方法:在中小文本编辑区域,选择要指定角色的文本内容,鼠标右键--设置角色--选择左侧角色列表中添加好的指定角色即可。
注意:不支持角色嵌套,如果存在角色嵌套会导致无法合成(角色嵌套是指在已指定角色的文本中再次指定其它角色)
角色嵌套示例:{R云健(男性)(1)|xxx{R晓辰(女性)(0)|xxxxxxxxxxxxxxxR}xxxR}
-
插入间隔
在当前光标位置插入指定时长间隔,单位为毫秒(ms),1000ms=1秒
3.2、超大文本
-
支持文件格式:编码格式为utf8的txt文档,非utf8编码将显示编码错误
-
导入方法
-
拖放:选择需要导入的txt文件,直接拖到软件界面导入
-
超大文本表格区域鼠标右键--导入,选择文件完成导入
-
-
不限制文件大小
-
小提示:一般情况下,20000字符中文内容,合成音频后的时长约为2小时(120分钟)左右,以此类推,10000字符中文内容长度合成音频时长约为1小时左右,1600字符中文内容合成音频时长约为10分钟。
-
3.3、全局间隔
全局间隔,主要用于一键设置全文所有语句间隔停顿时间,勾选启用。
3.4、导出Srt字幕
文本配音时是否同步导出Srt字幕,勾选启用。
导出模式:
m1模式:纯算法本地实现,有概率生成失败(为确保成功率和准确率,使用此功能时单次字符数量不得超过50000),建议使用m1模型导出字幕,角色语速不要设置太快,太快也会导致导出字幕失败。
注意:普通文本配音 与 导出Srt字幕m1模式的文本配音是两种截然不同的模式,合成效果也会有所不同,另外导出Srt字幕模式的文本配音不支持自定义插入间隔,两者有冲突,有可能造成合成失败。此外,m1模式导出Srt字幕时根据角色语速不同,需要对全局间隔参数进行微调,具体的全局间隔数值需要自己进行耐心调校测试,否则生成效果可能会不尽人意。
m2模式:服务器远程AI识别生成字幕,优点:成功率高,支持最长不超过3小时音频生成字幕,缺点:由于是AI识别生成,可能有少量字幕内容音对字不对。
3.5、多音字
-
直接使用拼音替代
使用查拼音功能查完后,将文本中需要指定音调的多音字使用查询到的指定音调的拼音替换
-
编辑替换多音字列表
文本清理--多音字替换,输入原始多音字英文和替换的同音字,一行一个,如上图所示,编辑完成后,点击保存配置即可
注意:此处将直接对合成文本中的多音字进行全局替换,所以使用多音字替换后,导出Srt时,也需要对导出的Srt中的多音字文本进行手动还原。
4、字幕配音
4.1、字幕编辑
字幕编辑表格区域点击鼠标右键--导入,导入需要编辑的Srt字幕文件,导入完成后就可以开始修改,修改完成后,点击鼠标右键--保存,即可将修改后的srt进行保存
4.2、字幕配音
-
导入:导入字幕,或者直接将Srt字幕文件拖动到软件界面完成导入
-
清空:清空列表
注意:!!!
根据Srt字幕内容进行配音,需要注意,此模式对Srt字幕文件合理性要求较高,所谓字幕文件合理性,是指逐条字幕内容与其所对应的时间轴是否匹配,简单举例:
5 00:00:12,381 --> 00:00:14,109 这就是为什么我们将选项放在一起的原因让您了解我们的指南
以上是字幕文件中的一组字幕数据,含义如下:
序号
字幕开始时间:00:00:12,381 --> 字幕结束时间:00:00:14,109
字幕内容:这就是为什么我们将选项放在一起的原因让您了解我们的指南
空行结束
以上是一条标准的SRT字幕格式,包含序号、字幕开始/结束时间、字幕文本内容、空行结束,缺一不可!
通过简单计算可获取此条字幕内容显示的时间=结束时间(14.109)-开始时间(12.381)=1.728(秒)
这就是非常典型不合理的字幕文件,因为正常情况下,这么长的一段字幕内容,完整表述所需的时间绝对不止1.728秒,
如果你的字幕文件存在类似于这种不合理的时间轴,软件为了准确对齐时间轴,就只能对这段内容的音频进行加速处理,以缩短这条字幕音频的时长,让其小于1.728秒,如果不对这段字幕对应的音频进行加速处理,那么这条音频就无法在时间轴指定的时间内播放完成,它就会直接影响下一条字幕,造成尾压头声音重叠的问题。
总结:如果你在进行Srt字幕配音时,发现最终音频中时不时有语句突然加速的现象,那么,请参照上述内容,自行手动调整加速语句对应Srt字幕文件时间轴,以确保其合理性。
小提示:这种问题通常都是对字幕文件进行翻译以后出现,原因就是原始字幕文件的时间轴使用原始语言是合理的,经过翻译后同样一句话,内容长度会发生变化,而此时时间轴没变,这才是根源。
5、语音识别
注意:模型下载完成后需要移动到软件目录下的whisper文件夹中。
-
1、选择音视频目录:选择需要进行语音识别的音视频文件保存目录,软件将对指定目录下所有.mp4/.mp3/*.wav文件进行批量AI语音识别;
-
2、选择语音:选择音视频文件的语言类型,zh:中文,en:英文,找不到或是不知道就保持默认:auto即可。
-
3、选择模型:模型越大,需要内存越大,识别结果越准确,识别时间也会越长,:
-
所有模型共分五个档次,从小到大分别为:tiny、base、small、medium、large
-
模型越大,需要内存越多,识别结果相对越准确,语音识别需要的时间也会越长,
-
模型命名:每1档模型又分为4个型号,以base模型为例:
-
base.bin:基础模型,适合处理多种语言的语音识别任务。这个模型体积适中,性能较为平衡,适合在多语言场景下使用。
-
base-q5_1.bin:base 模型的量化版本,q5_1 表示使用了一种特定的量化方案,在保持较好准确率的同时显著减少了模型的体积,适合在资源有限的设备上运行。
-
base.en.bin:基于 base 模型专门为英文语音识别优化的版本。相比于多语言版本,它可能在处理英文语音时性能更好,识别准确率更高。
-
base.en-q5-1.bin:base.en 模型的量化版本,q5_1 表示使用了一种特定的量化方案,在保持较好准确率的同时显著减少了模型的体积,适合在资源有限的设备上运行。
-
-
请结合自身需求选择下载合适的模型。
-
-
4、输出文件:识别出的文本内容保存格式,当前支持输出 txt/srt/vtt/lrc 格式,识别成功后,输出文本文件保存在音视频文件相同目录且名称相同。
-
5、启用GPU加速(需要有显卡,其次需要安装显卡对应版本的CUDA,这块坑比较多,大家自行查阅相关资料)
6、设置选项
-
微软TTS线路测试:免费线路延迟测试(通常情况下,晚上是使用高峰期,此时免费接口服务器响应会变慢,甚至无响应,导致合成失败)
-
保存目录:TTS合成音频保存目录
-
打开:打开保存目录
-
选择文件夹:选择音频保存目录
-
-
任务结束是否播放提示音:勾选播放,不勾选不播放
-
任务结束打开保存目录:在语音合成任务完成后打开保存目录(如果保存文件夹已经有打开则不会再打开)
-
任务结束删除音频片段:勾选删除所有音频片段
-
是否进行最终完整合并:就是将所有分段音频文件合并成一个音频文件。
-
合成结束添加片头/背景音乐:
TTS语音合成完成后,自动添加指定/随机随机音乐,
-
添加指定片头/背景音乐,点击按钮弹出音频文件选择窗口,选择相应的背景音乐即可;
-
添加随机片头/背景音乐,在第一次弹出的音频选择窗口点击“取消”,然后软件会自动进入文件夹浏览选择窗口,选择背景音乐所在文件夹后确定即可。
-
循环:勾选后,当TTS语音时间很长,而背景音乐时长较短时,会重复循环播放背景音乐,直到TTS音频结束,不勾选时,背景音乐播放一次就会结束播放;
-
-
自定义代理:
解决微软免费接口访问速率限制(429问题),使用方法:设置代理的IP地址和端口后,选择相应的代理类型,最后勾选上面的启用即可。
-
微软接口VIP线路:后端采用APIKey形式,全面解决微软免费接口访问速率限制429问题
-
VIP用户每天50000字符!有更高使用需求的朋友可为指定账号单独购买更高额度套餐。详情:https://ztjun.fun/2323.html
-
-
微软APIkey:使用微软Azure接口时,勾选生效,需要自行申请注册微软Azure TTS服务apikey,,区域选择一定不能错,错了无法获取token,提示:最好不要在某宝等平台购买此apikey,群里已经有N例了,用着用着莫明其妙就失效,无法获取token!
-
火山TTS:需要自行注册并开通【语音合成】服务,,注册开通后,如下图所示获取并填写AppID/Token:
-
海螺TTS:
获取groupID:
获取Token密钥:
-
阿里云百炼平台API-KEY:
登录阿里云百炼平台,在右侧顶部找到用户按钮--选择API-KEY
-
运行日志:日志信息,出现问题方便定位。
7.1、需要注册创建阿里云百炼API-KEY。
7.2、获取CosyVoice复刻角色:
-
获取已经创建好的复刻角色,获取到角色后,会将复刻角色添加到CosyVoice接口,中文,角色列表末尾
7.3、CosyVoice声音复刻:
-
新建复刻角色:
-
选择要复刻或克隆的mp3、wav音频文件,mp3、wav音频文件要满足以下要求:时长10~20秒,采样率16KHz及以上,mp3音频大小10MB以内
-
填写自定义角色前缀,新建复刻角色成功后,此角色前缀会添加到CosyVoice接口,中文,角色列表末尾,要求:只允许数字和小写字母,长度小于10个字符。
-
设置好后,点击“新建复刻角色”按钮,等待复刻完成,即可在CosyVoice接口,中文,角色列表末尾选择该角色进行使用。
-
-
更新指定复刻角色:对前面复刻的效果不满意时,可以在复刻角色列表中找到并选择要更新的复刻角色,重新选择mp3音频文件,然后点击“更新指定复刻角色”,等待完成即可
-
常见问题 & 注意事项
1、路径问题
上图可以看到,当前程序路径即为软件所在目录的完整路径,在此完整路径中,不能有空格或是英文小括号等特殊字符,它们会导致TTS语音合成后无法进行最终合并;
解决办法:将ztj-tts-n文件夹剪切到其它盘符的根目录下,确保ztj-tts-n所在文件夹名称中不包括空格或英文小括号等特殊字符即可。
2、权限问题
问题表现:文件无法拖放/音频合成完成后无法合并/勾选删除分段音频无法删除等等;
解决方法:可以尝试把各类电脑管家/杀毒软件关闭,再使用管理员权限运行(不要使用快捷方式),如果有弹出对话框询问是否允许之类的提示,记得一定要允许!!!
3、误杀问题
问题表现:ZTJ-TTS-N压缩包下载后一解压就被删了,或者用着用着就没了;
解决办法:关闭win10以上系统文件实时保护功能(Windows安全中心--病毒和威胁防护--“病毒和威胁防护”设置--管理设置--实时保护--关闭)、关闭杀毒软件(原因是软件有加密保护,会造成杀毒软件误杀);
4、合成失败问题
-
1、超长文本需要要注意文本所在路径以及txt文本文件名称,两者都尽量不要包含特殊字符如英文括号/空格等,它们可能导致合成失败;
-
2、中小文件合成时,需要检查文本内容是否包含特殊字符,特别需要警惕那些看起来像空格的不可见字符,因为很多特殊符号肉眼看起来非常像是空格,但实际上它是特殊符号,推荐使用notepad等文本编辑工具进行查看编辑删除;
-
小技巧:如何快速分辨是文件名/路径导致的合成失败还是文本内容有问题导致的合成失败:如果是文件名或路径问题,那么日志窗口在显示提交合成文本后就没有后续了,如果是文本内容有问题,那么日志窗口提交文本后会有相应错误提示的,通过这一点就可以快速分辨是路径、文件名问题还是文本内容问题;
5、无法下载问题:Microsoft Edge 阻止不安全的下载
解决办法:
6、常见错误码
-
-1/-3:网络不稳定,连接超时;
-
-2:网络问题缺失数据,校验未通过;
-
200:请求成功;
-
400[ms/edge]:合成文本内存在特殊字符,请检查去除后再试;
-
429[ms]:当前IP已达到合成上限;
-
3010[hs]:文本长度超限;
-
3011[hs]:无效文本;
评论(10)
大佬,我还是字符的问题,像中文顿号,顿挫感不强,其他符号比如冒号,也不强,我在官网是顿挫感比较强的。是编码的问题吗?
微软接口生成的配音导入pr后,音频会少几秒,有办法处理吗
密码是啥
前情:
1、ZTJ-TTS软件账号密码即为本网站用户账号密码;
2、本网站VIP用户即为ZTJ-TTS工具VIP用户,本网站非VIP用户即为ZTJ-TTS普通用户;
3、只有VIP用户才可以购买使用微软接口的VIP线路;
API咋没提供了?
有的,只是更换了新接口
这些话说了肯定被删,但是我作为付费用户我还是说,用不了了,而且以前还允许自己定代理,现在完全开始深度定制了。
这位朋友,设置界面:微软免费接口自定义代理(HTTPS/Socks5),看到了没有,哎~~~~~
设置选项界面能不能有个保存默认啊,用KEY每次都要调一次选区,有点麻烦呀~~~~
期待