感谢您参与我的毕业设计研究,本研究旨在评估零样本语音合成模型的语音自然度、相似度两个指标。 零样本语音合成技术使得模型能够通过分析短暂的参考语音(3-10秒),学习其音色 以生成与给定文本相匹配的语音输出。
在本次评估中,我们将采用平均意见法 MOS(Mean Opinion Score)。 参与者将听取由两个不同模型生成的语音样本,并对每个样本的自然度、相似度进行评分。 评分范围从1(非常不自然)到5(非常自然) 以此来反映语音的自然流畅性和真实感。 非常感谢您的参与和评价,在评测过程中,有任何问题或建议都可以及时跟李卡布沟通!
本次评估共有20个英文朗读者的声音,10名女性,10名男性 请分别为 A模型和 B模型合成的语音进行语音自然度、相似度评分 不同speaker的语速、语调稍有不同,10s的参考语音内容可能有变化,参考语音script大致为如下, Although the breeze had now utterly ceased, we had made a great deal of way during the night, and we're now lying becommed about a half a mile to the southeast of the low eastern coast. 模型目标合成文本为:Although the breeze had now utterly ceased 模型概率性出现的幻觉问题,如增音、漏因现象在本次评估中可忽略