如何让机器像人一样“说话”?这堂讲座为你解密 近年来,随着人工智能的发展,各种语音合成应用也迅速普及,如即时的文本信息转语音、视觉障碍人士的辅助软硬件,甚至是推销电话、厂商客服以及短视频配音等,都有语音合成的身影。不仅如此,技术手段的加持,使得语音合成呈现出更逼真的人声、更自然的音色以及有一定情感起伏的语调。 近日,中国科学院大学成都学院科学前沿讲座邀请了中国科学技术大学教授凌震华,以《语音合成基础与前沿进展》为主题,介绍了语音合成技术的最新进展,包括语音信号的离散表征与基于大模型架构的语音合成方法,以及以改变语音中说话人音色为目标的声音转换任务等。 凌震华表示,赋予机器像人一样自如说话的能力,是人工智能领域的关键技术之一。“我们做语音合成,就是利用机器去模拟人类将文本转化成声学信号的生理过程。”讲座中,凌震华从语音合成的基本概念,以及语音合成技术的发展历史讲起,重点介绍波形拼接语音合成与统计参数语音语音合成两条技术路线。 2013年深度学习技术被引入语音合成后,基于深度学习的统计参数语音合成日益受到研究关注。为此,他围绕早期帧对齐预测的深度学习声学建模方法,以及神经网络声码器与序列到序列的深度学习声学建模方法等,作了深入浅出的讲解。 对于语音合成技术研究面临的挑战和发展方向,凌震华也提出了自己的思考。“例如,一些方言或特殊语种的数据采集受限,这是我们未来在语音合成研究中需要考虑的方面。” 据悉,科学前沿讲座是由中国科学院大学成都学院主办的学术讲座。讲座主要面向学院内师生,内容涉及科技领域最新、最尖端以及最具挑战性的研究方向和课题,以拓宽学生的学科视野,激发创新热情。