Microsoft公布全新AI语音生成工具VALL-E 2 效果太好不对外推出
生成式AI技术越来越进步,模拟真人发声的工具也变得相当像真。最近Microsoft就公布全新的AI语音生成工具VALL-E 2,据称已经达到“真人”发声的水平。
据报道指,Microsoft的这个VALL-E 2工具是去年1月首次发布的VALL-E的新版本,可以将文本转变成语音,而且其效果已经达到“与人类相同”的水平,开发人员表示,VALL-E 2只需几秒钟的音频输入就能学会模仿声音。
VALL-E 2采用“重复感知抽样”(Repetition Aware Sampling)和“分组程序代码建模”(Grouped Code Modeling)技术,使词元的重复问题得以解决,改善流畅度和生成速度。
这种技术的应用范围广泛,从个性化语音助手到视频游戏配音等范畴都有潜在使用价值。不过Microsoft担心VALL-E 2的强大功能会遭到应用,因此目前并未打算对外公布,只作内部研究用途。与其他生成式AI工具一样,这种技术可能被用于制作深度伪造 (Deepfake) 语音,进而引发身份欺诈和虚假资讯传播等问题。
来源:Decoder