随着技术的飞速发展,AI在克隆人类声音方面所需的时间已经大大缩短。
从最初的数分钟到现在仅需几秒钟,OpenAI最近宣布其最新的声音克隆技术只需要15秒的音频样本即可精准复刻个人声音。
OpenAI在其官方网站上发布了一个名为“Voice Engine”的新模型的初步展示。该模型自2022年底起一直在研发中,通过分析至少15秒的语音样本,它能够根据用户输入的文本生成情感丰富且逼真的语音,这些语音与原声极为接近。
尽管OpenAI对于这项技术的大规模应用持谨慎态度,考虑到合成声音可能被不当利用的风险,但公司表示希望就合成声音的负责任使用开启社会对话,并探讨社会如何适应这些新技术。
OpenAI指出:“我们将根据这些对话以及小规模测试的结果来做出更明智的选择,决定是否以及如何在更大范围内部署这项技术。”
OpenAI提到的风险之一是利用类似技术实施诈骗,这一技术已被公开使用一段时间。诈骗者可能通过克隆某人的声音,并打电话给该人的朋友或亲属,诱使他们通过银行转账支付款项。此外,还有关于这项技术可能在即将到来的总统选举中被滥用的担忧。
与此同时,这项日益进步的技术对于声音演员的生计构成威胁,他们担心自己的声音被AI合成利用,而相关合同的补偿远不及亲自表演。
从积极的角度来看,OpenAI表示这项技术可以用于为非读者和儿童提供以自然、富有感情的声音进行的阅读辅助,也可以用于视频和播客的即时翻译,以及帮助因疾病失去声音的患者继续以自己的声音进行交流。
OpenAI在其网站上提供了AI生成的音频及其参考音频的样本,其惊人的相似度确实令人印象深刻。
标签:声音,15,AI,技术,这项,OpenAI,复刻,TodayAI From: https://blog.csdn.net/ponderai/article/details/137240564