播本科专业4年直接跪！人工智能语音都发展到这个水平了！

播本科专业4年直接跪！人工智能语音都发展到这个水平了！
2023/3/7 21:10:59 声境界

     一个有态度的朗读号

     这是最近在播音圈子里爆火的一条视频。

     据说央视某位配音员感叹：“播本四年，话筒前工作二十年，业务水平竟比不上AI的水平，真是让人心塞。”

     有这么牛吗，你不妨听听。听了你会……

     会惊讶。

     一定会惊讶。

     不过，我先说一下，这个应该不是纯人工智能生成的，应该是有真正的人的修正，或微调，或干涉，就像当年的《创新中国》的AI李易一样。

     当年的AI李易，实际上就是人工智能+人工修正的，据说整个工作量要比真正的人类配音大好几倍。也就是说，还达不到威胁人类的水准，但足以警示人类播音员，一个巨大的敌人，大踏步向你走来。

     那是2018年的事了，经过3年疫情，技术一定会受到很大影响，但现在，技术继续发展。人工智能在这几年，一定也积累地“听”了很多样本。因为人工智能的根本的学习方法是无限量地增加“样本”。

     比如有人问，人工智能计算机是怎么下棋赢了人类的？用了什么巧妙的方法呢？我们能不能学习一下？

     回答是，可以。

     给，这里有1000万张图片，麻烦你先记在脑中。然后，你就学废了……

     是的，人工智能就是这样学习的：样本数越大，他们的智能就越高。

     所以，人工智能驾驶，如果想让它们永不出车祸，可能唯一的办法就是，让它出足够的车祸。“样本”够了，技术就提升了。这真是“多么痛的领悟”啊!

     问题是，你愿意用自己的生命做那几千万样本之一吗？

     当然，这就扯远了，咱们还是说有声语言表达吧。前面说的是图片，其实语音也一样。因为语音可以轻松转化为波形图片。这一点，录过音的同学们都知道。

     所以，当人工智能“听”了足够多的样本之后，它们会越来越聪明。比如这条片子，足以让很多人惊讶。

     我们发上一期文章《该来必来!山东卫视上新数字主持人》的时候，有留言指出，能听出吸气的声音，这是个假AI。这个真假的事，容我再搜集一下资料再做讨论，今天只说“吸气”的事，就是能不能听出“气口”？

     实际上，上面这条片子是真正的AI，但是，能听出“气口”!

     你仔细听，能听到吸气声。实际上，人工智能对人类语言的模仿，不止模仿语言，同样可以模仿呼吸。对机器来讲，吸气声和语言的aoe其实是一样的，都是人类的声音，一起模仿好了。这样，岂不更逼真？

     这条片子的非人类配音，确实是很震撼，太像真人了，甚至超越了很多真人!不过，还有些细节，还是可以推敲。

     比如，刚开始“河水破冰”的后两个字，故意向上抬，听着略微有点生硬了。接下来的“大雁北归”，“北归”二字抬得更生硬，直到“细雨润无声”才落下来，听得比较自然了。

     这其实是纪录片解说的一个特点，就是句中不断上扬，语势不断，听着有期待感。注意，这是纪录片的特点，如果你用这个方法去读散文，那就会读得一踏糊涂。

     所以，读什么是什么的技巧，一定不能混用。播新闻一定要有腔调，读散文则千万不要有腔调。千万别指望“一招鲜吃遍天”，学会某一招凭这个吃饭是有可能的，比如程咬金三板斧；但以此追求艺术，那是不可能的。

     后面的“毛竹”二字轻重格式不太对，听着也别扭。

     除此以外，整个纪录片解说的感觉是很不错的。

     但是，这是纪录片，如果不配画面，我们只听声音，把它作为一篇散文来听，你会觉得听起来奇奇怪怪的。所以，人工智能语音要想学会人类千变万化的应用场景而匹配不同的表达方式，还需要时间和足够的样本。这也给我们，留下了时间。

     即使你曾经有过“播本四年”或“话筒前工作二十年”的经历，也请不要以此为包袱，还是要加紧成长的脚步，以免被人工智能轻易追上；如果你觉得“业务水平比不上AI”，那也不必太紧张，因为AI也只是在一些小的领域中势头强劲，人类的语言表达场景还有广阔的天地等他们去探索。这无疑给你留下了时间。

     另外，前面也说过，这篇AI语音，其实还是在人的帮助下完成的，否则，远不会如此完美，实际上也并不完美，还有一些暂时弥补不了的瑕疵。这也给你留下了时间。

     只要你在他们留下的时间，不躺平睡觉就好。

    源网页   http://weixin.100md.com
返回声境界返回首页返回百拇医药