音箱狂欢之后:对话式AI的价值与沉默
2017/11/12 人人都是产品经理

    

     作者:脑极体

     全文共 2124 字,阅读需要 5 分钟

     ———— / BEGIN / ————

     今年的消费者AI领域,最受关注的一场大战,肯定是智能音箱的狂飙突进。

     这场堪称狂欢的运动中,除了一大波硬件产品的快起快落,更大的收获在于,我们看到了对话式AI的技术本身也许有超越音箱的价值。

     在智能音箱的快速落地之后,消费者和资本一方面开始认识到语音交互可能带来的想象空间与增值潜力,一方面也意识到智能音箱在技术体验上存在巨大技术局限——甚至有声音断言,对话式AI本身不提高,所有今天假想的语音AI生态都是空谈。

     泡沫过后,后狂欢时代中对话式AI亟待解决的问题开始浮现。

     今天的对话式AI中,产业格局暴露了哪些提升空间?如何理解其所面临的问题与机遇?谷歌、亚马逊、百度等巨头又在尝试哪些破局方案?

     音箱狂欢之后:对话式AI的价值与沉默

     所谓对话式AI,是指机器与人在对话服务场景中展现出的AI技术集成。

     智能音箱的快速进入市场的价值,不仅是是为AI开了个好头,更重要的是让受众与资本看到了对话——这种人类最基本的信息释放模式可能带来怎样的价值想象力。

     不仅是内容与电商的激活,高度贴合用户习惯,且具备多种能力的对话式AI也许有能力成为接下来的家庭中心与个人生活助手、商业秘书。其延伸的商业价值当然不难想象。

     并且对话式AI是牵动其他多种AI语音交互的关键,涉及语音理解、语义判断、语言增强记忆和深度语言交互等多个技术端口,可谓NLP技术向未来发展的轴心。

     但问题是,在音箱狂欢逐渐趋于理性之后,很多对话式AI在系统端的技术能力问题开始浮现。

     比如理解能力有限、唤醒成本过大、深入用户沟通能力缺失等等。

     这些技术瓶颈导致了对话式AI全面转向个人与家庭助手的过度将被限制,很多创意性的语言与声音AI应用也成了无本之源。无论是学界、巨头还是创业者,都在共同期待智能语音完成一个快速的跃升。

     三重门:强AI语音应用的难题何在

     摆在强语音交互的对话式AI面前,最急需解决的是三大问题。跨过这三重门,或许终端硬件与服务将带给用户完全不同的认知体验,甚至重新定义对话式AI。

     对用户语音的贴合认知:消弭噪声、方言、多人、语音不清等因素带给人机交互的障碍,让用户在现实环节中与智能体沟通没有磕绊,达到无成本沟通。

     极限化降低唤醒成本:完成对唤醒行为的无死角响应,因为唤醒效率低往往导致用户彻底放弃一次人机交互。但如何在复杂环境中随时能被唤醒,做到无处不在,其中有很多技术场景需要挑战。

     从语义理解到记忆理解:从“我说你听”到“共同探讨”是一个非常剧烈的改变,智能体能否记忆并分析用户的语境、上下文,给出智能化更高的应对方案,甚至主动服务与建议,可说是对话式AI的未来核心。

     这三道技术挑战摆放在我们面前,而最有可能的破局者,当然是行业中的几大技术巨头。

     对话式AI难题的破解思路

     在对话式AI的破局路径中,几个AI巨头也在尝试不同的方案。

     比如谷歌更多是通过收购相关项目与API解决方案,加强对谷歌大脑技术的训练强度,来获得对话式AI的提升。

     在以谷歌大脑为中心的对话式AI研发中,谷歌尝试使用不同的语料因素和学习样本来强化智能体在对话时的记忆强度与修辞模式。通过对文学作品、社交媒体资料的学习,来完善对话式AI的强度沟通可能。

     另一方面,谷歌也在不断加强研发和收购对话式AI与硬件衔接之间的解决方案,通过软硬件结合达成更好的AI体验。

     而在Echo上比较成功的亚马逊,目前更多资料显示还是在产业端战略布局。在持续研发升级对话AI技术的同时,也与智能家居产品、个人助手软件,以及其他公司的对话式AI产品形成联动模式。依靠使用体验的强化加深产业占有率。

     就在前段时间,百度发布了一项针对对话式AI的计划:DuerOS普罗米修斯计划。计划包含开放数据集、跨学科合作等多种计划,还将设立100万美元的基金用以资助和培养对话式AI领域的优秀项目和人才。

     这个计划与欧美巨头之间,在两方面展现了差异:

     将产业研发与学术研发结合起来,引导学术力量破解产业问题;

     相比大公司普遍的秘密研发计划,这个计划的特点是开放。把研究工具进行开源,然后期待回收以这些工具完成的研发结果。

     其中最重要的,显然是对大量对话式AI数据集的开源。因为此前的对话式AI领域中,数据集普遍非常古老,不适应今天的平台,并且基本需要收费且为全英文。对于中文语言交互的研发非常不利。

     目前所知,百度刚刚开源的数据集包括:远场唤醒方面五十万条“小度小度”和其他主流的中文唤醒词录音数据、数百小时的误唤醒录音数据;远场识别方面则有数千小时中文远场语音识别数据;多轮对话方面含有万段对话数据。

     开源资料与工具包,然后以竞赛的方式回收成果,是我们此前在机器学习与神经网络方面经常见到的模式,但语音交互领域这样的计划还非常稀少。不难看出,巨头对于对话式AI的发展已经表现出了更加急迫的期待。或许在接下来的短时间内,国内外巨头推出更加激进、开放的对话式AI研究计划会成为主流。

     对话服务与AI,可以说来到了临门一脚的重要时期,但最后如何完成射门,可能是大公司们正在头疼的问题。

     ———— / END / ————

     作者:脑极体,微信公众号:脑极体

     本文由 @脑极体 原创发布于人人都是产品经理。未经许可,禁止转载

    

     点击“阅读原文”下载APP

    http://weixin.100md.com
返回 人人都是产品经理 返回首页 返回百拇医药