【紫冬视界】COLING2018: 计算语言学研究的热点与趋势
2018/8/10 16:36:56 中国科学院自动化研究所

    

     目前,所有自然语言处理和计算语言学会议几乎存在相同的热点和趋势:神经网络、注意机制、表示学习、语义和知识等。区别于北美基因的ACL和NAACL,欧洲基因的COLING更加关注语言规律和模型的分析。

    

     下面分别从语义表示、机器翻译、人机对话、自动摘要、情感分析、多模态信息处理6大代表领域进行热点及趋势分析。

     语义表示

    

    

     对比分析

     ◇语义表示受到了越来越多的关注,对比2016年和2018年,相关文章数量的占比由11/337上升到了17/331,增加了50%

     ◇深度神经网络方法的兴起使得基于神经网络的语义表示方法占据主导,而传统采用主题模型和矩阵分解的相关研究大幅下降

     ◇随着语义表示模型的发展,更多的工作开始关注融合多种信息的、任务或领域特异的、跨语言的、词义消歧的表示学习方法

    

    

    

     对比分析

     ◇语义表示领域一直是自然语言处理国际会议(COLING2018, NAACL2018, ACL2018)的一个热点,文章数量的占比每年都很大,其所占比例基本相同

     ◇COLING、NAACL和ACL在语义表示领域关注的内容基本一致

    

    热点与趋势

     ◇融合多种信息的、任务或领域特异的、跨语言、消歧的词汇表示学习方法是目前研究的热点

     ◇由于句子在大部分自然语言处理任务中占据更重要的作用,通用的句子表示学习受到了越来越多的关注

     ◇随着语义表示模型框架的逐步完善,越来越多的工作开始关注如何分析与理解模型的工作机制,以及如何评价模型编码语义的能力

     机器翻译

    

    

     对比分析

     ◇机器翻译领域一直是COLING的一个热点,文章数量的占比每年都很大(23/337 vs 23/331)

     ◇神经网络机器翻译的兴起使得统计翻译相关研究大幅下降(5 vs 1),而探讨神经网络翻译结构的文章大幅度提升(4 vs 11)

     ◇随着机器翻译技术的发展,其中一些方向仍旧得到持续性关注(Evalutaion,Multilingual),一些方向开始得到关注(Translation Decoder)还有一些方向关注量开始降低(OOV Problem)

    

    

    

     对比分析

     ◇机器翻译领域一直是自然语言处理国际会议(COLING2018, NAACL2018, ACL2018)的一个热点,文章数量的占比每年都很大,其所占比例基本相同

     ◇COLING更注重语言学知识(比如篇章,句法)在机器翻译中的应用,NAACL和ACL关注范围更广,包括多模态翻译(图像,语音信息)

    

     热点与趋势

     ◇从模型结构来说,机器翻译领域的Beseline,有从RNN-based NMT到Transformer转换的趋势,并且如何改善解码效率也是学术界和产业界共同关注的问题

     ◇从研究领域来说,文档翻译,多模态翻译(图像翻译,语音翻译),低资源多语言翻译可能继续是未来的研究热点

     ◇从机器翻译发展的角度来看,模型架构并未完善,不可解释、难以干预仍是大问题,也是未来的研究趋势

     人机对话

    

    

     对比分析

     ◇对话领域受到了越来越多的关注,文章数量有较大的增加,同时探讨的主题也越来越丰富

     ◇对话领域和模式识别的其它领域(例如情感,多模态)的交叉受到了人们的关注

     ◇对话领域中,聊天系统的比重最大

    

    

     对比分析

     ◇Chat系统在不同的会议中比重仍然是最大的

     ◇任务型对话系统在ACL系列中的关注度比COLING高

     ◇COLING和NAACL更加偏向于数据构建的工作,在ACL中则很少见

    

    热点与趋势

     ◇Sequence-to-sequence是对话建模中最常用的方法

     ◇对话领域中最热的是构建闲聊型系统

     ◇对话领域和其它领域任务的结合将是未来的热点

     自动摘要

    

     对比分析

     ◇COLING中摘要的比重增加50%(18/331 vs 12/337)

     ◇越来越多的工作面向领域特定型摘要,比如Product Summarization、Review Summarization

     ◇生成式摘要的数量远比16年要多,这很大程度是得益于端到端模型在摘要领域的成功应用

    

    

     对比分析

     ◇相比于NAACL2018、ACL2018,Sentence Summarization只出现在COLING2018上,其他两个会的工作偏向于将抽取型和生成型摘要结合

     ◇多文档摘要只出现在COLING2018上,说明COLING2018的工作偏向于传统工作,而其他两个会新任务会更多一些

    

    热点与趋势

     ◇生成式摘要目前仍然是摘要的一大主流研究方向

     ◇将摘要与其他任务(文本蕴含、问答)结合也是一大趋势

     ◇针对于特定领域的摘要也越来越收到研究者的青睐,譬如Product summarization以及Review Summarization

     ◇将生成式摘要和抽取式摘要相结合目前看来越来越被研究人员所采用

     情感分析

    

     对比分析

     ◇COLING内和情感相关的文章越来越多 (21/337 vs. 25/331)

     ◇传统分类 (Classification) 的文章越来越少,说明这个领域越来越成熟,可研究的东西不多

     ◇其他类别的文章(例如 Aspect, Resource 和 Emotion) 越来越多,说明现在研究更趋向于细粒度、资源构建等方向

    

    

     对比分析

     ◇COLING-2018内和情感相关的文章相对来说比ACL-2018 和 NAACL-2018多

     ◇COLING-2018 Resource 类型的文章数目 (6) 比ACL-2018 和 NAACL-2018 (0和0)多,说明:COLING 更偏爱资源的文章或者说搞资源的文章偏爱投COLING

     ◇ACL-2018 和 NAACL-2018 Other 类型的文章数目 (4和2)比COLING-2018 (0)多,说明ACL系列的文章研究的问题可能更新颖一些,比如说[Li et al., 2018; Xu et al., 2018] 研究的是Sentiment Transfer(将褒义的评论转换成贬义的评论),这就是一个新问题

    

    热点与趋势

     ◇目前情感分析研究更偏向研究Aspect-level的倾向性

     ◇资源构建仍然是COLING会议的热点,也是一个趋势

     ◇情绪 (Emotion) 的研究也是这次COLING会议论文的热点

     ◇情感摘要、对话情感等这种情感分析与其他领域交叉的研究方向也是一个研究趋势

     多模态信息处理

    

    

     对比分析

     ◇多模态领域是COLING的一个崭新领域,文章数量较少(2016年没有文章,2018年有3篇)

     ◇社交媒体是多模态数据的一个重要来源,利用多模态数据增强文本语义表示将会是一个有趣的课题。

    

    

    

     对比分析

     多模态领域是COLING的一个崭新领域,文章数量较少;NAACL2018、ACL2018文章稍多,关注范围更广,但仍然没有得到研究者的广泛关注。

    

    热点与趋势

     ◇从研究领域来说,多媒体信息处理和多模态语义表达可能是未来的研究热点。

     ◇多模态领域的发展目前处于起步阶段,虽然多模态信息的重要性已经得到认可,但具体的研究方向还有待探索。应当积极借鉴其它领域或其它学科的技术和发展趋势,特别是计算机视觉和语音处理,从更多角度分析和利用多模态信息。

     本文节选自自动化所张家俊研究员演讲PPT,感谢自动化所宗成庆研究员以及CIP组王少楠、李浩然、王唯康、朱军楠、李俊杰、周龙和王亦宁等同学提供相关材料!

    

     更多精彩内容,欢迎关注

     中科院自动化所官方网站:

     http://www.ia.ac.cn

     欢迎后台留言、推荐您感兴趣的话题、内容或资讯,小编恭候您的意见和建议!如需转载或投稿,请后台私信。

     作者:张家俊

     编辑:鲁宁、欧梨成

     中科院自动化研究所

     微信:casia1956

     欢迎搭乘自动化所AI旗舰号!

    源网页  http://weixin.100md.com
返回 中国科学院自动化研究所 返回首页 返回百拇医药