对话|一个计算传播学者的心路历程和经验分享——访谈北京师范大学副教授张伦
2022/2/28 科学传播人

     引言?

     2009年,David Lazar 等多位著名学者在《科学》上发表题为《计算社会科学》(Computational Social Sciences)文章[1],成为建立计算社会科学这一新兴学科的里程碑。此后,伴随web2.0时代到来,新闻传播学者们主动拥抱计算社会科学方法,对社会化媒体展开广泛研究,逐渐发展出“基于计算方法的传播学研究(Computational Communication Research)”新范式,在国内简称为计算传播学研究[2][3]。

     近日,《科学传播人》(下文简称“科”)采访北京师范大学艺术与传媒学院副教授张伦,请她结合自身经历谈一谈对计算传播学研究的心得感悟,解答同学们在研究过程中普遍存在的困惑,并为计划或者已经从事计算传播学方面研究的同学提供指导建议。

    

     受访者介绍:张伦

     张伦,北京师范大学艺术与传媒学院数字媒体系副教授,中国新闻史学会计算传播学研究委员会理事,仲英青年学者。主要研究方向为基于数据挖掘方法的新媒体信息传播,即以传播网络分析、传播文本挖掘、数据科学等为主要分析工具,大规模地收集并分析人类传播行为数据,挖掘人类传播行为背后的模式和法则,分析模式背后的生成机制与基本原理。于SSCI、SCI以及CSSCI索引期刊发表论文40余篇;合著出版《计算传播学导论》(北京师范大学出版社,2018年)、《社交网络上的计算传播学》(高等教育出版社, 2015年)等书。承担了国家社科基金一般项目、青年项目、教育部人文社会科学青年项目等多项科研项目。

     ?

     踏入计算传播学领域

     是自然而然的过程

     科:您踏入计算传播领域的契机是什么?为什么会选择该研究方向?

     张伦:对我来说,踏入计算传播学领域是一个自然而然的过程。在香港城市大学媒体与传播系读博时,我的导师是祝建华老师,此时恰逢web2.0时代到来,Facebook,Twitter,YouTube,“校内网”(后改名为“人人网”)等社交媒体成为我们主要的关注领域。我所在的互联网挖据实验室与“校内网”合作,获得 “校内网”从建立之初前两年的用户交友行为数据,涵盖1000多万个用户、4亿多条边。我发现传统的工具与方法,已经不足以分析如此庞大的社交媒体数据,因此开始寻找新方法和新工具,就这样推开了计算传播学的大门。

     科:您做的第一个计算传播学方面的研究是什么?当时您遇到了哪些困难,又是如何克服的?

     张伦:第一个研究就是基于校内网的数据做的。主要的困难是数据分析的体量。当时SPSS是我们最常用的数据分析软件,但是面对海量的用户数据,SPSS已经无能为力,包括其他一些传统社会科学使用的软件和技术,都没有办法处理这个量级的数据,最后我们只能选择抽样。此外,在进行社会网络分析时也遇到了类似的困难,当时社会网络分析主要使用的软件是UCINET,但分析一个有1千多万个节点、几亿条边的网络,对于UCINET来说根本是不可能完成的任务。几经寻找,我们发现了一个叫pajek的软件,这是当时少数能够处理体量较大网络的社会网络软件。

     除了具体操作层面的困难外,当时还遇到一些宏观的、理论化问题——如何概念化(conceptualize),如何从大数据中发现问题、提出问题,如何使用传统的传播学理论和视角回答问题。其实一直到现在,我们也常会面临这些宏观的问题。

     科:您刚刚提到,当时分析“校内网”数据的时候使用了抽样的方法,对于社会网络研究来说,抽样是比较难的,因为放弃了某些节点或者某些边,网络的结构可能会因此发生变化,请问当时你们如何进行抽样的?

     张伦:这个问题的核心就是如何从一个大的网络里抽出一个具代表性的小网络,我们曾经专门把这个问题作为一项研究进行分析。当时一共提出了几种抽样方法:第一种是随机抽取节点;第二种是随机抽取边;第三种是随机游走(广度优先或者深度优先策略)。但发现无论用哪一种方法,都无法抽样出一个在各项指标上都比较有代表性的小网络。

     最后我们认为需要根据具体的研究目的选择抽样方案,比如研究重点是节点,那么可能需要牺牲边的代表。具体到我做的“校内网”研究,我当时关注的是用户之间的连边,所以从4亿条边中,随机抽取几万条边进行分析。

     ?

     编程、问题意识和跨学科

     理论积累是必备

     科:编程无疑是新闻传播学者从事计算传播研究需要翻过的一道高山,您当时是如何攻克这一难题的?可以给大家分享一下您学习编程的经验技巧。

     张伦:首先,我认为做计算传播研究写代码是不可避免的。在清华大学新闻与传播学院读硕士的时候,我写过SPSS的代码,这让我对代码有了初步、浅显的理解,包括如何去写、如何去执行程序。后来,逐步学习并使用R和Python。

     关于如何学习编程,我记得祝建华老师之前反复跟我们说过:“你们不用担心自己学不会,人和人之间的差别只是学多长时间而已,可能别人用1小时学会的东西,你用10小时学会。”很多文科生对写代码有一种天然的恐惧,我觉得大可不必,编程本就是一个熟练工种,多练习自然就会了。学习编程之前,首先要跨过自己心里“那道坎”,不要担心自己学不会。

     我当时编程主要是自学,上Google搜索、查阅软件的menu、跟YouTube上的视频一步一步摸索练习。学习编程是非常目的导向的,不会要求自己把软件中的所有语言、每一条命令都学会,而是以要解决的问题为最终方向,把问题拆解为一个个可实现、可操作的小目标,针对每一个小目标学习编程。我认为这是人文社科领域同学学习编程需要坚持的一个大原则。

     还有一个学习编程的方式是实验室互助。跟随祝老师读博时,我是互联网挖掘实验室的成员,有时候碰到问题可以随时问实验的同伴们,大家一起想办法解决。现在,我也将实验室的模式带到了北京师范大学,基本采用“以大带小”的模式,高年级、对代码比较熟悉的同学,为低年级的同学上一些编程课程,也会带着他们完成一些任务,在这个过程中,同学们慢慢地都能学会编程。没有必要过多担心或者害怕,学起来、练起来就好了。

     科:除了编程技能以外,计算传播领域的学生们还需要掌握哪些技能素养?

     张伦:我认为最重要的能力是如何提问。在自己的研究领域中一定要具备比较好的问题意识,洞察有价值的研究问题。

     此外,跨学科理论积累也是非常重要的。计算传播学研究并非一个专门的研究领域,与其他学科之间没有鲜明的区分界限。所以我希望同学们能够广泛掌握信息科学、心理学、新闻传播学、社会学等领域的相关理论,不要仅局限在新闻传播学。

     科:如今计算传播领域吸引了许多跨学科学者的关注,比如信息科学、心理学、统计学等,与其他专业背景的学生相比,新闻传播专业学生的优势是什么?在具体研究中如何发挥这样的优势?

     张伦:就我们目前做的研究来看,这个领域的学科划分是比较模糊的。我们经常面临的情况是,写好的论文投给传播学领域的期刊,对方因为“不感兴趣” 拒绝我们。有时反而是信息科学领域期刊对我们的研究更感兴趣。来自不同领域的学者,共同回答一个问题,这是学科发展的一个趋势。在这个背景下,计算传播学作为计算社会科学的一员,需要发现自己与其他学科的差异性。

     在我看来,这种差异性主要体现在“传播学更加关注过程”。比如我们学科中经典的5W模式,它描述的是信息传播的过程,而别的学科对于过程的关注是比较少的。我觉得这样一种差异化的视角,在研究、阐释某些问题时,可以成为新闻传播学者的优势。

     科:研究选题也是同学们普遍面临的难题,您可否结合自己的经历分享一下如何找到有价值、有创新性的研究选题?

     张伦:“如何找到一个好的研究问题”这是每个人都会面临的一道难关。我给大家分享一个我们寻找研究问题的秘诀——基于数据发现研究问题。具体来说,我们获得一组数据以后,会先用代码“跑一跑”,观察其中是否有比较有意思的现象,在这个基础上再做进一步研究。或者从数据中抽取小部分样本,一条一条去观察,在观察的过程中,去挖掘有价值的研究问题。

     比如我们之前获得了一批大众点评网站用户评论数据,仔细读每一家店铺的评论时,我们发现规律性地出现一些明显是水军的评论,随之而来就会产生一个问题:这些水军的评论是否会影响后期用户对这个店铺的评价?这就形成了我们具体的研究问题,再通过计算方法去回答问题。

     计算传播学研究中发现问题的过程,和传统社会科学研究存在很大差别,过去我们做问卷调查、做心理学实验,都属于Top-down模式,即我们确定了研究问题和研究设计,然后通过收集数据去回答问题。但计算传播研究,往往是结合Top-down和Bottom-up:首先有一个大的研究方向,然后基于收集到的数据,在大的研究方向下,产生更具体的研究问题。

     科:目前,许多同学都能够实现主题分析、情感分析、语义网络分析等针对文本数据的描述性研究,想进一步深入分析的话,有哪些方式呢?

     张伦:首先,我并不认为描述性研究是不值得做或者是浅层的研究,如果描述的内容是有意义的,这个研究同样是具有价值的,比如社会网络中著名的Power Law定律和小世界网络理论,都属于描述性研究。什么样的描述才是有意义的?我觉得有两条标准,第一,描述的现象是规律性的;第二,研究的数据是有价值的。

     接下来谈谈如何在描述的基础上进行深入研究,我觉得包括两个层面:第一个层面是在描述的现象中找到具有insights的内容,这些内容可能和既有理论一致、也可能不一致,在这个基础上进一步去深入解释;第二个层面,是找到事情发生的机制,并提出一套解释的方案。总结来说,就是要基于数据发现有意思的现象,然后再去解释、模拟或者阐释现象背后的机制。

     科:如今,社交媒体上的数据获取难度越来越大,爬取数据常常面临严苛的反爬规定,对于如何获取网络平台的数据,您有什么建议?

     张伦:我觉得最好的方法就是和导师合作,导师能够通过合作关系从后台直接获取数据,我认为这是最理想的一种状态。

     科:进行数据抓取和数据分析的过程中,难免会遇到道德争议和隐私问题,采集数据时,如何有效规避道德风险和隐私问题?

     张伦:如果和相关公司合作研究,我们会签订非常严格的合作协议,明确规定对方可以提供给我们的数据、我们的使用权限以及数据分享的范围等。

     我们做研究时,一定要保证研究使用的数据来源是合法的,是通过正当途径获得的,在论文中需要清晰写明数据获取的渠道。

     ?

     做研究就像一个人跑马拉松

     一定要有“死磕”精神

     科:在完成一项计算传播研究时,我们常常需要花费大量时间在打代码、处理数据等工作上,在这个过程中容易对自己所做的事情产生怀疑,甚至产生放弃的想法,您是否有过类似的经历?又是如何坚持下去的?

     张伦:这其实是我们评价学生的一个重要维度,通俗来说就是,做研究的过程中一定要有“死磕”的精神。这种心理素质对于日后读博或毕业从事研究工作都是一个非常重要的素质。

     在我看来,读博、写博士论文的过程,就像是一个人跑马拉松,你身边是没有一位同行能够去真正解答你论文想回答的问题。这与本科或硕士是很不一样的,过去我们回答的问题都是有老师指导,甚至是有固定答案的,我们要做的是去对标标准答案,并非要求你去创立新的东西。但在博士阶段,我们要研究的问题肯定是前人没有回答过的,那么研究这个问题的过程就一定是孤独的,同时也充满了不确定性。

     面对学术的不确定性,首先我们要学会接受,其次是要沉浸在不确定性之中,不断地去寻觅研究问题的答案。还有一个更高的境界是享受这种不确定性,正是因为学术本身是不确定的,所以寻找答案的过程才是有意义的。当你真正开始享受不确定性的时候,就会发现不管研究结果如何,能够了解一个现象的本质、了解一个现象是如何发生的,这本身作为一个发现知识的过程是令人兴奋的。

     最后回到编程,需要投入很多时间才能学习到的技能,一定是有门槛的,但从另一个角度看,这个门槛本身就是一种筛选机制,磨刀不误砍柴工,投入了时间和精力,就一定会有回报。

     科:您在这个领域有十几年了,您对于计算传播研究的认识,发生了哪些变化?

     张伦:最开始读博的时候,对这个领域的认识是比较粗浅的,觉得这个领域比较容易发论文。后来随着研究的深入,慢慢发现计算传播学能够回答一些传统的传播学研究无法回答的问题,基于大数据、使用计算的方法,确实可以帮助我们发现新的规律和模式,这是我认为这个领域值得研究并一直坚持走下去的根本原因。

     ?

     寄语

     科:对于计划或者已经从事计算传播研究的学生,您有什么建议或者想说的话?

     张伦:一定要务实。计算传播学领域的研究通过分析经验性的数据,发现规律,然后以小见大去回答一个问题。这就要求研究者一定要务实地从一点一滴做起,从最基础的代码写起,逐渐发现一些令人兴奋的现象,再进一步去对现象作出解释。

     文献注释?

     [1] Lazer, D., Pentland, A., Adamic, L., Aral, S., Barabasi, A. L., Brewer, D., ... & Van Alstyne, M. (2009). Social science. Computational social science. Science (New York, NY), 323(5915), 721-723.

     [2] 张伦. (2020). 计算传播学范式对传播效果研究的机遇与挑战. 新闻与写作(05), 19-25.

     [3] 张伦、王成军、许小可. (2018). 计算传播学导论: 北京:北京师范大学出版社.

     作者 | 清华大学新闻与传播学院硕士生 于北辰

     审阅 | 金兼斌 章倩萍

     编辑 | 张萌萌 朱姿伊 李晨雨

    源网页  http://weixin.100md.com
返回 科学传播人 返回首页 返回百拇医药