佳作译介|基于语义网分析：“基因编辑”的网络呈现

佳作译介|基于语义网分析：“基因编辑”的网络呈现
2019/4/7 10:00:00张鲁阳科学传播人

导读

     2018年11月底，贺建奎“基因编辑婴儿”事件引起轩然大波的同时，还引发了公众、业界和学界对“基因编辑”技术的思考和关注。基因编辑技术在给人类带来福音的同时，也可能产生一些风险，造成伦理、社会和法律等方面的问题。为了减少技术风险，推动其朝着更好的方向发展，科学家必须更加广泛参与科学传播以弥合科学共识与公众认识之间的鸿沟。

     如今互联网已成为人们获取科学信息的重要来源，基因编辑在网络上的呈现会影响公众对基因编辑技术的看法和态度。基因组编辑在网络上呈现的框架是怎么样的？公众接触到的网络信息对基因编辑持什么样的态度？本期“科学传播人”为大家推介的文章《基于语义网分析：从“基因编辑”的网络呈现中，发现鼓励公众和科学家对话的机会》(Online Representations of “Genome Editing” Uncover Opportunities for Encouraging Engagement: A Semantic Network Analysis)对此做了一些实证研究，文章于2019年1月发表在Science Communication上。

作者介绍

     通讯作者

     Christopher Calabrese，公共卫生学硕士，加州大学戴维斯分校(University of California， Davis)传播系的博士生，目前研究领域主要有健康促进、艾滋病毒预防、社会与传播网络等。

Brittany N. Anderton，癌症生物学和细胞信号学博士，供职于致力于生命科学传播的视频网站iBiology。曾在加州大学戴维斯分校进行科学传播与教育的博士后研究。

     George A. Barnett，加州大学戴维斯分校传播系名誉教授，主要研究社会与传播网络及其在国际电信传播和创新扩散中的应用。

     研究背景与问题提出

     基因编辑技术的进步给医学和农业的发展带来更多的可能性，但科学家和公众对这项技术的理解在很大程度上是有较大分歧的。有研究表明，科学媒介化(the mediatization of science)现象可能是影响科学共识与公众话语之间存在分歧的一个主要因素。不准确的、误解的和过于简单化的信息可能会加剧公众对某些科学问题的负面看法。

     大众媒体已经被证明会影响公众对健康和科学问题的看法。而互联网时代，网络成为人们主要的信息来源，因此了解新兴技术在网络上的呈现十分重要。为想要了解基因编辑技术在网络上的呈现，需要做的是确定公众在查找科学信息时使用的网页。调查表明，约90%的美国网民在寻找科学信息时求助于搜索引擎。谷歌是全球访问量最大的用于搜索专业信息的网站。维基百科是一个开放的在线百科全书，是全球访问量第五位的网站，也是公众搜索网络健康信息的主要渠道。

     本研究使用语义网络分析(SMA)来研究维基百科和谷歌搜索里有关“基因编辑”信息的框架。语义网络分析是不同于主题内容分析的另一种内容分析方法，又称关系内容分析，采用词语共现的方式来探讨词语间的关系，能够直接反映文本的显义结构和间接反映文本创作者的认知框架，尤其可以用于凸显不同信息来源所描述的最显著的信息。

     本研究希望深入了解网络信息源如何向公众描述基因编辑，为此提出了以下4个研究问题：

     研究问题1：每个信息源呈现最多和最核心的概念是什么？

     研究问题2：每个信息源使用了多少个不同的框架？

     研究问题3：两个信息源呈现的基因编辑的框架有何不同？

     研究问题4：如果存在的话，每个信息源呈现基因编辑时的情感态度是怎样的？

     研究方法

     本研究使用语义网分析对维基百科上的“基因编辑”词条和通过谷歌搜索“基因编辑”所得到的前7个网页进行内容分析。通过在谷歌上搜索“基因编辑”(2018年2月20日)得到前10个搜索结果(不含维基百科“基因编辑”词条)，从中排除3个词数少于70的网页，得到7个网页，分别来自Yourgenome.org、NIH、Genome.gov、Nature、Nuffield Bioethics、MIT Technology Review和WIRED。为了避免搜索引擎优化带来的潜在偏差，搜索是在谷歌Chrome浏览器上以匿名(隐私浏览)模式进行的。

     维基百科是一个公开的可编辑的在线百科全书，抓取文本之后，词条还可能随时被修订，截至2018年4月10日，词条文字内容未做任何修改。

     基于对词语共现性(co-occurrence)的分析，研究者创建了两个语义网络：一个来自维基百科“基因编辑”词条网页文本，另一个来自谷歌搜索得到的7个网页的文本总和。

     在从网页上抓取原始数据后，该研究首先对数据进行预处理。去掉语法上的虚词(如，a，an，the)，合并同一词的不同形式(如，desire和desired)，之后分别计算维基百科和谷歌搜索结果两个文本中每个词出现的频率并进行排序，出现频率超过平均频率(记为1)的词都将被纳入分析。这一步使用网络分析软件ConText。

     第二步是从编辑过的文本中生成语义矩阵。在语义网络中词语之间是否有关联取决于词语共现性的度量。有研究认为一个人在记忆中只能容纳7±2个“模块”(chunk)，也就是说人只能同时加工5—9个意义单位。基于此，本研究将某个单词前后出现的5个单词认定为共现。这一步同样使用ConText。

     第三步是使用开源网络分析和可视化软件Gephi对两个语义网络进行分析。在可视化中，每个词语标签的大小代表其度中心性的高低(degree centrality)，也就是一个词语的直接关联的总和。这个词语可视化后的空间面积越大，它对于呈现“基因编辑”就越重要。在可视化中，每条线都描述了两个词之间的关系，线的粗细和颜色深浅描述两个词共现的频率，线越粗颜色越深说明两个词共现的频率越高。另外，线越短说明两个词之间的关系越近。

     Gephi也可以用来进行模块化分析(modularity analysis)，确定每个语义网络中的子聚类(sub cluster)，还可以计算网络密度(network density)、平均度(average degree)、平均加权度(average weighted degree)、特征向量中心性(eigenvector centrality)等其他中心性和网络的度量指标。网络密度指的是实际连接占网络中单词之间潜在连接总数的百分比。特征向量中心性是一个词整体中心性或相关影响力的指标，一个词的影响力越大，它在网络中就越处于中心。使用Gephi确定每个网络中聚类(cluster)的数量后，研究团队根据其中的词语共同确定了每个聚类的主题。为了验证分析软件得出的语义网络准确地代表了网页的内容，研究团队检查并确认了每个主题在原网页的存在。

     最后，通过情感分析(sentiment analysis)来确定维基百科和谷歌搜索中对基因编辑的呈现是积极的、消极的还是中性的。这是通过ConText的情感分析算法实现的。该软件使用的词典已经双重验证，包括机器学习和MPQA主观性词典(https://mpqa.cs.pitt.edu/lexicons/subj_lexicon/)，它用积极、消极和中性三种极性权重来标记与其词典条目相匹配的词语。

     研究结果

     表1列出了维基百科词条和谷歌搜索结果两个语义网络的4项网络度量指标。维基百科词条的平均度为13.6，谷歌搜索结果的平均度为16.95。两个网络都是松散的，这表明词语之间的连接比较少；维基百科词条的网络密度为0.23，谷歌搜索结果的网络密度为0.27。

     表 1 两个语义网络的网络度量

     表2给出了基于特征向量中心性和度中心性排名的前50个词。维基百科词条中最核心的词是DNA、nuclease、sequence、genome和target；谷歌搜索结果中最核心的词是genome、DNA、gene、cell和editing。在前50个词中，两个语义网络有20个词是相同的。维基百科词条中出现频率最高的词是gene、target、sequence、nuclease和cell，谷歌搜索结果中是genome、DNA、editing、gene和cell。

     表 2 两个语义网络中的50个核心词

两个语义网络如图1所示。这两个语义网络都是使用Gephi上的Force Atlas 2算法构建的。每个节点的大小表示该词在网络中的特征向量中心性的高低。线越粗表示两个词之间的关系越强。通过模块化分析，在维基百科的语义网络中确定了4个聚类，在谷歌的语义网络中确定了3个聚类。表3总结了这些聚类，其中包括每个聚类的主题、关联最多的词和在网络中的占比。主题是基于每个聚类中的词语推断出来的。

     图 1 两个语义网络图

     表 3 两个语义网络中的聚类分析

     维基百科词条最大聚类(A1，占结果总量的37.7%)的主题是基因编辑和分子生物学术语。这个主题最核心的词是DNA、sequence和specific，然而其中词语关联最大的是zinc和finger。锌指核酸酶(zinc finger nuclease)是基因编辑的一种方法。贺建奎“基因编辑”婴儿使用的是另一种方法，即CRISPR/Cas9。第二个聚类(A3，占34.4%)的主题与基因编辑的应用有关，这个主题最核心的词是genome、target和gene，词语关联最大的是genome和editing。第三个聚类(A2，占15.1%)的主题是基因编辑的常用方法，最核心的词是method、nuclease和ZFN(zinc finger nuclease)，词语关联最大的是engineer和nuclease。第四个聚类(A4，占11.0%)的主题是基因编辑的DNA修复机制基础，最核心的词是DSB(double-strand break)、break和repair，词语关联最大的是DSB和repair。

     谷歌搜索结果的语义网络则被分成三个主题：什么是基因编辑，对基因编辑做出贡献的科学家有哪些，以及基因编辑有什么意义。最大的聚类(B1，占40.5%)，包括基因编辑和分子生物学术语，最核心的词是DNA、make和sequence，词语关联最大的则是cut和DNA。第二个聚类(B3，占35.1%)，主题是对基因编辑的科学贡献，最核心的词是CRISPR、work和researcher。(CRISPR代表“clustered regularly interspaced short palindromic repeats”，是基因编辑常用的一种方法的组成部分。)其中词语关联最大的是Doudna(Jennifer Doudna，是基于CRISPR的基因编辑技术的开发者之一)和CRISPR。第三个聚类(B2，占24.4%)，涵盖了基因编辑的意义、含义和更广泛的应用，最核心的词是genome、cell和editing。

     两个语义网络中都包含基因编辑和分子生物学术语的聚类(即A1和B1)，而A3和B2则在基因编辑的应用方面有一些联系。研究人员通过与原始文本对照对两个语义网络产生的聚类的主题进行了检查，验证了ConText得出的总体框架和聚类分析。

     情感分析表明，两个语义网络中的大多数词(>90%)既不是积极的，也不是消极的。表2基于特征向量中心性(eigenvector centrality)给出了两个语义网络中前50个关键词的情感。在维基百科词条的50个核心词中，大多数(94%)既没有正面情感也没有负面情感，3个词(desire、repair和ability)是积极的，没有一个词是消极的。在谷歌搜索结果的50个核心词中，一个(repair)是积极的，一个(disease)是消极的，而其余的词(96%)都是中性的。

     讨论与结论

     网络信息框架可能会影响公众对社会科学问题的看法。该研究调查了两个重要的网络信息来源，维基百科词条和谷歌搜索中基因编辑的表征。研究呈现了当下最主要的网站对科学和技术信息的反映，结果表明尽管舆论中其他话题的讨论会有政治偏向，但基因编辑尚未进入任何广泛的社会、政治或伦理领域的讨论。

     维基百科语义网络的4个主题都与基因编辑的技术方面有关，很明显，公众在维基百科上看到的是技术性和科学性的信息。谷歌搜索结果的3个主题中，有两个与维基百科词条中发现的主题相似，另外一个有所不同，即谷歌语义网络中的第二大聚类——科学贡献。这个聚类主要与Jennifer Doudna博士对基因编辑工具CRISPR-Cas9的研究突破有关，文章还讨论了有关基因编辑知识产权展开的专利争夺战。尽管这一信息揭示了基因编辑技术所有权的法律斗争，但它没有提到这些技术在医学或农业的使用中所存在的任何法律问题。两个语义网络中前50个核心词里，有40%是一致的，而且两个网络中出现频率最高的5个词是一样的。此外，每个网络中特征向量中心性最高的词都与基因编辑机制有关。由此可见，这两个网络有很大的重叠，并且主要描述技术信息。

     语义网络中的大多数词既非积极的，也非消极的。而积极或消极情感的缺乏表明关于基因编辑的网络信息来源尚未发生两极分化。也就是说，目前科学家有充足的机会让公众了解这项技术。研究发现基因编辑的网络表征主要集中在技术的方法和机制上，而且在主要的网络信息来源上并未发现此议题出现媒体化的证据。也正是因为基因编辑在主要网络信息来源中媒体化的缺失，科学界有更多的机会参与其中，与利益相关方进行对话，以在公众中形成对此技术的现实性的期望。

     基因编辑是一个涉及社会、伦理和法律的问题，让更多的利益相关方参与到此技术的讨论中是十分重要的。科学家应该努力促进建立一个能够鼓励对话的环境，从而与公众形成理解和包容的关系。对公众所接触的信息的理解能够帮助科学家更好地知道如何处理和讨论有关新技术的社会、伦理和法律问题。讨论和辩论可以让研究者和不同利益相关方在价值和信念上达成合意，然后在推进技术或制定相关政策时形成共识。

     通过这种方式，在一个基本支持的环境下，才能更好地利用基因编辑的优势，消除障碍，最大程度发挥其推进农业和人类健康的潜能。目前，关于基因编辑的网络信息是中立的，这就意味着建立公民科学文化(culture of civic science)的可能，在这种文化氛围中，科学家与公众能进行有意义的对话，以弥合他们之间的鸿沟。

     该研究仍然存在一些局限。首先，虽然公众越来越多地在互联网上寻求科学信息，但他们依然可能通过其他信息来源了解基因编辑，比如社交媒体、广播电视和报纸杂志等，该研究没有将其他可能的信息获取途径考虑进来。其次，该研究呈现的只是基因编辑在一个时间节点的网络表征，长时间来看一些网站的内容可能会更改。第三，该研究使用的情感分析建立在计算机算法之上，虽已经实验证明有效，但机器生成的情感分析没有经过人工编码或其他计算工具的交叉检验；此外，情感分析也可能断章取义，并不完全准确。尽管有局限，但该研究以实证的方式探究主要网络信息来源是如何描绘基因编辑的尝试是值得肯定的。

     该研究借助语义网络分析的方法，呈现了公众在网上查找基因编辑相关信息时所接触到的概念和框架，结果表明科学技术术语和中立的情感态度主导了基因编辑的网络表征。同时，该研究还发现了潜在的机会，即鼓励科学界促进以基因编辑技术的利益和风险为主题的公共讨论。这些机会可能有助于弥合与基因编辑存在利益相关的公众和科学家之间的鸿沟。

     原文：

     Calabrese, C., Anderton, B. N., & Barnett, G. A. (2019). Online Representations of “Genome Editing” Uncover Opportunities for Encouraging Engagement: A Semantic Network Analysis. Science Communication, 41(2), 222–242.

     原文链接：

     https://journals.sagepub.com/doi/full/10.1177/1075547018824709

     作者 | 清华大学新闻与传播学院研究生张鲁阳

     审阅 | 金兼斌徐雅倩

     编辑 | 尚雪芬袁洁

点击上方“公众号”可以订阅哦!

http://weixin.100md.com
返回科学传播人返回首页返回百拇医药