国自然NSFC相似性查重系统进阶讨论

国自然NSFC相似性查重系统进阶讨论
2019/6/6 23:55:57 火行

     万人订阅，千人群聊，真科研人

     公益交流资讯平台

     星标 ★ 或置顶火行公众号是不错过的最佳方式

     昨天的分享，已经预告，那么今天，针对国自然相似性查重的重大改进，火行做一些解读，仅供参考。

     首先国自然的相似性查重系统叫什么；大家是否还记得？

     这个“神器”的官方名字叫做：“项目相似度检测系统”，用一句话概况这个系统：讲点专业性的术语：基于数据挖掘、自然语言处理、机器学习、概率统计等方法，建立申请书大数据库，以“特征提取、文本聚类、相似性计算”为核心，检测出基金项目申请书的抄袭、多次申报和多头申报等情况的辅助决策系统。

     一般情况下50%以上重复定义为疑似重复，会被相关监督委员会调查后判定(防抄袭火行：firegotech)。80%以上，直接认定为重复，学术不端。

     2010年，国家自然科学基金委开发了项目相似度检查系统并启用以来，目前已到了第十个年头，那么与大家分享，这个系统之前查重的主体方式是全文查重，但是，请注意，它已经加入了新的功能：除了全文的文本比对外，重磅的加入：图像比对及引文比对功能!

     好，功能知道了，再讲讲细节点，当然火行无法讲很多，所以挑几个重点分享。

     1：文本上的高效改进，应对拆分句子重组的行为：

     句子组合式检测：为了应对抄袭者抄袭行为的千变万化，对于抄袭者从原文中摘取句子进行变形、拆分、融合的情况，一方面通过升级索引存储机制，不仅存储文章原句，还需将句子拆分多种组合，无死角搜索重复句子，能够有效地检测拆分融合式的抄袭行为。

     所以幻想“打乱句子重组还魂”的朋友可能要注意了，技术的先进就是让这种心思“死翘翘”。

     2.多语言的检索：

     长久以来，由于科研中相关的报道，英文，德文文献的可获得性，有部分人利用这部分的语言差进行重复，这部分也要注意了，针对文献中的非中文语言表述，增加多语言检索，用来实现对文件中的中文、英文、德语、日语等内容实现关键字检索。

     3.综合利用数据，进行全面接口覆盖查重：

     利用申请人简历中成果引文等信息，实现要素实体化，整合接口进行高质量的识别、比对，对于引文中作者姓名篡改、作者顺序篡改、期刊名称篡改、出版年度篡改等信息甄别。

     4.已经利用信息技术获取到ESI 论文库，建立NSFC金申请人引文库。

     这部分与第三点联系起来看看，你就懂了，所以成果一定如实填写，篡改将无处逃生。

     5.避免多头申报，已经开始筹备酝酿与其他部委同步比对。

     这部分还未开始，但绝不是说说，国家对于多头申报已经开始，基金委也将会通过云计算等技术，提供跨部门、跨站点数据联盟式相似性检测。简单来说提供外部结口，能与其他部委的项目信息进行比对，所以出名要趁早，老话可以在此放一句。

     6.还想了解更多？

     加入火行科研大家庭，你我一路同行!

     欢迎批评指正!同时受制于被抄袭及其他原因，如有其他的有相关的疑惑，欢迎交流讨论，非诚勿扰!

     郑重声明：

     申请转载\授权火行文章，请在公众号后台留言。

     未经授权，不得转载，违者将追究法律责任!

     本公众号由北京市盈科律师事务所胡瀚文律师提供法律支持。

     欢迎转发朋友圈，留下“在看”支持火行!

     读书学习，推荐分享共进步：

     - END -

点击图片即可阅读

     交流，我们是认真的：

     NSFC交流群，后台回复“基金加群”获取加群通道，目前群1、2满员，群3开启热聊中。

你在看不

http://weixin.100md.com
返回火行返回首页返回百拇医药