国自然NSFC相似性查重系统进阶讨论
2019/6/6 23:55:57 火行

    

     万人订阅,千人群聊,真科研人

     公益交流资讯平台

     星标或置顶火行公众号是不错过的最佳方式

    

     昨天的分享,已经预告,那么今天,针对国自然相似性查重的重大改进,火行做一些解读,仅供参考。

     首先国自然的相似性查重系统叫什么;大家是否还记得?

     这个“神器”的官方名字叫做:“项目相似度检测系统”,用一句话概况这个系统:讲点专业性的术语:基于数据挖掘、自然语言处理、机器学习、概率统计等方法,建立申请书大数据库,以“特征提取、文本聚类、相似性计算”为核心,检测出基金项目申请书的抄袭、多次申报和多头申报等情况的辅助决策系统。

     一般情况下50%以上重复定义为疑似重复,会被相关监督委员会调查后判定(防抄袭火行:firegotech)。80%以上,直接认定为重复,学术不端。

     2010年,国家自然科学基金委开发了项目相似度检查系统并启用以来,目前已到了第十个年头,那么与大家分享,这个系统之前查重的主体方式是全文查重,但是,请注意,它已经加入了新的功能:除了全文的文本比对外,重磅的加入:图像比对及引文比对功能!

     好,功能知道了,再讲讲细节点,当然火行无法讲很多,所以挑几个重点分享。

     1:文本上的高效改进,应对拆分句子重组的行为:

     句子组合式检测:为了应对抄袭者抄袭行为的千变万化,对于抄袭者从原文中摘取句子进行变形、拆分、融合的情况,一方面通过升级索引存储机制,不仅存储文章原句,还需将句子拆分多种组合,无死角搜索重复句子,能够有效地检测拆分融合式的抄袭行为。

     所以幻想“打乱句子重组还魂”的朋友可能要注意了,技术的先进就是让这种心思“死翘翘”。

     2.多语言的检索:

     长久以来,由于科研中相关的报道,英文,德文文献的可获得性,有部分人利用这部分的语言差进行重复,这部分也要注意了,针对文献中的非中文语言表述,增加多语言检索,用来实现对文件中的中文、英文、德语、日语等内容实现关键字检索。

     3.综合利用数据,进行全面接口覆盖查重:

     利用申请人简历中成果引文等信息,实现要素实体化,整合接口进行高质量的识别、比对,对于引文中作者姓名篡改、作者顺序篡改、期刊名称篡改、出版年度篡改等信息甄别。

     4.已经利用信息技术获取到ESI 论文库,建立NSFC金申请人引文库。

     这部分与第三点联系起来看看,你就懂了,所以成果一定如实填写,篡改将无处逃生。

     5.避免多头申报,已经开始筹备酝酿与其他部委同步比对。

     这部分还未开始,但绝不是说说,国家对于多头申报已经开始,基金委也将会通过云计算等技术,提供跨部门、跨站点数据联盟式相似性检测。简单来说提供外部结口,能与其他部委的项目信息进行比对,所以出名要趁早,老话可以在此放一句。

     6.还想了解更多?

     加入火行科研大家庭,你我一路同行!

     欢迎批评指正!同时受制于被抄袭及其他原因,如有其他的有相关的疑惑,欢迎交流讨论,非诚勿扰!

     郑重声明:

     申请转载\授权火行文章,请在公众号后台留言。

     未经授权,不得转载,违者将追究法律责任!

     本公众号由北京市盈科律师事务所 胡瀚文律师 提供法律支持。

     欢迎转发朋友圈,留下“在看”支持火行!

     读书学习,推荐分享共进步:

     - END -

    

     点击图片即可阅读

    

    

     交流我们是认真的

     NSFC交流群,后台回复“基金加群”获取加群通道,目前群1、2满员,群3开启热聊中。

    

    

    

    

    

     你在看不

    

    

    http://weixin.100md.com
返回 火行 返回首页 返回百拇医药