NSFC查重系统再谈

NSFC查重系统再谈
2019/6/7 23:59:43 火行

     万人订阅，千人群聊，真科研人

     公益交流资讯平台

     星标 ★ 或置顶火行公众号是不错过的最佳方式

     端午佳节，首先恭祝各位火行的关注者们端午安康!

     大家都知道火行的个性，我们直接进行分享：昨天的相似性查重文中，火行着重提到了增加了引文的相似性查重，在此继续讨论一下。

     关于引文，它在基金查重中的定义是指：

     “基金项目、评审机制的申报书和结题报告中，为体现申请者研究基础和学术成果而以一定格式展现的文献信息集合。”

     关于这查重部分有朋友希望我再讲讲，我思考了一下，讲点技术上的信息，供大家参考，更大意义上，因为无法表述太多，还需要大家自行去理解：

     首先在因为查重的操作技术上是：进行项目的聚类》》聚类》》特征匹配》》输出结果

     那么什么是项目的聚类？

     其实这部分的操作是对项目的类别、标题、关键词和摘要进行分析提取，形成聚类信息指纹。

     然后这套查重系统会通过学术关键词进行聚类。学术关键词元素很难准确快速查找匹配到。结合词频方法和字符串的方法，利用词库对抽取出来的项目文本信息进行分词，采用词串作为特征提取的基本粒度，设计学术关键词识别算法。根据已提取的文本特征，建立项目与学术关键词之间的关系矩阵,从而智能地找到项目中的学术关键词。

     那么查重检测的对象有哪几个考量维度呢？

     分为如下：总体相似度、检测字数、相似字数、文档字数和相似文献列表。

     在基金申请中，存在成果引文造假问题，抄袭者经常使用二作论文变篡改为一作，将他人成过据为己有，篡改出版社，使得非高水平论文变成高水平论文，出版年份造假，多年前发表的论文篡改其出版年份以丰富近5年成果的做法，然后这部分查重就可以通过公开的数据库信息实现申请人简历中成果引文要素实体识别、比对。

     欢迎批评指正!同时受制于被抄袭及其他原因，如有其他的有相关的疑惑，欢迎交流讨论，非诚勿扰!

     郑重声明：

     申请转载\授权火行文章，请在公众号后台留言。

     未经授权，不得转载，违者将追究法律责任!

     本公众号由北京市盈科律师事务所胡瀚文律师提供法律支持。

     欢迎转发朋友圈，留下“在看”支持火行!

     - END -

点击图片即可阅读

     交流，我们是认真的：

     NSFC交流群，后台回复“基金加群”获取加群通道，目前群1、2满员，群3开启热聊中。

你在看不

http://weixin.100md.com
返回火行返回首页返回百拇医药