产经网首页
 
今天是:
首页 >> 新闻系统 >> 航空航天 >> 航天动态 >> 正文
美一数据库发现约20万篇论文存重复问题
发布日期:[08-02-21 21:04:55] 来源:科学时报

  本报讯 美国一项最新统计表明,美国国立医学图书馆Medline数据库收录的1700万篇论文中,大约有20万篇存在重复问题,它们要么是同一作者一稿多投,要么是涉嫌剽窃他人的成果。该统计研究结果刊登在1月24日的《自然》杂志上。

  美国得克萨斯大学西南医学中心的Mounir Errami和Harold Garner从Medline数据库中随机抽取了1995年以后的6.2万篇论文,利用文本匹配软件,他们对重复或者高度相似的论文摘要进行了检测,结果共找到421篇可能存在问题的论文。

  随后,Errami和Garner对这些“注水”论文进行了手动检查,他们估计,6.2万篇论文中大约有0.04%涉嫌剽窃,而另有1.35%是同一作者一稿多发。

  由于缺乏足够的计算力对Medline中所有1700万篇论文进行对比研究,在了解最初找到的421篇“注水”论文的普遍规律后,Errami和Garner采取了一种捷径——利用Medline数据库的“最相关论文”功能,将一篇论文的摘要与相关论文的摘要进行对比。

  这样,两位研究人员又对数据库中的700多万篇论文进行了研究,确定出7万篇嫌疑论文。在排除掉一些“假阳性”情况后,他们最终认为,有5万篇确实是重复或剽窃的论文。将这一结果外推到1700万篇论文,再考虑到一些修正因素,他们估计,Medline数据库中大约有20万篇“注水”论文。

  Errami和Garner现在已经将有嫌疑的7万篇论文上传到一个名为Déjàvu的开放数据库中,从而起到威慑的作用。他们制作的名为eTBLAST的文本匹配软件也可以自由获取。

  不过,令两人不解的是,他们的统计结果获得比例比此前的类似研究都低,其中的原因他们现在也无法说清。研究人员期望通过进一步的研究,找到一些论文问题的基本规律。初步的估计已经表明,一个国家的论文重复问题率(一稿多发或剽窃)与它总的论文量之间存在比例关系,而出自中国和日本的论文的这一比例大约为预期值的两倍。

往日头条
 
台模拟2020年解放军航母攻台
陈水扁任内最后一次玉山兵棋推演,模拟的状况是2020年解放军以航空母舰攻击台湾的状况
安妮斯顿独晒日光浴 
刚拍完最新片子《玛丽和我》的她身着白色比基尼躺在泳池边的大号躺椅上,看上去百无聊赖
少年迷赌博机输10万自杀
发完最后一帖,少年喝下农药死去.痛失爱子,父亲满街要“打”赌博机.
李开复:谷歌已开始做Web3.0概念
进攻达人上演疯狂追逐战 
奥运三阶段票务销售发布会举行
北京奥运新闻中心新闻发布厅召开新闻发布会,介绍北京奥运会第三阶段票务销售情况。
上海房地局原副局长私藏弹药受贿3671万受审
香港居民发帖抨击内地游客陋习(组图)
《想爱都难》发布会
由张国立、陈小艺 领衔主演的30集电视连续剧《想爱都难》将于4月26日登陆BTV-4黄金档。
小学生遭老师铁管暴打
因为在数学课上偷做英语作业,15岁的6年级学生小南遭受了老师用铁管的一顿暴打。
友情链接

网络实名:中国产经新闻网 网络设计/系统支持:亿腾环球
CopyRight© 2006-2008 CIEN . All Rights Reserved
声明:本站内容未经许可,不得转载!版权所有:中国产经新闻报社
E-mail:webadmin@cien.com.cn