论文查重检测系统作为论文初筛工具已经成为欧美高校的常用软件, 国外高校对于反剽窃的研究高度重视, 在反剽窃领域的研究也比较成熟, 六年来国际反剽窃大会 已经举行了三届, 相对来说前面介绍的国内相关研究还比较滞后。
1 CNKI科技期刊学术不端文献检测系统(AMLC)
CNKI科研诚信管理系统研究中心是同方知网出版集团旗下从事科研诚信管理产品研发的专门机构, 中心主要从事学术不端文献检测系统、科研诚信档案管理系统等软件研发。同时也承担相关机构委托的科研诚信监测、管理等事务。还为各单位的学术评价提供科研诚信方面的参考数据, 辅助进行学术评价。它旗下的中国学术期刊(光盘版)电子杂志社(CNKI)的科技期刊学术不端文献检测系统(AMLC) 从2006年开始正式立项研发到目前已经达到大规模实用化的成熟程度。2008年底, AMLC管理办公室开始为CNKI提供每期数据的期刊编辑部免费提供刚开发完成的《科技期刊学术不端文献检测系统(AMLC)》。
如期刊编辑部希望使用该系统, 可以邮寄、传真方式向中国学术期刊(光盘版)电子杂志社AMLC管理办公室提交《AMLC使用申请》, 签订授权使用协议, 就可以通过CNKI 的客服人员直接开通本编辑部的系统使用账号, 这个账号只能用于检测本刊的来稿和已发表文献。
AMLC系统建设是一个系统工程, 涉及检测方法设计、比对数据库建设、规范数据库建设、大规模数据测试、系统性能测试等多个环节。系统目前的检测范围涵盖中国学术期刊网络出版总库、中国博士论文网络出版总库、中国优秀硕士论文网络出版总库、中国报纸全文数据库、中国专利全文数据库(知网版)、中国科技成果数据库(知网版)、中国年鉴网络出版总库、中国工具书数据库、中国标准数据库(知网版)。正陆续引进英文数据库、网络数据库等资源。AMLC可以进行快速文献比对。以CNKI各库为比对基础库, 在2 ~ 5秒内完成一篇5000汉字的文献比对, 出示比对结果。并支持批处理。用户可上传包含多篇文献的压缩文件进行检测。其比对结果经过标红, 且有定位功能。能够快速发现文字重复的部分, 方便快捷。另外在结果中将详细显示比对源文献的篇名、作者、发表刊物、发表时间等信息, 便于用户参考。
经笔者所在编辑部试用, AMLC可以检测的文献格式包括:caj、doc、pdf、txt文本以及包括上述格式文献的压缩文件。用户也可对已提交文献进行重新检测、修改、删除操作。点击提交文献的篇名即可细览该文献的监测结果。
另外, 用户还可以删除系统给出的某些抄袭来源文献, 得到新检测结果。如果用户点击抄袭来源篇名, 就可以查看文件相似内容对比情况了。
2 万方论文相似性检测系统
万方论文相似性检测系统是基于万方数据公司所收录的期刊论文、学位论文、万方数值数字化期刊全文数值库、万方数值学位论文、常识服务平台的全文数值库等海量数据, 运用先进的检测算法研制而成, 它具有检测速度快、检测准确等特点。国内第二大数据集成商万方数据, 在CNKI推出AMLC 一年零一个季度之后终于拿出了一个与CNKI相提并论的产品, 在2010的3月, 万方公司的网站上出现了万方论文相似性检测系统, 通过论文相似性检验测定体系的官网 , 万方数据将检测费用定义在10元每万字, 可以直接通过自己在万方数据的账户登录, 并进行论文的检测, 通过检测可以看到万方数据提供了简明和详细两种检测报告。
3 维普——— 通达论文引用检测系统
国内第三大数据集成商维普资讯, 在CNKI推出AMLC 一年零3个季度和万方数据推出论文相似性检系统半年之后终于也拿出了一个与CNKI和万方数据相提并论的产品——— 论文引用检测系统.从2010 年9 月起个人用户在维普——— 通达论文引用检测系统的官网注册就可免费检测自己的文章。
维普——— 通达论文引用检测系统经过部分高校及社会个人用户的测试, 已经面向企事业用户、个人用户全面公开免费试用, 用户仅需填写真实的邮箱快速注册即可免费享受论文引用检测服务。
该论文检测系统是基于多年数据挖掘技术领域的成功经验, 应用于文本比对检测领域上的成熟产品。该系统将自主研发的大规模文本处理技术, 应用于论文内容创新性评价系统, 能够高效的与海量文本资源进行比对, 检测出重复及引用片段等, 并且能够计算出论文的复写率、引用率及自写率(对论文内容创新性评价)等指标 。
该系统集合了专业的数据库资源, 针对不同类型用户的需求, 可提供专业的个人自检测服务、高校学生论文检测服务、期刊稿件检测服务以及其他类型的检测服务等。
该系统可以满足教育界、出版社、媒体、科研机构等行业客户及各类论文撰写者等不同用户的需求。通过该系统, 我们可以查出该文作者的自写率是多少,
4 ROST反剽窃系统(学术论文不端行为检测系统)
ROST反剽窃系统(学术论文不端行为检测系统)是由武汉大学信息管理学院出版科学系沈阳教授带领课题小组开发成功的文档相似性检测工具。可有效检测论文的抄袭相似情况, 经过6年的研发(早期版本叫做网盗克星), 推出了6.0版本。
ROST反剽窃系统可以自动将文档切割为多个50 ~ 200 字(可自定义)的小文本, 通过混合引擎与188 亿个网页和490万篇文献进行柔性匹配, 标示出每个文本块与文献库中的文献的最大相似度。由此软件统计出相似度≥ 95%(基本原封不动拷贝)与相似度≥ 80% (拷贝后略作修改)的字数所占总字数比例。软件把这个比例作为相似程度参考衡量指标。“ ROST反剽窃系统”与其他系统最大的不同之处在于覆盖了188亿个网页以及490万篇论文。
自ROST反剽窃系统2008年4月推出以来, 先后在武汉大学信息管理学院研究生办公室、CSSCI核心期刊《出版科学》、《图书情报知识》试用, 在2008年11月举办的第二届数字时代出版产业发展与人才培养国际学术研讨会对会议论文进行全面检测, 并在2008年12月的第三届中国期刊创新年会向全国期刊界做了全面推介, 取得了良好的效果。现在,
ROST反剽窃系统已经进一步在《中国社会工作》、北京大学、厦门大学、上海理工大学、成都理工大学、浙江传媒学院等全国近百所高校和期刊社中试用。
5 国内论文查重检测平台的比较
随着计算机技术在国内的广泛兴起, 对于论文查重检测系统的软件开发浪潮也一浪高过一浪。网络和软件的开发成功成为了国内反学术不端行为重要的里程碑, 也成为反学术论文不端行为的重要力量。通过对国内几个著名的学术论文不端行为检测系统的介绍, 我们发现, 国内的学术论文不端行为检测系统都是由具有背景的各高校和研究所开发。它们在功能和形式上大同小异, 也有各自不同的软件算法, 支持的文件类型也非常相近, 只是由于平台名称科技期刊学术不端文献检测系统论文相似性检测系统维普—通达论文引用检测系统ROST反剽窃系统
后台核心数据库的不同, 造成了最终检测结果有所差别。因此一个学术论文不端行为检测系统的强大与否根本在于其后台比对数据库是否收录了以前所有公开发表的文献。由于现在CNKI和万方争相采取和各个编辑部签订独家合作的协议 , 如果某一编辑部签订这一协议之后, 就势必造成另一数据库该刊物的原始数据文献缺失, 也就造成了现今国内没有一家数据库是完整收录所有刊物文献数据的。由于数据库文献不全, 所以国内任何一家开发单位的产品都不能说百分百保证被检测的数据一定可以与以往所有公开发表的中文文献数据进行比对。所以各编辑部如果追求最全数据比对效果的话, 最好同时使用各个开发单位的产品。另外我们也同时呼吁国家政府管理部门出面叫停所谓的签独家协议的做法, 这样做不仅仅造成的数据库内容不完整, 更是造成了社会资源的极大浪费。