运用信息技术反剽窃是国内规范学术行为的有效措施之一。④国外从20世纪70年代初,就开始有研究防止程序抄袭的软件,但直至1991年第一个自然语言文本抄袭识别软件WordCheck才诞生,目前广泛应用并具有代表性的软件有很多。如论文作业抄袭检查平台Turnitin,系统采用基于数字指纹的抄袭检测方法,检测资源包括网络资源ProQuest论文库、论文作业库等。
提供的英文反剽窃服务目前已经服务于包括美国加州大学伯克利分校、杜克大学、德国汉堡大学等在内的2500多所高校和科研机构,遍及九十多个国家,检索网页数量超66亿,用户达650万。据称,该网站目前已阻止了世界范围内将近600万的学生和教育者的剽窃行为,在使用的高峰期,每天可以收到2万篇论文。由CrossRef与iParadigms共同开发的抄袭检测平台CrossCheck,于2008年6月19日正式启动。CrossCheck的功能由两部分组成:一个基于全球学术出版物所组成的庞大数据库和一个基于网页的检验工具。这个基于网页的工具可用于编辑过程中去鉴别相似文档,生成对比报告,并通过分析去判断是否存有学术剽窃行为。截止2010年3月,正式会员包括 Elsevier,Springer,牛津出版社,美国科学进步协会(AAAS),美国物理学会(APS),植物生物学会、《浙江大学学报》(英文版)等75家单位。
国内已研发出两款较成熟的专门软件,且两款软件的核心都是基于数字指纹的抄袭检测方法进行文档相似性检测。一款是武汉大学沈阳副教授研制的“ROST反剽窃系统”软件,目前已在全国20多所高校院系推广和100多家期刊社使用。另一款是中国学术期刊电子杂志社与中国知网共同研制的“学术不端文献检测系统”,目前全国已有3000多家期刊和360所高校的研究生院免费使用这个软件。ROST系统和CNKI系统当前的一个主要差异在于其使用的参照文档数据库不同。
“ROST反剽窃系统”软件通过将切割文档后混合引擎将其与188亿个网页和490万篇文献进行模糊匹配,标示出每个文本块与文献库中的某些文献的最大相似度。
中国知网从2006年开始立项研发基于全文的“学术不端文献检测系统”,以《中国学术文献网络出版总库》为全文比对数据库,采用基于数字指纹的多阶快速检测方法,支持从词到句子、篇章级别的数字指纹,可对图、表等特殊检测对象进行基于标题、上下文、图表内容结合的相似性检测处理,还可根据特定的概念、观点、结论等内容进行智能信息分类处理,实现语义级别内容的检测。中国知网拥有文献量居国际国内同类产品之首,这为其进行检测提供了丰富的对比文献资源。科技期刊检测系统已经检测的10多万篇科技文献中,文字复制比超过30%的超过1万篇;学位论文检测系统检测5000篇学位论文,重合字数超过1万篇的论文约1000篇。
目前Internet上还有一些提供文本抄袭检测服务的网站和工具。例如,Plagiarism、mydropbox、WordCheck等。针对中文的paperpass提供法学论文和教育社科类论文的免费检测服务;中国搜网站的文章照妖镜工具基于谷歌和百度提供免费的检测服务;拷克提供针对网页内容抄袭的免费检测服务。