ithenticate论文查重原理是什么

crosscheck（CrossCheck by iThenticate）这个查重软件，知道的人想必都清楚，专业的查重软件，各大杂志社都在使用，很多情况下编辑会根据软件的查重结果对论文进行判断。一般来说，论文的总体相似率超过30%，编辑就会要求修改或者可能直接拒稿。后果还是很严重的。那ithenticate到底是如何进行判定的呢？ithenticate论文查重原理是什么？

ithenticate论文查重原理是什么

根据对自己检测的相似性报告分析。初步推测下软件对文章的查重处理。一篇被ithenticate处理的文章，这个软件第一步应该做的是进行文本的格式化。说来也很合理。因为一篇文章中，除了单词以外，还有大量的符号（标点符号，数学符号及特殊符号等）。这些并不是crosscheck查重的对象，所以会把他们处理掉。这些符号会通通被替换为空格。这种文本处理方式也是很常见的，在python和matlab的数据处理中经常会使用。

处理后的文章就只剩下单词了。然后软件会对文章进行比对处理。根据软件设置的重复原则对文本进行标记。最终得出一份相似性报告。

这里的重点是软件判定重复的原则。了解了原则之后，我们就可以有针对性的进行修改。网上很多关于这些规则的说法，大部分是说连续六个单词即判定重复，或者根据语言风格相似即判定重复。这些说法不够准确，也没有依据。我们还是回到软件本身来回答这个问题。crosscheck它是一款软件，它不是人，不能判断文章的内容，只会把文章和系统内的进行比对，根据规则做出判断。那这样的规则到底有哪些？

其实，crosscheck查重的基本规则只有一条：不连续的六个单词中间连续不重复的单词小于四个（不包括四个）即判定这六个单词重复（注意：这里的规则是软件系统默认的规则，大部分期刊使用默认规则）。

所有的查重结果都是基于这条进行的。这句话比较绕口。具体怎么理解，我们来看下具体的实例。

先分析最极端也是最直白的重复。不连续的六个单词中间不重复的单词为0个，即六个连续重复的单词。显然这个肯定是会被判定重复了。下面我用1表示重复的单词，0表示不重复的单词。那么这种情况就是：111111。
再分析中间有不重复单词的情况。这点大家很多情况摸不着头脑，有时候几个单词距离的很远，也被判定重复了，很是苦恼。

1）中间只有一个不重复的。例如：1011111；1101111；1111011等。
实例：Computer science has been widely considered as ...(斜体表示和已有文献重复）
这里面单纯插入一个widely单词，是不足以骗过系统的。

2）中间有两个重复的。例如：1100110011；110010011001；1100110011等。
实例1：Computer science has been widely percieved asan...
这里替换两个不重复单词widely percieved，但是Computer, science, has, been, as, an已经是六个不连续的重复了。
实例2：Computer science and technology has been widely percieved as an...
在Computer science后面加上两个不重复的单词and technology是不是就可以了呢？答案是否定的，Computer, science, has, been, as, an这六个词中间只有两个是不重复的，不能判定为整句不重复。

3）中间有三个不重复的。这个一眼乍看不觉得重复，但其实是重复了。例如：100010001111；100010001000100010001等。
100010001000100010001这种情况是不是很刺激。对！按照规则，这个也算重复。因为六个不连续重复的单词直接是三个重复的。
实例1：Computer science, resulting from America, has been widely percieved as an...
这种形式是11000110011模式，依旧是重复的。
实例2：Computer science, resulting from America, has been widely percieved as one of most promising....
好，我们把改成one of most。虽然这三个没有重复，但紧接着后面的promising和已有文献重复了，很不幸，整个句子还是重复了。重复形式为11000110010001。
上面分析的是单纯的单词，不涉及符号和数字。大家的论文很多情况包含各种单位符合和数学符号的，系统该如何处理他们？
1）单纯的数字。比如123，25，1998等这些整数，他们都是连续的，中间没有空格和特殊符号，系统不会进行处理，还会保持原来形式。算一个单词。
实例1：Computer science, developed from 1930, has been widely percieved as an..
这句话是11000110011的重复，这里的1930算一个单词。
对于小数要特别注意，因为小数点系统处理后会被空格代替，所以小数是会被看作两个单词的。如1.23，在系统里面会看作1和23两个单词。
实例2：Computer science, developed from 1,930, has been widely percieved as an.. 还是这句话，这里的1,930多加个了分隔符，就变成两个单词。所以句子中间就有四个连续不重复的单词，整个句子就是不重复的（即developed, from, 1和930四个）。

2）连接符。不少单词或者专业词汇会用连接符号连起来，系统会自动把连接符号替换成空格。所以被看作两个单词。如：ever-increasing算作ever和increasing；CD-ROM算作CD和ROM。

3）科学单位。文章中难免会有g cm-3这个的有上标或者下标的单位。软件系统其实不会识别上下标。直接按照正常大小处理，再替换特殊符号为空格，所以g cm-3算三个单词。

4）包括符号的专有名词缩写。比如化学中Ag包覆Au再包覆一层C。作者可能会缩写成Ag@Au/C。这个经过系统处理后，其实是三个单词的Ag，Au和C。所以有时候会发现系统把这类词分开匹配查重。
实例：The synthesized Ag@Au/Cnanoparticles exhibited good activities.
可能会遇到这种重复，这里Ag@Au/C 算作三个单词，所以是101011101重复类型。

5）跨段落重复。有时候系统的重复可能不在于特定的一段，还会跨段落，因为在软件眼里，整个文章就是一连串单词被空格分割，不存在段落之分。
实例：
4. Experimental and methods
4.1. Synthesis of ...
这个是典型的文章中方法部分。这里猜猜系统判定重复的元素是几个？嗯，8个。去掉点号，就是4, Experimental, and, methods, 4, 1, Synthesis, of 这8个单词。

6）总结起来，系统处理的特殊符号包括：标点符号；数学符号；特殊符号等一切非数字的符号。

以上就是crosscheck查重的基本规则。基本囊括了大家遇到的情况。了解了这些规则，修改起来就方便了。再举几个例子。

Computer science, resulting from America, has been widely percieved as one of most promising....
这句话是11000110010001重复，最简单的修改就是把不重复的单词提高到4个不连续。比如修改成110000110010001就不会被系统判断重复了。
修改为：Computer science, which results from America, has been widely percieved as one of most promising....
这种是没有问题的。
单复数改变。从系统原理可知，单复数是不同的单词，故可以达到避免重复的目的。
The Au nanoparticleexhibited good catalytical activities and ...
这里是10110111重复，刚好六个，那我们把nanoparticle变为复数nanoparticles变成五个了，不算重复。不过要注意的是修改之后，自己再想想会不会还和别人有重合，毕竟crosscheck系统的对比样本实在是太丰富了。
同义词替换。这一招依旧是非常有效的方法。但是不能单纯的使用，一定要结合整个句子来。
句子单词颠倒。不错的办法。还是那句话，注意句子的整体结构。

首页

系统介绍

查重入口

下载报告

学术资讯

关于我们

ithenticate论文查重原理是什么