每年到了夏季,就是准毕业生们既欢喜又烦恼的时候,烦恼的是面对毕业论文查重,如何闯过大学这一最后一道关卡。在搜索引擎上输入论文查重系统,会出来上百万个论文查重的网页和链接。到底什么样的论文查重系统才是好的系统?如何去分辨论文查重系统的好坏呢?下面我们来好好学习一下。
1 论文查重的原理是什么?
论文查重是论文查重系统利用某种算法将需要检测的论文与系统资源库的文献资料进行语义比对,计算出论文的重复率。不同的论文查重系统有着不同的算法和资源库,因此同一篇论文在不同的系统检测,其结果也会有所差别。
2 论文查重的结果越高代表系统越准确吗?
大部分同学倾向于选择检测结果较高的论文查重系统,在他们的观念里,检测结果越高代表系统越准确。然而,相似度越高真的越好吗?
答案当然是否定的。有用户遇到过这种情况:某些网站为了提高相似率对一些根本不相似的片段进行标红,只要有两个字相同,就会标红,而不会考虑这两个字是否是处在一个完整的句子之中。
而且某些系统全文都会进行检测,包括标题、目录摘要和参考文献等,这些与正文无关的文字全部纳入检测自然也会提高系统的检测结果。
对一个理想的检测系统的要求是不但能够尽可能多的找出相似片段,同时要求找出的相似片段在句式和语义上确实是相似的,即对比结果要有一定的准确性,而不是虚高。在某些系统的检测报告中判断出在某网页上有相似度100%的句子,但是在那个网页上却找不到这个句子。
因此,很多论文查重系统都存在一定的结果虚高现象,检测结果高不一定代表系统检测得准确。
3 系统的资源量越大越好吗?
对论文查重有直接影响的除了算法外,还有系统资源库。每个论文查重系统在介绍自己系统的资源库时总是这样表述:有海量的系统资源库。这就给论文检测者一个暗示:资源库海量,文献资源丰富,自然结果就会精确。然而,对论文检测的结果真的就可以这样简单的定义吗?
海量的资源库到底包含哪些文献资料?包含的这些文献资料又有多少是学生可能会参考的?互联网资源有没有包括在内?……
xx说,我的图书、报纸、期刊、网络文献等资源海量,图书十数亿页,其他文献数亿篇(份),但不对互联网资源进行比对检测。可是,现在学生们纷纷表示自己写论文时首先想到就是先去网上搜索资料,然后复制粘贴啊!
xx说,我有3亿份的归档文稿,110,000以上的周刊和书籍,400亿以上的网页。可是,学位论文怎么没收录?学弟抄学长的论文事例比比皆是啊!
xx说,最新9000万学术期刊和学位论文库,超过一亿数量级互联网网页数据库,但不支持英语等非中文论文的检测。很多学生都反映的xx有虚高一事就不提了,可是,毕业论文中当然会有英语啊,怎能不检测?
……
什么样的资源库才是最符合论文检测系统的资源库,才算是海量?一定是学术期刊、学位论文一应俱全,还有自己特有的论文库,同时还会实时抓取中英文互联网网页内容的资源库。只有收录的文献资料是目标用户群体可能会参考的资源,这样的资源库才是有意义、有价值的。
4 什么样的论文查重系统才是好的系统?
一个好的论文查重系统应该是一切从论文写作者的利益出发,从规范学生论文写作的习惯入手,能够精确指出论文写作者在写作过程的不足,有效地对学生在论文写作过程中可能出现的不规范的写作行为进行自我监督和自我控制,以防止不必要的抄袭和过度引用等不良写作行为的发生。