欢迎来到cnki中国知网查重

nki中国知网查重 > 论文查重

基于语义结构的科技论文抄袭检测

发布时间:2021-05-20 03:00:03

基于语义结构的科技论文抄袭检测

摘要现在的科学技术论文的剽窃比较严重,但是对科学技术论文剽窃论文的检查重量还不够自动检查的研究。科技论文的抄袭检查是重复显示形式之一,根据修改程度可以分为全文的抄袭、章节的抄袭、段落的抄袭、句子的抄袭、同义词的置换、抄袭等几种表现形式。本文在抄袭全部或全部原文、删除或移动段落时,首先基于bootstraping算法扩展科技论文的主题词,根据主题语的交叉点反复检测候选组,基于滑动窗口加权给出类似度算法,并给出基于类似曲线图的相对直观表示的计算结果。获得了更好的研究效果。

1学术期刊中抄袭现象在世界上也很突出。学术界认识到这一点,政府相关部门也给予了一定的关注。这表明中国还没有完全的机制来制止这种不良行为的发生。学术论文的质量是学术杂志的生命。为了提高

中国学术期刊的质量,中国学术期刊要全面国际整合,进入国际一流学术期刊行列,只有更多措施及时跟进,才能有效解决问题。剽窃风盛行,其原因是发现困难,人的阅读能力毕竟有限,能够阅读所有相关的文章真的不容易,更何况要在阅读的基础上加以记忆。很多时候都无法用人的力量发现剽窃。

科学技术论文的抄袭检查是重复显示形式之一,但比文字的重复检查更复杂。科学技术论文可以根据修改的程度分为全文的复印、章节的抄袭、段落的抄袭、句子的抄袭、同义词的置换抄袭、思想的抄袭等几种表现形式。本文针对部分或全部原文进行剽窃、删除或段落移动的问题,鉴于语义信息的有限性和当前自然语言处理的发展情况,无法应对思想抄袭等意义更为复杂的情况。

科技论文的抄袭特征是部分内容重复,局部明显,意义信息强。本文就科学技术论文的抄袭自动检测进行了以下工作。首先,根据bootstraphing算法扩展科技论文的主题词,根据主题词的交叉点重复检测候选组。并且,提出了基于滑动窗口的加权类似度算法,通过类似曲线图的更直观的表现计算结果,得到了更好的研究效果。

2文本重复检测概要自然语言文本复制检查技术始于20世纪90年代。SCAM算法参考信息检索技术中的矢量空间模型,使用基于词汇统计的方法测量文本的相似性。DSC算法〔3〕首先将一个文档分成n个字符串,一个文章用N个字符串表示,按照过滤规则过滤的字符串作为该文档的代表,参与比较的是这些选定的字符串。

I-MCtch算法也是DSC算法的改进,在将集合中的所有文档分割为字符串之后,计算每一字符串的出现次数和出现该字符串的文档的个数,基于每一字符串的IDf值来判断取舍选择,对每剩余字符串计算md5值,并对其进行选择。如果比较这些整数值,则可以做出两个判断。这个文件相似吗?在北京大学天网,重复检测算法[4]是经常用于对集群进行分类的tf-idf算法,基于网页的文本内容,以6763个汉字作为矢量的基础,对网页正文中每个汉字出现的个数进行贝克将该矢量作为该页的特征。通过计算页向量和簇中心向量的夹入余弦值,判断两个向量的大小关系,进而判断该页是否属于该类别。

文本调试算法问题的分析集中在参与比较的文本块长度、文本特征选择方案、系统性能三个方面。比较两个文档是否相似时,检测到的基本单位被称为文本块。

个文本块的大小是基于所检测到的一组文本的特征来确定的,并且块长度越小,匹配错误的机会就越大。两个没有关联的文件有可能被判定为剽窃。另一方面,块的长度越大,就越没有重复文档的机会。

这样会忽略很多副本文档。关于当前文本的特征选择方式,主体分为两种。班采用基于字符串比较的方法,也被称为基于语法的方法。这些方法都需要从文档中选择字符串。这些字符串被称为“指纹”。随后,

将指纹映射到Hash表,其中一个指纹对应于一个数字。最后,统计相同指纹的数量或比例,作为文字类似度的依据。其他类型的文本复制检测采用基于字数统计的方法,并且这种方法也被称为基于语义的方法。

的这种方法首先统计文档中每一个单词的出现次数,根据单词的频率构成文档的特征向量,最后以点累积、余弦或类似的方式测量两个文档的特征向量,以确定文档的类似度。的根据。随着特征选择的复杂性的增加,系统的性能要求特征选择方案的算法的复杂性越是选择小的文本块。3科学技术论文中检测到的思想和过程的科学技术论文的抄袭检查思想的重复检查的传统算法分为两种类型,基于矢量空间模型和指纹或特征代码。基于

矢量空间模型的算法需要两个比较,计算复杂度高。根据指纹或特征代码,对文本反复要求过。由于科学技术论文的剽窃检查,召回不足。

篇科学技术论文的反复检查需要保持计算的复杂性和检查效果的平衡。为了减少时间的复杂性,本文粗略地划分了科学技术论文的重复候选组。

篇科学技术论文摘要后提供的关键词表示了与这篇论文的部分比较容易应用的意思信息。本文通过基于bootstraphing的算法来扩展关键字,并交叉扩展的主题词。如果交叉点在一定的阈值以上的话,我认为论文在同一个重复候选组里。科学技术论文在重复检测特征时,需要选择适当的粒度。过大的文本块在召回率上有损失。

还因为科学技术论文的意义构造比较明确,所以通常之前被分成实验思想,有结果分析、结论的几个部分。本文基于科学技术论文的意义构成基本上有序的特征,提出了一种基于滑动窗口章节计算加权类似度的检测方法。3畅2科技论文的抄袭检查流程本文将科技论文的抄袭检查分为两个主要部分,首先抽取论文的主题词,根据主题语粗略划分论文的重复候选组。在图1中示出了在相同的重复候选组中的论文的类似度。

具体的步骤如下。(1)抽取文章的关键词,将论文分成章节。(2)论文正文的分词。(3)将提出的关键字作为种子语,利用bootstraphing的方法扩展候选词语的集合,作为论文的主题语集合。

(4)如果两篇论文的主题语的交叉数大于一定的阈值,则属于相同的重复候选集。(5)在同一候选集合中的文章中,计算每章划分的类似度和滑动窗口的加权类似度。(6)判定

推荐阅读,更多相关内容:

中国知网不端检测系统万方医学网

知网cnki和万方查重检测的分别

论文检测后如何修改重复内容?一

为什么要写毕业论文真的有人自己写的吗-为什么要写毕业论文参考范文

吉珠毕业论文要多少字

怎么在中国知网查询大专科论文

为什么几个知网检测系统的价格差距那么大?

为何有的知网杂志社投稿毕业论文查重检测报告只有两份?

大连理工大学关于2019届毕业设计(论文)工作安排的通知

湖南博士本专科论文检测

论文查重飘红太多了怎么办 教你快速降重的办法一

同学发现知网查重帮你如何算法字数吗?

知网查重三千字值多少

格子达与知网查重率差卖多少钱

学术不端行为检测原理 学术不端行为检测记录表

三亚航空旅游职业学院专科论文查重要求及重复率 三亚航空旅游职业学院专科录取分数线

事业单位财会管理的问题与提升对策 事业单位管理岗位等级怎么提升?

知网查重系统会区分专业吗? 哪个查重系统和知网差不多一

知网查重论文论文检测报告文档总共有几份?

知网pmlc是什么?为什么PaperEasy碾压其他查重方式呢?一

中国学术不端维普较为哪个更严

知网论文检测费用多少知网论文检测费用可以报销吗

论文查重后应该怎样修改?

知网论文检测对样式有那些要求?

论文查重越查越高原因何在? 为什么论文查重越查多