欢迎来到cnki中国知网查重

nki中国知网查重 > 论文查重

中文科技期刊论文多标签分类研究 中文科技期刊论文全文数据库

发布时间:2021-03-06 03:00:06

中文科技期刊论文多标签分类研究 中文科技期刊论文全文数据库

摘要:传统的人工分类由于规范、准确度不够,随着期刊数字化程度的提高,采用了文本自动分类技术,大大提高了分类的准确性,缓解了人工分类压力。利用《中国图书馆分类法》,建立科学技术期刊论文检索重论文的分类体系,组合多标签特征选择算法(CMLFS)对多标签数据进行特征选择,采用先进的多标签随机行走算法(MLRW),在科学技术期期间?对aJ论文样本集进行训练和测试。

的结果表明,对中文科学技术期刊的论文进行多标签自动分类,简化了科学技术期刊论文的多标签分类过程,提高分类效率,分类效果理想。为了满足科学技术发展带来的信息需求,科学技术期刊的论文作为重要的信息来源,形成了统一的记录基准(元数据)。分类号作为元数据中的一员,对T作进行分类是信息加T过程中重要复杂的工作。

多年来,这T部作品是由论文的作者或杂志的编辑T完成的。人T分类难免有一定的主观性,所以科学技术期刊的论文分类往往不够规范和准确。为此,需要采用作为新的分类技术的文本的自动分类来改善手部T分类的不足。对科学技术期刊的论文进行自动分类并比较统一的方法,首先,通过人1以定标和统计学的方法构筑分类库,用一个特征语矢量表示分类库的各类别,使用分类算法进行样本解判定数据和各类别的特征语向量的类似度,类似度最高的类别是该样本的类别。

该方法在一定程度上减轻了传统人工分类的压力,但T指南仍然存在主观性,需要随着知识的更新而不断重建事先构建的分类库。为了更好地揭示论文中所包含的不同主体及其相互关系,为了满足从科学分类中家族性检索论文的需要,必须对论文进行正确的标签分类。因此,本文引入了多标签自动分类技术,采用机器学习的理念来学习论文样本,通过构建分类库,不仅可以避免人工投标的不足,还显著提高了自动分类的精度和效率。研究

现状的文本自动分类技术起源于海外,经过20多年的发展,分类模型和分类算法逐渐得到改善,广泛应用于信息检索和文本挖掘等领域。文本分类分为单标签分类和多标签分类两种。在实际应用中,多标签数据一般存在。这几年,逐渐受到关注。对于多标签的分类问题,很多学者提出了可行的模型算法。如文献[1]所示,我们提出了基于随机游离模型的多标签分类算法。将多标签数据映射到随机游走图中,通过在图中各顶点得到的概率分布中游走,描绘了未分类数据具有各标签的概率。类和排序问题;文献[2]将粗略的集理论分类到多个标签文本中,使利用训练阶段得到的各类别的分类规则和测试事例一一一致,导出实例的类标签集,将粗集理论在文本分类中的应用扩展了。

随着文本分类技术的成熟,学者逐渐导入了论文分类技术。文献[3]在机器学习的计算模式下,对不同的记录项目提出加权结构的论文特征向量,同时对“中国图书馆分类法”(以下简称“中图法”)的特征,采用浅阶段分类法构建层级分类器,对定期刊物论文的“中图法”分类的有效实现。文献[4]采用支持向量机学习模型,采用基于低密度多特征的训练方法,对医学期刊R7的9个小分类进行自动研究,得到了令人满意的分类结果。这些期刊论文的自动分类方法可以有效解决传统人T分类中存在的问题,但是很难实现。另外,以上的研究是为了期刊论文的标签分类。

现在,科学技术杂志的论文的自动分类主要停留在单标签分类上。主要考虑到一篇论文属于多个类别的多标签分类的研究很少。通过搜索中国知识网,只发现了与之相关的研究论文,即文献[5]中提出的基于主体和结构重量的中文科学论文的多标签分类。该文献针对中文科技论文的特殊结构特征,提出了结构权重的概念,在论文中对不同结构部分的特征词进行加权处理,并结合领域主体的技术进行特征选择,在一定程度上对多个提高了铃声分类的效果。但是,随着社会的发展和科学技术的进步。区域主体中的概念、属性和实例也不断更新和完善,主体的构建是一个长期且复杂的过程,该文献仅使用相对简单的RAKEL随机标签组合算法,并引入了其他多标签分类算法而且,在多种分类算法之间的比较分析不足。针对科技期刊论文样本集中特征集维度过高、领域主体学习能力较差、分类性能较低等问题,本文引进SUMO主体技术,采用先进的多标签特征选择和分类算法,采用科技期刊的论文的多标签分类模型。

该模型利用“中图法”构建了科学技术期刊论文的分类体系,针对各论文的分类提取论文类别的相关信息,如标题、摘要、关键词等,通过分词、特征选择、TFT-IIDF权重构建矢量空间,然后再按多标签使用分类算法进行训练,构建性能最佳的分类器。2科学技术期刊论文的多标签分类模式设计2.1科学技术期刊论文的分类体系。现在,在中国主要采用“中图法”对科学技术杂志的论文进行分类显示。科学技术期刊的论文通常包含很多主体要素,为了充分揭示文章的各主题要素,在遵守《中图解法》的规定的同时,对于科学技术期刊的论文分类特征,在文章中需要显示多个分类号。这不仅仅是论文,搜索人口也增加了,分类的正确性也大幅提高了。

表示为R749.4(感情性精神病)和R362(病理化学)两个分类号,如“研究抑郁症的生物化学病理机制”。“中图法”共有22种,深度一般为6级,可采用辅助手段达到9级。为了保证科学技术期刊的论文检索的正确性,要求论文的提交深度适当。

级比较合适。文本分类技术一般是采用单层分类法,所有的类目放在同一水平,不考虑类目之间的相互关系,中图法采用树形结构,具有一定的广度和深度。因此,本文引入SUMO主体,通过其丰富的概念、意义关系和明确的层次结构,利用斯坦福大学开发的主体编辑工具Prot696,将“中图解”转换成适合文本分类的科学技术期刊论文分类体系。

具有4个等级的分类体系深度,以确保分类精度越高。2.2关于科学期刊论文的多标签分类模型构建的科学技术期刊论文的人工分类,需要根据论文的学科内容、主题的多少、作者的意图等,根据一定的分类体系,科学、系统地表现论文的主题性质。要正确分类

,必须经过以下步骤。首先,通过阅读论文的标题、摘要、关键词、句子中的各标题及全文

推荐阅读,更多相关内容:

知网毕业论文查重率通常一般多少合格

毕业论文查重时的一些误区 本科生毕业论文查重什么时候开始的

论文查重网论文查重怎么收费-论文查重网论文查证

河南经贸职业学院硕士论文查重要求及重复率 素质论文河南经贸职业学院

教育部门论文查重抽查的严重性

杂志社投稿知网查重要多少钱一次

3000字的论文 格式上有什么要求

知网cnki本科毕业论文检测

咋样选择论文查重系统?知网论文测验有那些长处?

论文查重表格算字量吗

知网cnki不收费检测的优点有哪些个呢?

学术不端论文检测下载报告哪儿鉴定是不是假

硕士论文查重如何正确引用? 硕士论文查重过了是不是就没问题了

知网系统进行查重告诉你算法字符数数

中国学术不端毕业论文测验检测报告全部有几份?

中国知网论文 中国知网论文入口

陕西工业职业技术学院硕士论文查重要求及重复率 陕西工业职业技术学院招聘硕士

维普查重太假了会怎么样-维普毕业论文查重

陕西国际商贸学院专科论文查重要求及重复率 陕西国际商贸学院以前是专科吗

华东交通大学理工学院本科论文查重要求及重复率 华东交通大学理工学院本科学费

cnki知网本专科毕业论文查重检测系统入口

知网cnki检测系统系统的长处哪里有问题?

黑龙江煤炭职业技术学院本科论文查重要求及重复率一

如何快速降低论文查重率- 如何降低论文他引率

哪个是真正的知网查重入口-