基于知网语义特征扩展的题名信息分类被引量：6

Title Information Classification Based on Hownet Semantics Feature Extension

下载PDF

导出

摘要本文利用文本集内部的语义关联性,通过高频词和隐含主题两个不同粒度得到训练集的语义核心词集,然后将知网作为外部资源计算语义核心词集与测试集中特征词之间的相似度,将训练集中相似度大于某一阈值的特征词扩展到仅有题名作为内容的待分类文本中,最后用SVM算法进行分类。实验结果表明,在训练集与测试集仅为题名的情况下,当训练集为每类200篇时,提升效果最好,达到3.1%,但提升效果随训练集文本数的增加而下降;在训练集为题名加摘要,测试集为题名时,本文提出的分类算法在复旦语料和自建的期刊语料上的Macro_F1分别平均提高1.5%和3.1%,在Micro_F1上分别平均提高2.3%和5.3%。本文通过对特征稀疏的题名信息进行特征扩展,以期提高期刊论文题名的分类效果。 This paper uses the internal semantic relevance of the text and get the core semantic word set of the training text through high frequency words and the hidden theme. It then use the Hownet as an external resource to calculate the similarity between the core semantic word set and testing text. It extends the keywords in training text, whose similarity is greater than a certain level, into the testing text, and classifies them with SVM. The result shows that in the case where training set and test set are only titles, and there are 200 pieces in each category of training set, there is an increase of efficiency to 3.1%; but the efficiency declines with the increase of the number of training set text over 200. In the case where training sets are titles and abstracts whereas the testing sets are titles, the classification algorithm put forward in this paper could achieve 1.5% and 3.1% on MacroF1 in Fudan corpus and the self-builtjournal corpus, and 2.3% and 5.3% on MicroF1. This paper aims to implement characteristic extension of journal titles with sparse characteristics in the hope of improving the work of title classification.

作者李湘东刘康丁丛廖香鹏

机构地区武汉大学信息管理学院武汉大学信息资源研究中心

出处《图书馆杂志》 CSSCI 北大核心 2017年第2期11-19,共9页 Library Journal

基金社会科学基金项目"多种类型文本数字资源自动分类研究"(项目编号:15BTQ066)的研究成果之一

关键词期刊论文题名短文本分类知网 LDA Journal title information Short-text classification Hownet LDA

分类号 TP391.1 [自动化与计算机技术—计算机应用技术]

引文网络
相关文献

参考文献12

1董振东,董强,郝长伶.知网的理论发现[J].中文信息学报,2007,21(4):3-9. 被引量：99
2宁亚辉,樊兴华,吴渝.基于领域词语本体的短文本分类[J].计算机科学,2009,36(3):142-145. 被引量：41
3赵辉,刘怀亮.一种基于维基百科的中文短文本分类算法[J].图书情报工作,2013,57(11):120-124. 被引量：16
4王细薇,樊兴华,赵军.一种基于特征扩展的中文短文本分类方法[J].计算机应用,2009,29(3):843-845. 被引量：36
5王细薇,张凯.一种改进的基于共现关系的短文本特征扩展算法研究[J].河南城建学院学报,2012,21(4):48-50. 被引量：4
6胡勇军,江嘉欣,常会友.基于LDA高频词扩展的中文短文本分类[J].现代图书情报技术,2013(6):42-48. 被引量：38
7王盛,樊兴华,陈现麟.利用上下位关系的中文短文本分类[J].计算机应用,2010,30(3):603-606. 被引量：38
8李湘东,曹环,丁丛,黄莉.利用《知网》和领域关键词集扩展方法的短文本分类研究[J].现代图书情报技术,2015(2):31-38. 被引量：17
9吴健,吴朝晖,李莹,邓水光.基于本体论和词汇语义相似度的Web服务发现[J].计算机学报,2005,28(4):595-602. 被引量：218
10李生琦,田巧燕,汤承.基于《（知网〉》词汇语义相关度计算的消歧方法[J].情报学报,2009,28(5):706-711. 被引量：13

二级参考文献134

1王细薇,樊兴华,赵军.一种基于特征扩展的中文短文本分类方法[J].计算机应用,2009,29(3):843-845. 被引量：36
2宋枫溪,高林.文本分类器性能评估指标[J].计算机工程,2004,30(13):107-109. 被引量：33
3程泽凯 ,林士敏 .文本分类器稳定性评估研究[J].情报学报,2005,24(1):64-68. 被引量：3
4吴健,吴朝晖,李莹,邓水光.基于本体论和词汇语义相似度的Web服务发现[J].计算机学报,2005,28(4):595-602. 被引量：218
5吴健,蔡铭,唐敏,董金祥.网络制造中Web Service的服务质量模糊排序方法[J].计算机辅助设计与图形学学报,2005,17(7):1593-1599. 被引量：9
6王元珍,钱铁云,冯小年.基于关联规则挖掘的中文文本自动分类[J].小型微型计算机系统,2005,26(8):1380-1383. 被引量：13
7王斌,潘文锋.基于内容的垃圾邮件过滤技术综述[J].中文信息学报,2005,19(5):1-10. 被引量：129
8樊兴华,孙茂松.一种高性能的两类中文文本分类方法[J].计算机学报,2006,29(1):124-131. 被引量：70
9廖莎莎,江铭虎.中文文本分类中基于概念屏蔽层的特征提取方法[J].中文信息学报,2006,20(3):22-28. 被引量：12
10刘磊,曹存根,王海涛,陈威.一种基于“是一个”模式的下位概念获取方法[J].计算机科学,2006,33(9):146-151. 被引量：18

共引文献495

1钱小飞.语言数据资源建设中的关键问题及对策[J].语料库语言学,2021,8(2):94-105. 被引量：2
2余本功,曹雨蒙,陈杨楠,杨颖.基于nLD-SVM-RF的短文本分类研究[J].数据分析与知识发现,2020,4(1):111-120. 被引量：10
3王家琪,张莉.面向文本特征选择的去冗余相对判别准则[J].山西大学学报（自然科学版）,2021,44(4):688-694. 被引量：2
4张瑞霞,肖汉.基于知网的词图构造[J].华北水利水电学院学报,2008(3):53-56. 被引量：6
5陈锐,张蕾,卢春俊,牟力科.基于概念图的信息检索的查询扩展模型[J].计算机应用,2009,29(2):545-548.
6葛文,成毅,孙亚飞.基于简单语义的地理信息服务发现方法研究[J].地理信息世界,2012,10(3):31-35. 被引量：1
7伍洋,钟鸣,姜艳,李石君.面向审计领域的短文本分类技术研究[J].微电子学与计算机,2015,32(1):5-10. 被引量：7
8刘奎,赵晓静.一种支持QOS约束面向语义的web服务发现机制[J].安庆师范学院学报（自然科学版）,2010,16(3):49-52.
9钱竹青,谭庆平,刘峰,杨艳萍.基于本体论和标记图相似性的Web服务匹配算法[J].微电子学与计算机,2006,23(10):18-19.
10李珊,何建敏,厉浩.基于本体和加权互信息的专业知识检索[J].情报学报,2006,25(5):559-563. 被引量：9

同被引文献60

1李永红,汪盈,李腊全,赵志强.一种改进的特征选择算法在邮件过滤中的应用[J].计算机科学,2022,49(S02):740-744. 被引量：4
2王细薇,樊兴华,赵军.一种基于特征扩展的中文短文本分类方法[J].计算机应用,2009,29(3):843-845. 被引量：36
3吴健,吴朝晖,李莹,邓水光.基于本体论和词汇语义相似度的Web服务发现[J].计算机学报,2005,28(4):595-602. 被引量：218
4朱丹,李家林,何洪英,钟盛先,刘东渝,葛亮,孙二虎.科技论文题名的锤炼与优化——功能、尺度及原则的表述和案例实证分析[J].编辑学报,2007,19(2):97-99. 被引量：16
5万家强,王越,刘羽.改进KPCA对分类数据的特征提取[J].计算机工程与设计,2010,31(18):4085-4087. 被引量：12
6吴起立.基于本体的题名自动分类研究[J].情报学报,2011,30(1):51-55. 被引量：7
7奉国和.文本分类性能评价研究[J].情报杂志,2011,30(8):66-70. 被引量：40
8胡勇军,江嘉欣,常会友.基于LDA高频词扩展的中文短文本分类[J].现代图书情报技术,2013(6):42-48. 被引量：38
9薛春香,张玉芳.面向新闻领域的中文文本分类研究综述[J].图书情报工作,2013,57(14):134-139. 被引量：25
10孙建旺,吕学强,张雷瀚.基于语义与最大匹配度的短文本分类研究[J].计算机工程与设计,2013,34(10):3613-3618. 被引量：18

引证文献6

1聂黎生.基于改进KPCA与SVM的题名分类研究[J].现代电子技术,2019,42(16):108-111. 被引量：4
2李湘东,孙倩茹,石健.结合短文本扩展和BERT的商品评论文本自动分类[J].信息资源管理学报,2023,13(1):129-139. 被引量：4
3刘爱琴,董婕,梁雅琨.基于词对主题模型的题名信息自动分类方法研究[J].晋图学刊,2023(4):29-38.
4钟懿博,农健,杜艳华.基于LDA主题模型的农产品电商评论文本分类分析[J].甘肃农业,2023(12):64-68. 被引量：1
5王宇,邵丹,赵雪莲,李媛媛.基于类别的混合式特征选择方法在文本分类中的研究[J].长江信息通信,2023,36(12):38-41. 被引量：2
6刘爱琴,贺玉斌,马茹茹.基于提示学习混合模型的学术论文自动分类研究[J].数字图书馆论坛,2024,20(4):74-80.

二级引证文献10

1聂黎生.基于行为分析的学习资源个性化推荐[J].计算机技术与发展,2020,30(7):34-37. 被引量：3
2陈振华,王浩华.基于模糊粗糙集理论的海量数据流评判数学模型建构[J].现代电子技术,2021,44(18):127-130. 被引量：1
3张子迎,潘思辰,王宇华.基于单类支持向量机的工业控制系统入侵检测[J].哈尔滨工程大学学报,2022,43(7):1043-1050. 被引量：4
4刘爱琴,董婕,梁雅琨.基于词对主题模型的题名信息自动分类方法研究[J].晋图学刊,2023(4):29-38.
5周志刚,窦路遥,李毅.专利视域下融合协同过滤与链路预测的企业潜在合作关系预测研究[J].情报杂志,2023,42(12):144-152. 被引量：2
6钟懿博,农健,杜艳华.基于LDA主题模型的农产品电商评论文本分类分析[J].甘肃农业,2023(12):64-68. 被引量：1
7郭小磊,张吴波.基于短文本扩展和特征融合的市民热线文本分类[J].山西大同大学学报（自然科学版）,2024,40(1):42-47. 被引量：1
8卢金花.p⁃Laplacian 算子脉冲微分方程在自然语言处理中的应用[J].信息记录材料,2024,25(6):167-169.
9毛进,陈子洋.基于深度主动学习的科技文献摘要结构功能识别研究[J].数据分析与知识发现,2024,8(6):44-55.
10裴丹.轻量化人工智能翻译文本特征分类算法[J].计算机应用文摘,2024,40(17):170-172.

1张琪玉.试论隐含主题[J].图书馆理论与实践,1993(2):25-27. 被引量：4
2李湘东,刘康,高凡.维基百科在多种类型数字文本资源自动分类中的应用[J].情报科学,2017,35(2):75-79. 被引量：2
3参考文献著录规则（一）——论文集、会议录、报纸的著录格式[J].光通信技术,2012,36(6):39-39.
4参考文献著录规则（一）——论文集、会议录、报纸的著录格式[J].光通信技术,2012,36(8):46-46.
5参考文献著录规则(三)——论文集、会议录的著录格式[J].光通信技术,2015,39(9):41-41.
6陈艳军.古籍CNMARC格式著录的题名信息与检索点的生成[J].图书馆学刊,2002,24(5):34-36. 被引量：3
7参考文献著录规则(二)——论文集、会议录、报纸和学位论文的著录格式[J].光通信技术,2013,37(10):55-55.
8汪毅实.多卷书“跟踪服务”介绍[J].图书馆,1992(6):58-59.
9海外馆藏中国文物：英法最多日本数十万[J].文化市场,2009(1):41-41.
10聂江城,杨军花,王刚.高校图书馆图书借阅量化统计分析——以南开大学图书馆为例[J].图书馆工作与研究,2010(10):61-65. 被引量：28

图书馆杂志

2017年第2期

浏览历史

内容加载中请稍等...

基于知网语义特征扩展的题名信息分类被引量：6

参考文献12

二级参考文献134

共引文献495

同被引文献60

引证文献6

二级引证文献10

相关作者

相关机构

相关主题

浏览历史

基于知网语义特征扩展的题名信息分类 被引量：6

参考文献12

二级参考文献134

共引文献495

同被引文献60

引证文献6

二级引证文献10

相关作者

相关机构

相关主题

浏览历史

基于知网语义特征扩展的题名信息分类被引量：6