基于层级类别信息的标题自动分类研究被引量：6

Headlines automatic classification method based on hierarchical category information

下载PDF

导出

摘要针对标题文本特征少、特征维度高和分布不均匀导致分类性能不佳的问题,提出了一种利用分类体系结构信息的双向特征选择算法,并在该算法的基础上实现标题分类。该方法以具有严格层级关系的分类体系为应用前提,利用类别与词的同现及分布关系进行特征词和候选类别的双向选择,构建类别向量空间;通过分析标题文本特征词在层级类别向量空间的分布所表现出的类别语义信息,确定文本所在层级以及所在层级的候选类别;之后利用分类器对未能成功分类的标题进行分类。在人工标引数据集上的实验结果表明,该方法在不进行语料扩展和外部知识库添加的基础上仍可有效地确定文本所在层级,实现多级学科的分类;并可在识别类别语义信息的基础上,降低候选类别数目,提高分类效率。 This paper proposed an efficient headlines classification method which used the structure of classification system, to solve the poor classification performance causing by headlines＇ feature fewer, high class feature dimensions and uneven distri- bution of the samples. This method was on the premise of strict hierarchy of classification system. First ,it used feature selection method based on hierarchical category information to build multilayer vector space. Second,it analysed feature word in the vector space distribution to determine which level the headlines located and which categorys the headlines belonged. At last, it used calssifier to classify the title which failed to classification. Experimental in artificial indexing data sets show that using multilayer vector space can effective determine which level the headlines locate on, realize classification at muhilayer level,improve headlines classification accuracy based on identifying category semantic information.

作者葛文镇刘柏嵩王洋洋赵福青

机构地区宁波大学信息科学与工程学院

出处《计算机应用研究》 CSCD 北大核心 2016年第7期2030-2033,共4页 Application Research of Computers

基金省部级实验室/开放基金资助项目(B2014)

关键词标题分类特征选择层级结构分类体系同现分析向量空间 headlines classification feature selection hierarchical classification system co-occurrence analysis vector space

分类号 TP391.1 [自动化与计算机技术—计算机应用技术]

引文网络
相关文献

参考文献19

1Kim K,Chung B S,Choi Y R,et al.Semantic pattern tree kernels for short-text classification[C]//Proc of the 9th IEEE International Conference on Dependable:Autonomic and Secure Computing.[S.l.]:IEEE Press,2011:1250-1252.
2王强,关毅,王晓龙.基于标题类别语义识别的文本分类算法研究[J].电子与信息学报,2007,29(12):2885-2890. 被引量：6
3邱均平,赵岩杰,罗力.科学评价中的论文分类方法研究[J].情报学报,2011,30(5):554-560. 被引量：5
4Kirange D K.Emotion classification of news headlines using SVM[J].Asian Journal of Computer Science & Information Technology,2013,2(5):104-106.
5中国人民共和国国家质量监督检验检疫总局;中国国家标准化管理委员会.GB/ T13745-2009 学科分类与代码[S].北京:中国标准出版社,2009.
6何力,贾焰,韩伟红,谭霜,陈志坤.大规模层次分类问题研究及其进展[J].计算机学报,2012,35(10):2101-2115. 被引量：14
7姚长青,杜永萍.降维技术在专利文本聚类中的应用研究[J].情报学报,2014,33(5):491-497. 被引量：12
8Salton G,Wong A,Yang C S.A vector space model for automatic indexing[J].Communications of the ACM,1975,18(11):613.
9Liu Xueqing,Song Yangqiu,Liu Shixia,et al.Automatic taxonomy construction from keywords[C]//Proc of the 18th ACM SIGKDD International Conference on Knowledge Discovery and Data Mining.2012:1433-1441.
10Xu Yongdong,Quan Guangri,Xu Zhiming,et al.Research on text hierarchical topic identification algorithm based on the dynamic diverse thresholds clustering[C]//Proc of International Conference on Asian Language Processing.2009:206-210.

二级参考文献148

1张加民.标题预示性的元功能视角[J].外语教学,2004,25(6):36-39. 被引量：7
2袁时金,李荣陆,周水庚,胡运发.层次化中文文档分类[J].通信学报,2004,25(11):55-63. 被引量：6
3施振宏.论文分类宜用《学科分类与代码》不宜用《中国图书馆分类法》[J].编辑学报,2005,17(5):338-340. 被引量：11
4赵世奇,张宇,刘挺,陈毅恒,黄永光,李生.基于类别特征域的文本分类特征选择方法[J].中文信息学报,2005,19(6):21-27. 被引量：21
5邓茜,林红.中文新闻信息自动分类标引的构想与实现[J].中国传媒科技,2005(9):19-21. 被引量：2
6凌云,刘军,王勋.多层次web文本分类[J].情报学报,2005,24(6):684-689. 被引量：12
7樊兴华,孙茂松.一种高性能的两类中文文本分类方法[J].计算机学报,2006,29(1):124-131. 被引量：70
8毛伟,徐蔚然,郭军.基于n-gram语言模型和链状朴素贝叶斯分类器的中文文本分类系统[J].中文信息学报,2006,20(3):29-35. 被引量：16
9CUI Zifeng,XU Baowen,ZHANG Weifeng,XU Junling.A New Approach of Feature Selection for Text Categorization[J].Wuhan University Journal of Natural Sciences,2006,11(5):1335-1339. 被引量：6
10姜远,周志华.基于词频分类器集成的文本分类方法[J].计算机研究与发展,2006,43(10):1681-1687. 被引量：22

共引文献103

1牛华勇,窦一轩,夏晓雪.国内外财经文本分析研究综述[J].语料库语言学,2022,9(2):81-95.
2陆晓蕾,倪斌.基于预训练语言模型的BERT-CNN多层级专利分类研究[J].中文信息学报,2021,35(11):70-79. 被引量：19
3伍洋,钟鸣,姜艳,李石君.面向审计领域的短文本分类技术研究[J].微电子学与计算机,2015,32(1):5-10. 被引量：7
4王怡,盖杰,武港山,王继成.基于潜在语义分析的中文文本层次分类技术[J].计算机应用研究,2004,21(8):151-154. 被引量：15
5白振田,侯汉清.基于向量空间的行业自动分类系统应用[J].情报科学,2005,23(6):940-944. 被引量：4
6余正涛,樊孝忠,郭剑毅,耿增民.基于潜在语义分析的汉语问答系统答案提取[J].计算机学报,2006,29(10):1889-1893. 被引量：44
7李良俊,张斌,杨明.基于LSA降维的KNN文本分类算法[J].东北师大学报（自然科学版）,2007,39(2):33-36. 被引量：7
8王宁.浅析潜在语义分析的原理及其应用[J].新世纪图书馆,2007(5):67-70. 被引量：2
9王强,关毅,王晓龙.基于标题类别语义识别的文本分类算法研究[J].电子与信息学报,2007,29(12):2885-2890. 被引量：6
10李媛媛,马永强.基于潜在语义索引的文本特征词权重计算方法[J].计算机应用,2008,28(6):1460-1462. 被引量：17

同被引文献52

1孙源,胡志军.基于高频词和AUC优化的随机森林文本分类模型[J].数学的实践与认识,2020,0(1):10-15. 被引量：3
2张新娟.一种基于改进粒子群算法的图像分类方法研究[J].自动化与仪器仪表,2016(7):163-164. 被引量：1
3熊小梅,刘永浪.基于LSA的二次降维法在中文法律案情文本分类中的应用[J].电子测量技术,2007,30(10):111-114. 被引量：8
4缪建明,张全,赵金仿.基于文章标题信息的汉语自动文本分类[J].计算机工程,2008,34(20):13-14. 被引量：2
5吴昊.一种Web信息挖掘的英语阅读选篇分类研究[J].现代教育技术,2009,19(2):67-70. 被引量：2
6宁亚辉,樊兴华,吴渝.基于领域词语本体的短文本分类[J].计算机科学,2009,36(3):142-145. 被引量：41
7张运良,朱礼军,乔晓东,张全.基于句类特征的作者写作风格分类研究[J].计算机工程与应用,2009,45(22):129-131. 被引量：19
8年洪东,陈小荷,王东波.现当代文学作品的作者身份识别研究[J].计算机工程与应用,2010,46(4):226-229. 被引量：21
9何佳,周长胜,石显锋.网络舆情监控系统的实现方法[J].郑州大学学报（理学版）,2010,42(1):82-85. 被引量：27
10汪勇,金菲,张瑞军.引导函数支配的进化模糊聚类算法[J].系统工程理论与实践,2011,31(2):302-307. 被引量：2

引证文献6

1张磊.文本分类及分类算法研究综述[J].电脑知识与技术,2016,12(12):225-226. 被引量：12
2高元,刘柏嵩.基于集成学习的标题分类算法研究[J].计算机应用研究,2017,34(4):1004-1007. 被引量：10
3段乃侠.基于多媒体图像技术的招贴信息自动分类方法研究[J].自动化与仪器仪表,2019,0(7):18-21. 被引量：1
4王珺.基于文本特征识别的电子档案自动归类系统研究[J].现代电子技术,2019,42(18):45-49. 被引量：5
5桑雪,何静,陈明.基于TF-IDF和LSI模型的网络舆情实时监测建模和应用[J].数学的实践与认识,2022,52(11):56-66. 被引量：3
6周长江,蔡榕,祝和明,王存超,郭晏.基于专利数据的电力标引信息挖掘技术研究[J].自动化技术与应用,2024,43(4):118-121.

二级引证文献31

1张剑飞,张洒,夏万贵.基于改进注意力机制的生成对抗网络图像修复研究[J].智能计算机与应用,2022,12(6):141-145.
2卢玲,杨武,杨有俊,陈梦晗.结合语义扩展和卷积神经网络的中文短文本分类方法[J].计算机应用,2017,37(12):3498-3503. 被引量：19
3张昊,黄蔚,胡国超.基于改进随机森林的洗钱交易角色识别应用[J].计算机与现代化,2018(2):101-106.
4宋艳,白治江.基于扩展近邻SMOTE过采样的SVM分类器[J].现代计算机,2018,24(10):34-38. 被引量：3
5张丐卓.文本挖掘及其在信息内容安全中的应用[J].华北科技学院学报,2018,15(2):115-121. 被引量：2
6程天翼.基于集成学习的电子商务站点搜索结果准确性预测[J].通讯世界,2018,25(8):294-296.
7单鹏飞,戴大蒙.基于支持向量机的击键特征异常用户识别[J].电脑知识与技术,2018,14(7):186-190. 被引量：1
8刘冬瑶,刘世杰,陈宇星,张文波,周振.新闻文本自动分类技术概述[J].电脑知识与技术（过刊）,2017,23(12X):87-91. 被引量：7
9刘佩鑫,于洪志,徐涛.基于朴素贝叶斯的档案分类研究[J].河北大学学报（自然科学版）,2018,38(5):549-554. 被引量：6
10刘一然,骆力明.基于SVM的学科试题自动分类研究[J].计算机应用与软件,2019,36(1):197-203. 被引量：8

1代向兵.基于DOS的图形用户界面设计[J].现代计算机,1996(1):35-37.
2谢宏武.中小企业电子商务应用研究[J].科技信息,2006(12S):96-96. 被引量：1
3甄淼,娄允赫.地质矿产分析测试元数据标准研究[J].黑龙江科技信息,2014(4):36-36.
4陈惠娟,冯月春,陈亮.基于单表结构的Web动态树设计与实现[J].软件导刊,2016,15(11):170-172.
5黄韵竹,韦玮,罗杨宇,李成荣.限定领域语言模型训练语料的词类扩展方法[J].计算机系统应用,2011,20(11):55-58. 被引量：1
6肖荣,李金凤,覃俊.一种改进的一对一多类支持向量机[J].软件导刊,2010,9(10):109-111. 被引量：3
7张明,王煜,杨敬伟,袁方,赵红,石强.基于Ontology的智能信息检索研究[J].河北大学学报（自然科学版）,2005,25(5):561-566. 被引量：3
8李村合.网络信息挖掘技术及其应用研究[J].情报科学,2002,20(11):1212-1214. 被引量：16
9戴晓晖,李敏强,寇纪淞.客户/服务器系统配置优化的遗传算法[J].系统工程,1999,17(1):57-63. 被引量：1
10何力,丁兆云,贾焰,韩伟红.大规模层次分类中的候选类别搜索[J].计算机学报,2014,37(1):41-49. 被引量：19

计算机应用研究

2016年第7期

浏览历史

内容加载中请稍等...

基于层级类别信息的标题自动分类研究被引量：6

参考文献19

二级参考文献148

共引文献103

同被引文献52

引证文献6

二级引证文献31

相关作者

相关机构

相关主题

浏览历史

基于层级类别信息的标题自动分类研究 被引量：6

参考文献19

二级参考文献148

共引文献103

同被引文献52

引证文献6

二级引证文献31

相关作者

相关机构

相关主题

浏览历史

基于层级类别信息的标题自动分类研究被引量：6