LDA模型下不同分词方法对文本分类性能的影响研究被引量：9

Study on influences of different Chinese word segmentation methods to text automatic classification based on LDA model

下载PDF

导出

摘要通过定义类别聚类密度、类别复杂度以及类别清晰度三个指标,从语料库信息度量的角度研究多种代表性的中文分词方法在隐含概率主题模型LDA下对文本分类性能的影响,定量、定性地分析不同分词方法在网页和学术文献等不同类型文本的语料上进行分类的适用性及影响分类性能的原因。结果表明:三项指标可以有效指明分词方法对语料在分类时产生的影响,Ik Analyzer和ICTCLAS分词法分别受类别复杂度和类别聚类密度的影响较大,二元分词法受三个指标的作用相当,使其对于不同语料具有较好的适应性。对于学术文献类型的语料,使用二元分词法时的分类效果较好,F1值均在80%以上;而网页类型的语料对于各种分词法的适应性更强。尝试通过对语料进行信息度量而非单纯的实验来选择提高该语料分类性能的最佳分词方法,以期为网页和学术文献等不同类型的文本在基于LDA模型的分类系统中选择合适的中文分词方法提供参考。 From the perspective of corpus measure, which includes three indicators ： the clustering density, the complexity and definition of category, this paper studied the influence of three representative Chinese word segmentation methods, including ICTCLAS, Ik Analyzer and 2-gram, on the performance of text classification under the implicit probabilistic topic model LDA. Moreover, the applicability of different Chinese word segmentation methods in different types of texts such as Web and academic documents and its cause were analyzed qualitatively and quantitatively. Experiments show that three indexes can effectively indicate the influence of word segmentation method on the classification of texts ： Ik Analyzer and ICTCLAS segmentation method are more influenced respectively by the complexity of the category and the clustering density of the category, for 2-gram, the influences of three indexes are similar, so it has good adaptability for different corpus. For corpus of academic literature,2-gram has better performance, F1 values are above 80%. And the corpus of Web pages is more adaptive to different word segmentation methods. This paper provides a reference for the selection of appropriate Chinese word segmentation method in classification system based on LDA model for different types of texts such as Web pages and academic literature by means of corpus measure instead of by experiments only.

作者李湘东高凡丁丛

机构地区武汉大学信息管理学院武汉大学信息资源研究中心

出处《计算机应用研究》 CSCD 北大核心 2017年第1期62-66,共5页 Application Research of Computers

基金国家社会科学基金资助项目(15BTQ066)

关键词文本分类 LDA主题模型语料度量分词方法 text classification LDA topic model corpus measure word segmentation method

分类号 TP391.1 [自动化与计算机技术—计算机应用技术]

引文网络
相关文献

参考文献8

1刘新斌,李俊.一种基于N-gram组合的中文垃圾邮件过滤方法[J].微电子学与计算机,2004,21(12):85-91. 被引量：5
2张红梅,王利华.使用否定选择算法改进文本过滤[J].计算机工程与科学,2008,30(8):61-64. 被引量：2
3姚全珠,宋志理,彭程.基于LDA模型的文本分类研究[J].计算机工程与应用,2011,47(13):150-153. 被引量：55
4张志飞,苗夺谦,高灿.基于LDA主题模型的短文本分类方法[J].计算机应用,2013,33(6):1587-1590. 被引量：75
5张启蕊,张凌,董守斌,谭景华.训练集类别分布对文本分类的影响[J].清华大学学报（自然科学版）,2005,45(S1):1802-1805. 被引量：26
6刘海峰,刘守生,姚泽清.文本分类中基于训练样本空间分布的K近邻改进算法[J].情报学报,2013,32(1):80-85. 被引量：9
7李湘东,巴志超,黄莉.基于语料信息度量的文本分类性能影响研究[J].情报杂志,2014,33(9):157-162. 被引量：5
8孙铁利,刘延吉.中文分词技术的研究现状与困难[J].信息技术,2009,33(7):187-189. 被引量：39

二级参考文献84

1张启蕊,张凌,董守斌,谭景华.训练集类别分布对文本分类的影响[J].清华大学学报（自然科学版）,2005,45(S1):1802-1805. 被引量：26
2陈小荷.自动分词中未登录词问题的一揽子解决方案[J].语言文字应用,1999(3):103-109. 被引量：26
3张长利,赫枫龄,左万利.一种基于后缀数组的无词典分词方法[J].吉林大学学报（理学版）,2004,42(4):548-553. 被引量：14
4黄发良,钟智.用于分类的支持向量机[J].广西师范学院学报（自然科学版）,2004,21(3):75-78. 被引量：14
5张春霞,郝天永.汉语自动分词的研究现状与困难[J].系统仿真学报,2005,17(1):138-143. 被引量：60
6费洪晓,康松林,朱小娟,谢文彪.基于词频统计的中文分词的研究[J].计算机工程与应用,2005,41(7):67-68. 被引量：68
7吴建胜,战学刚,迟呈英.一种基于自动机的分词方法[J].计算机工程与应用,2005,41(8):81-82. 被引量：8
8孙微微,刘才兴,田绪红.训练集容量对决策树分类错误率的影响研究[J].计算机工程与应用,2005,41(10):159-161. 被引量：6
9张江.基于规则的分词方法[J].计算机与现代化,2005(4):18-20. 被引量：14
10张宁,贾自艳,史忠植.使用KNN算法的文本分类[J].计算机工程,2005,31(8):171-172. 被引量：96

共引文献197

1孟旭,谢靖,李春旺.基于核心主题特征的作者身份识别研究[J].知识管理论坛,2023(5):351-364.
2邱小宇,林杰.基于Twitter数据的地点分类方法研究[J].科技通报,2020(4):67-71.
3赵小明,孙晓璇,李攀,胡绍波.基于决策树分类算法的平行志愿填报及研究[J].思想战线,2010,36(S1):348-351. 被引量：2
4曾铭,俞俊生,刘绍华.一种用于社交网站的云安全敏感信息过滤模型[J].华中科技大学学报（自然科学版）,2012,40(S1):211-214. 被引量：4
5李翔鹰,陈钟,唐礼勇,李欣.一种基于后缀数组聚类(SAC)的中文垃圾邮件过滤方法[J].计算机科学,2006,33(5):107-109. 被引量：1
6周荃,王崇骏,王王君,陈世福.PC4.5:用于不均衡数据集的C4.5改进算法[J].计算机辅助工程,2006,15(3):23-26. 被引量：2
7范黎林,王晓东.一种用于垃圾邮件过滤的中文关键词匹配算法[J].河南科技大学学报（自然科学版）,2006,27(5):35-37. 被引量：6
8周立兵,柳景超.贝叶斯理论在垃圾邮件过滤中的应用分析[J].网络安全技术与应用,2006(11):68-69. 被引量：1
9岳训,迟忠先,葛平俱,莫宏伟,郝艳友.基于网络社区结构的训练集非均衡程度度量方法[J].小型微型计算机系统,2007,28(8):1427-1433.
10赵凤英,王崇骏,陈世福.用于不均衡数据集的挖掘方法[J].计算机科学,2007,34(9):139-141. 被引量：5

同被引文献67

1张素娟,郑庆华,胡云华,孙霞.一种面向网络答疑的汉语切分歧义消除算法[J].计算机工程与应用,2004,40(25):55-58. 被引量：4
2穆荣平,任中保,袁思达,乔岩.中国未来20年技术预见德尔菲调查方法研究[J].科研管理,2006,27(1):1-7. 被引量：54
3萧莉明,于宽,蔡珣.一种基于Bayes分类器的中文期刊自动分类系统[J].现代情报,2007,27(4):146-147. 被引量：3
4鲁忠义,孙锦绣.语义空间的研究方法[J].心理学探新,2007,27(3):22-28. 被引量：4
5陈凯,朱钰.机器学习及其相关算法综述[J].统计与信息论坛,2007,22(5):105-112. 被引量：82
6张红梅,王利华.使用否定选择算法改进文本过滤[J].计算机工程与科学,2008,30(8):61-64. 被引量：2
7杨超,冯时,王大玲,杨楠,于戈.基于情感词典扩展技术的网络舆情倾向性分析[J].小型微型计算机系统,2010,31(4):691-695. 被引量：68
8李纲,戴强斌.基于词汇链的关键词自动标引方法[J].图书情报知识,2011,28(3):67-71. 被引量：27
9徐戈,王厚峰.自然语言处理中主题模型的发展[J].计算机学报,2011,34(8):1423-1436. 被引量：231
10陈颖,张晓林.专利技术功效矩阵构建研究进展[J].现代图书情报技术,2011(11):1-8. 被引量：20

引证文献9

1韩耀廷,许志伟,刘利民.基于Storm云平台的增量文本分类机制研究[J].内蒙古工业大学学报（自然科学版）,2018,37(4):279-286.
2董放,刘宇飞,周源.基于LDA-SVM论文摘要多分类新兴技术预测[J].情报杂志,2017,36(7):40-45. 被引量：32
3高森,严曙,崔超远,孙丙宇,汪六三.基于联合分类器过滤噪声的微博主题发现[J].计算机系统应用,2018,27(1):132-136. 被引量：3
4曹奔,夏勉,任志洪,林秀彬,徐升,赖丽足,王琪,江光荣.大数据时代心理学文本分析技术--“主题模型”的应用[J].心理科学进展,2018,26(5):770-780. 被引量：13
5李心蕾,王昊,刘小敏,邓三鸿.面向微博短文本分类的文本向量化方法比较研究[J].数据分析与知识发现,2018,2(8):41-50. 被引量：13
6王飞雪,李芳.基于主题加权LDA模型的情感分类方法[J].西南师范大学学报（自然科学版）,2018,43(9):38-44. 被引量：4
7杨捷,段明明,洪峰,张思路,江雄.浅谈文本智能分析技术在电网客户工单语义分析中的应用[J].科学与信息化,2019,0(1):9-10.
8尤众喜,华薇娜,潘雪莲.中文分词器对图书评论和情感词典匹配程度的影响[J].数据分析与知识发现,2019,3(7):23-33. 被引量：17
9谢红霞,陈创奇.基于数据分析的抖音短视频对杭州西湖旅游的影响研究[J].计算机时代,2020,0(5):112-115. 被引量：1

二级引证文献83

1叶佳鑫,熊回香,蒋武轩.一种融合患者咨询文本与决策机理的医生推荐算法[J].数据分析与知识发现,2020,4(2):153-164. 被引量：8
2梁艳平,安璐,刘静.同类突发公共卫生事件微博话题共振研究[J].数据分析与知识发现,2020,4(2):122-133. 被引量：12
3周波,冷伏海.技术识别研究进展[J].情报学进展,2022(1):315-348. 被引量：4
4何莉.改革开放的弄潮者——记大朗镇经济发展总公司[J].东莞科技,2000(3):29-29.
5袁创国.浓香型白酒生产如何改造低产质窖池[J].酿酒科技,2000(3):40-41.
6孙素琴,周群,郁鉴源,胡鑫尧.分子振动光谱法与中药研究的最新进展[J].光谱学与光谱分析,2000,20(2):199-202. 被引量：61
7孙竹梅,华薇娜,汪志兵.微信公众号的健康信息采纳预测研究——基于信息特征和支持向量机[J].情报理论与实践,2018,41(7):72-77. 被引量：20
8周源,刘宇飞,薛澜.一种基于机器学习的新兴技术识别方法:以机器人技术为例[J].情报学报,2018,37(9):939-955. 被引量：30
9徐建国,李孟军,游翰霖.新兴技术识别研究进展[J].情报杂志,2018,37(12):8-12. 被引量：20
10夏一雪.基于舆情大数据的网民情感“衰减—转移”模型与实证研究[J].情报杂志,2019,38(3):148-154. 被引量：13

1Peter-Paul Koch Luke Wroblewski Stephanie Rieger Lyza Danger Gardner.令人烦恼的视窗[J].程序员,2013(2):84-86.
2邵辉,李芳.基于树模型算法的动态网页信息抽取研究和实现[J].计算机应用与软件,2007,24(10):99-100. 被引量：2
3谭学清,张磊,周通,罗琳.一种基于聚类密度的文本分类算法研究[J].图书馆学研究,2016(13):74-83.
4薛丽敏,薛虹军.一种新型的网页去噪及网页类型判断方法[J].信息网络安全,2013(6):30-34.
5陈翰,周杰,李弼程.一种基于综合特征的网页类型识别方法[J].信息工程大学学报,2011,12(6):738-744. 被引量：1
6王平根.基于DOM的动态网页信息抽取方法[J].科技信息,2010(31). 被引量：1
7王玉,张伟红,刘雨.基于Apriori关联规则在信息无障碍网站的应用[J].吉林大学学报（信息科学版）,2013,31(1):101-106. 被引量：3
8D吴雅娟,柳培林,丁子睿.基于统计分词的中文文本分类系统[J].电脑知识与技术,2005(4):71-74. 被引量：1
9黄科,马少平.基于统计分词的中文网页分类[J].中文信息学报,2002,16(6):25-31. 被引量：16
10杜大龙,蔡琦,孙小朋.网页艺术设计目的之思考[J].艺术与设计（理论版）,2009(9X):71-73.

计算机应用研究

2017年第1期

浏览历史

内容加载中请稍等...

LDA模型下不同分词方法对文本分类性能的影响研究被引量：9

参考文献8

二级参考文献84

共引文献197

同被引文献67

引证文献9

二级引证文献83

相关作者

相关机构

相关主题

浏览历史

LDA模型下不同分词方法对文本分类性能的影响研究 被引量：9

参考文献8

二级参考文献84

共引文献197

同被引文献67

引证文献9

二级引证文献83

相关作者

相关机构

相关主题

浏览历史

LDA模型下不同分词方法对文本分类性能的影响研究被引量：9