基于信息论的潜在概念获取与文本聚类被引量：7

Latent Concept Extraction and Text Clustering Based on Information Theory

下载PDF

导出

摘要针对词、潜在概念、文本和主题之间的模糊关系,提出一种基于信息论的潜在概念获取与文本聚类方法.方法引入了潜在概念变量和主题变量。根据信息论中熵压缩编码理论,定义了一个全局目标函数,给出一种类似于确定性退火算法的求解算法,用以获得概念层次树以及在不同层次概念上的文本聚类结果,是一种双向软聚类方法.方法通过基于最短描述长度原则的概念选择方法,最终确定概念个数和对应的文本聚类结果.实验结果表明,所提出的方法优于基于词空间的文本聚类方法以及双向硬聚类方法. To emphasize the fuzzy relation among words, latent concepts, text and topics, an information theory based approach to latent concept extraction and text clustering is proposed. Latent concept variable and topic variable are introduced to reveal such relation, and a global objective function is defined in the theme of rate-distortion theory. An anneal-like algorithm is designed to extract the hierarchical tree of latent concept, and to group the texts under corresponding concept hierarchy at the same time. Furthermore, it determines the number of concept and text clustering result with a concept selection method based on minimal description length criteria. It is a soft co-clustering method and outperforms the ones based on the word space, and current text hard co-clustering method based on latent concept by experiments.

作者李晓光于戈王大玲鲍玉斌

机构地区辽宁大学信息学院东北大学信息科学与工程学院

出处《软件学报》 EI CSCD 北大核心 2008年第9期2276-2284,共9页 Journal of Software

基金国家自然科学基金~~

关键词潜在概念主题文本聚类信息论 latent concept topic text clustering Information theory

分类号 TP18 [自动化与计算机技术—控制理论与控制工程]

引文网络
相关文献

参考文献1

1宫秀军,史忠植.基于Bayes潜在语义模型的半监督Web挖掘[J].软件学报,2002,13(8):1508-1514. 被引量：28

二级参考文献2

1史忠植.知识发现[M].北京:清华大学出版社,2000..
2李晓黎,刘继敏,史忠植.概念推理网及其在文本分类中的应用[J].计算机研究与发展,2000,37(9):1032-1038. 被引量：57

共引文献27

1赵心,蔡智,洪流,蔡庆生.一种基于关联规则的中文概念集生成算法[J].计算机科学,2004,31(7):175-177. 被引量：5
2刘壁松,李春平.一个可扩展的文本分类系统的设计与实现[J].计算机工程与应用,2004,40(30):102-106. 被引量：2
3陈涛,宋妍,谢阳群.基于IIG和LSI组合特征提取方法的文本聚类研究[J].情报学报,2005,24(2):203-209. 被引量：14
4傅向华,冯博琴,马兆丰,韩冰.基于核方法的Web挖掘研究[J].小型微型计算机系统,2005,26(5):727-731. 被引量：3
5王小英,赵海,林涛,张文波,尹震宇.基于信任的普适计算服务选择模型[J].通信学报,2005,26(5):1-8. 被引量：17
6董德民,何钦铭.面向电子商务的Web挖掘技术及其应用研究[J].计算机工程与设计,2006,27(1):95-98. 被引量：3
7李华云.潜在语义分析的理论研究及应用[J].现代情报,2006,26(11):205-206. 被引量：3
8赵鹏,蔡庆生.一种基于《知网》的中文文本聚类算法的研究[J].计算机工程与应用,2007,43(12):162-163. 被引量：7
9赵鹏,耿焕同,蔡庆生.一种基于语义和统计特征的中文文本特征表示方法[J].小型微型计算机系统,2007,28(7):1311-1313. 被引量：8
10黄建才.新闻搜索引擎的设计[J].福建电脑,2008,24(5):129-129.

同被引文献36

1曲维光,陈小荷,吉根林.基于框架的词语搭配自动抽取方法[J].计算机工程,2004,30(23):22-24. 被引量：18
2王鹏,杨士强,刘志强.信息论联合聚类算法及其在视频镜头聚类中的应用[J].计算机学报,2005,28(10):1692-1699. 被引量：6
3曲开社,翟岩慧.偏序集、包含度与形式概念分析[J].计算机学报,2006,29(2):219-226. 被引量：52
4黄德才,戚华春,钱能.基于主题相似度模型的TS-PageRank算法[J].小型微型计算机系统,2007,28(3):510-514. 被引量：23
5叶阳东,刘东,贾利民,LI Gang.一种自动确定参数的sIB算法[J].计算机学报,2007,30(6):969-978. 被引量：5
6Srivastava A N and Sahami M. Text Mining: Classification, Clustering, and Applications[M]. Boca Raton: Chapman and Hall, 2009: 1-25.
7Cristianini N, Shawe-Taylor J, and Lodhi H. Latent semantic kernels[J]. Journal of Intelligent Information Systems, 2002, 18(2/3): 127-152.
8Nyffenegger M, Chappelier J C, and Gaussier E. Revisiting Fisher kernels for document similarities[C]. 17th European Conference on Machine Learning, Berlin, Germany, September 18-22, 2006: 727-734.
9Lehmann A and Shawe-Taylor J. A probabilistic model for text kernels[C]. Proceedings of the 23rd International Conference on Machine Learning, Pittsburgh, PA, 2006: 537-544.
10Cuturi M and Vert J P. The context-tree kernel for strings[J]. Neural Networks, 2005, 18(8): 1111-1123.

引证文献7

1徐超,周一民,沈磊.一种面向隐含主题的上下文树核[J].电子与信息学报,2010,32(11):2695-2700.
2翁彧,胡长军,席强,张学春.一种面向e-Science环境的多领域Web文本特征抽取模型[J].小型微型计算机系统,2011,32(1):17-23.
3陈叶旺,王华珍,李海波,钟必能,陈锻生.基于百度百科与文本分类的网络文本语义主题抽取方法[J].小型微型计算机系统,2012,33(12):2605-2610. 被引量：9
4程春雷,夏家莉,曹重华,李光泉,曹中华.关系概念的Web文本主题抽取模型研究[J].小型微型计算机系统,2016,37(5):972-977. 被引量：1
5杜鹃,马莉.信息论在数据挖掘领域中的应用[J].电脑知识与技术（过刊）,2010,0(35):9934-9936. 被引量：1
6娄铮铮,叶阳东.基于最大化交叉互信息的对称IB算法[J].计算机学报,2016,39(8):1515-1527. 被引量：3
7张仪,陈国,张再跃.可增量的用户短文本聚类方法研究[J].计算机技术与发展,2017,27(11):83-87.

二级引证文献14

1陈金梁,李青.基于本体的领域文档主题抽取方法研究[J].电脑开发与应用,2014,27(9):44-47.
2陈叶旺.一种基于百度百科的中文网络文本关键词抽取方法[J].小型微型计算机系统,2014,35(11):2422-2427.
3胡海斌.引入特征倾向性的高效网络文本数据挖掘[J].计算机仿真,2015,32(5):436-440. 被引量：6
4都平平,李雨珂,孟勇,陈越,穆亚凤,吴玲.类百度百科模式专家学者知识链数据库建设研究[J].图书馆杂志,2015,34(11):46-51. 被引量：2
5程春雷,夏家莉,曹重华,李光泉,曹中华.关系概念的Web文本主题抽取模型研究[J].小型微型计算机系统,2016,37(5):972-977. 被引量：1
6杨春艳,潘有能,赵莉.基于语义和引用加权的文献主题提取研究[J].图书情报工作,2016,60(9):131-138. 被引量：9
7蒋世银.基于关联数据的科研机构评价指标权重计算方法研究[J].图书情报工作,2016,60(16):110-115. 被引量：9
8郭旭,祁瑞华.作者身份识别中不规范文本特征选择方法的研究[J].现代图书情报技术,2016(11):27-33. 被引量：3
9陈俊颖,周顺风,闵华清.用于垃圾邮件识别的“词频-筛”混合特征选择方法[J].华南理工大学学报（自然科学版）,2017,45(3):82-88.
10陈杨,周枫,周兰江,严馨.融合多特征的越南语新闻文本词汇链构建方法[J].计算机工程与设计,2017,38(6):1536-1540.

1李新仕,王天江,刘芳.基于高斯混合模型的视频运动对象自动分割算法[J].计算机科学,2009,36(1):205-207. 被引量：7
2李忠慧.基于Z的适配器模式形式化描述[J].福建电脑,2008,24(7):80-80.
3王小林,陆骆勇,邰伟鹏.基于信息熵的新的词语相似度算法研究[J].计算机技术与发展,2015,25(9):119-122. 被引量：3
4段立娟,高文,马继勇.Rich GetRicher——图像检索中的一种自适应的相关反馈方法[J].计算机研究与发展,2001,38(8):960-965. 被引量：3
5许方芳,郑诚,戈明东.语义网中的本体映射研究[J].计算机与现代化,2008(2):36-39. 被引量：2
6陈世福,潘金贵,陈彬,郑宇辉.一种概念获取算法CAP及其应用[J].计算机学报,1991,14(8):586-595. 被引量：3
7余蕾,曹存根.基于Web语料的概念获取系统的研究与实现[J].计算机科学,2007,34(2):161-165. 被引量：6
8孙学岩.熵编码的压缩编码原理与方法[J].潍坊学院学报,2004,4(6):86-87. 被引量：3
9肖升,何炎祥.改进的潜在语义分析中文摘录方法[J].计算机应用研究,2012,29(12):4507-4511. 被引量：8
10邱莉榕,翁彧,赵小兵.藏文语义本体中的上下位关系模式匹配算法[J].中文信息学报,2011,25(4):45-49. 被引量：8

软件学报

2008年第9期

浏览历史

内容加载中请稍等...

基于信息论的潜在概念获取与文本聚类被引量：7

参考文献1

二级参考文献2

共引文献27

同被引文献36

引证文献7

二级引证文献14

相关作者

相关机构

相关主题

浏览历史

基于信息论的潜在概念获取与文本聚类 被引量：7

参考文献1

二级参考文献2

共引文献27

同被引文献36

引证文献7

二级引证文献14

相关作者

相关机构

相关主题

浏览历史

基于信息论的潜在概念获取与文本聚类被引量：7