基于词共现的文档表示模型被引量：8

A Co-occurrence based Vector Space Model for Document Indexing

下载PDF

导出

摘要文档表示模型是文本自动处理的基础,是将非结构化的文本数据转化为结构化数据的有效手段。然而,目前通用的空间向量模型(Vector Space Model,VSM)是以单个的词汇为基础的文档表示模型,因其忽略了词间的关联关系,导致文本挖掘的准确率难以得到很大的提升。该文以词共现分析为基础,讨论了文档主题与词的二阶关系之间的潜在联系,进而定义了词共现度及与文档主题相关度的量化计算方法,利用关联规则算法抽取出文档集上的词共现组合,提出了基于词共现组合的文档向量主题表示模型(Co-occurrence Term based Vector SpaceModel,CTVSM),定义了基于CTVSM的文档相似度。实验表明,CTVSM能够准确反映文档之间的相关关系,比经典的文档向量空间模型(Vector Space Model,VSM)具有更强的主题区分能力。 This paper presents a novel co-occurrence terms based vector space model（CTVSM） for automatic document indexing which is inspired by the Vector Space Model（VSM）.In contrast to the traditional VSM which presents the document with a bag of words regardless the position of these words in the texts,the proposed technique uses the co-occurrence terms instead of the single term.Firstly the pairs of obvious co-occurrence terms are extracted from the document set by association rules,and then the similarity between documents is also defined in this paper.The experiments indicate substantial and consistent improvements of the CTVSM over standard VSM.

作者常鹏冯楠

机构地区天津大学管理学院天津大学网络与信息中心

出处《中文信息学报》 CSCD 北大核心 2012年第1期51-57,共7页 Journal of Chinese Information Processing

基金国家自然科学基金资助项目(70901054)

关键词文档建模词共现文档相似度文本挖掘 document model co-occurrence document similarity text mining

分类号 TP391 [自动化与计算机技术—计算机应用技术]

引文网络
相关文献

参考文献11

1Salton G, Wong A, Yang C S. A vector space model for automatic indexing [C]//Communications of the ACM, 1975, Vol. 18 (11): 613-620.
2Feldman R, Aumann Y, et al. Text Mining at the Term Level[C]//Proceedings of the 2nd European Symposium on Principles of Data Mining and Knowl- edge Discovery. Nantes, France, 1998, 23-26.
3Hammouda K, Kamel M. Efficient Phrase-based Doc ument Indexing for Web Document Clustering [J]. IEEE Transactions on Knowledge and Data Engineer- ing, 2004, 16(10): 1279-1296.
4高茂庭,王正欧.基于文档标引图模型的文本相似度策略[J].计算机工程,2008,34(7):19-22. 被引量：4
5潘谦红,王炬,史忠植.基于属性论的文本相似度计算[J].计算机学报,1999,22(6):651-655. 被引量：63
6晋耀红.基于语境框架的文本相似度计算[J].计算机工程与应用,2004,40(16):36-39. 被引量：26
7曹恬,周丽,张国煊.一种基于词共现的文本相似度计算[J].计算机工程与科学,2007,29(3):52-53. 被引量：14
8张燕平,史科,徐庆鹏,谢飞.基于词共现模型的垃圾邮件过滤方法研究[J].中文信息学报,2009,23(6):61-66. 被引量：4
9贾西平,彭宏,郑启伦,石时需,江焯林.基于主题的文档检索模型[J].华南理工大学学报（自然科学版）,2008,36(9):37-42. 被引量：4
10Thomas Hofmann. Unsupervised Learning by Proba- bilistic Latent Semantic Analysis[J]. Machine Learn- ing,2001, 42: 177-196.

二级参考文献43

1万小军,彭宇新.A New Retrieval Model Based on TextTiling for Document Similarity Search[J].Journal of Computer Science & Technology,2005,20(4):552-558. 被引量：2
2王斌,潘文锋.基于内容的垃圾邮件过滤技术综述[J].中文信息学报,2005,19(5):1-10. 被引量：129
3William W. Cohen. Fast effective rule induction[C]// Machine Learning Proceedings of the Twelfth International Conference on Machine Learning. Tahoe City, California, USA: Morgan Kaufmann, 1995: 115-123.
4X. Carreras, L. Marquez. Boosting Trees for Anti Spam Email Filtering [C]//Proceedings of Euro Conference Recent Advances in NLP (RANLP-2001). 2001: 58-64.
5I. Androutsopoulos, G. Paliouras, V. Karkaletsis, etc, Learning to Filter Spam E-Mail: A Comparison of a Naive Bayesian and a Memory-Based Approach[C]// Proc. 4th European Conference on Principles and Practice of Knowledge Discovery in Databases (PKDD 2000). 2000: 1-13.
6H. Drueker, D. Wu, V. N. Vapnik, Support Vector Machines for Spam Categorization [ J/OL ]. IEEE Transactions on Neural Networks, 1999, 20 (5) : 1048-1054.
7M. Sahami, S. Dumais, D. Heckerman etc, A Bayesian approach to filtering junk e-mail [C]//Proc. of AAAI Workshop on Learning for Text Categorization. 1998: 55-62.
8Peat H J, Willet P. The limitations of term co-occurrence data for query expansion in document retrieval systems [J/OL]. JASIS, 1991, 42(5):378-383.
9G Salton, A Wong, C S Yang. On the specification of term values in automatic indexing [J/OL]. Journal of Documentation, 1973, 29(4) :351-372.
10Y. Yang. A Comparative Study on Feature Selection in Text Categorization [C]//Proceeding of the Fourteenth International Conference on Machine Learning (ICML'97) . 1997, 412-420.

共引文献101

1彭京,杨冬青,唐世渭,王腾蛟,高军.基于概念相似度的文本相似计算[J].中国科学（F辑:信息科学）,2009,39(5):534-544. 被引量：17
2晋耀红.基于语境框架的文本相似度计算[J].计算机工程与应用,2004,40(16):36-39. 被引量：26
3王浩鸣,张曰贤,吴志军,史西兵.基于智能Agent的中文元搜索引擎模型研究[J].计算机工程与应用,2005,41(31):154-156. 被引量：6
4周如旗.个性化远程学习的形式化建模方法研究[J].广东教育学院学报,2005,25(5):99-102.
5李广原,冯嘉礼.基于属性坐标的文本信息检索模型[J].广西科学院学报,2005,21(4):225-227. 被引量：1
6许维.企业EPR实施分析与企业流程重组[J].合作经济与科技,2006(08S):30-31. 被引量：1
7于凤,郑德权,赵铁军,李生.基于上下文多元信息的文档相似度计算研究[J].哈尔滨工程大学学报,2006,27(B07):397-402. 被引量：2
8程玉柱,邬书跃.基于部件的文本相似度计算[J].计算机工程与设计,2006,27(18):3444-3446. 被引量：4
9王生发,顾新建,郭剑锋,马军,战洪飞.面向产品设计的知识主动推送研究[J].计算机集成制造系统,2007,13(2):234-239. 被引量：38
10黄果,周竹荣.基于领域本体的概念语义相似度计算研究[J].计算机工程与设计,2007,28(10):2460-2463. 被引量：67

同被引文献82

1张楠,丁华福.基于共现词语的特征选取在文本分类中的研究[J].科技资讯,2006,4(35):131-132. 被引量：2
2吴光远,何丕廉,曹桂宏,聂颂.基于向量空间模型的词共现研究及其在文本分类中的应用[J].计算机应用,2003,23(z1):138-140. 被引量：23
3格桑居冕.藏语复句的句式[J].中国藏学,1996(1):132-141. 被引量：10
4赵军,金千里,徐波.面向文本检索的语义计算[J].计算机学报,2005,28(12):2068-2078. 被引量：28
5宋韶旭,李春平.基于非对称相似度的文本聚类方法[J].清华大学学报（自然科学版）,2006,46(7):1325-1328. 被引量：7
6史庆伟,赵政,朝柯.一种基于后缀树的中文网页层次聚类方法[J].辽宁工程技术大学学报（自然科学版）,2006,25(6):890-892. 被引量：11
7刘华.基于关键短语的文本分类研究[J].中文信息学报,2007,21(4):34-41. 被引量：14
8刘知远.基于文档主题结构的关键词抽取方法研究[D].北京:清华大学,2011.
9Salton G, Wong A, Yang C S. A Vector Space Model for Automatic Indexing[J]. Communications of the ACM, 1975, 18(11): 613-620.
10Calvo R A, Partridge M. A Comparative Study of Principal Component Analysis Techniques[C]//Proceedings of the 9th Australian Conference on Neural Networks. Brisbane, Australia: [s. n.], 1998: 121-125.

引证文献8

1唐守忠,齐建东.一种结合关键词与共现词对的向量空间模型[J].计算机工程与科学,2014,36(5):971-976. 被引量：4
2徐涛,于洪志,加羊吉.基于改进卡方统计量的藏文文本表示方法[J].计算机工程,2014,40(6):185-189. 被引量：4
3高永兵,熊振华.基于LDA的专业个人微博事件提取[J].内蒙古科技大学学报,2015,34(3):257-261.
4刘娇,崔荣一,赵亚慧.基于共现词映射的中英韩跨语种文档相似度计算[J].中文信息学报,2018,32(3):55-63.
5和志强,杨建,王丽鹏.基于词共现的文本分类算法[J].河北省科学院学报,2018,35(3):1-6.
6牛奉高,冯世佳,黄琛.基于CLSVSM的惩罚性矩阵分解及其在文本主题聚类中的应用[J].计算机与现代化,2021(5):66-72. 被引量：1
7张国防,王鑫,徐建民.基于主题词共现的文档非对称关系量化研究[J].数据分析与知识发现,2023,7(3):110-120. 被引量：1
8徐小艳,吕伟,张贝贝,周帅鹏,魏嵬.异源在线网络话题早发现及演化特征研究[J].工程数学学报,2023,40(3):341-354.

二级引证文献10

1于福超,卢廷钧,王裴岩,张桂平.一种面向情报服务的交互式主题扩展方法[J].沈阳航空航天大学学报,2016,33(2):59-64.
2江涛,于洪志.一种面向藏文聚类的文本建模方法[J].西北民族大学学报（自然科学版）,2016,37(3):24-28. 被引量：1
3张小川,于旭庭,张宜浩.一种改进的向量空间模型的文本表示算法[J].重庆理工大学学报（自然科学）,2017,31(1):87-92. 被引量：8
4陈庄,杨春玉.面向监理工程的文本分类技术研究[J].重庆理工大学学报（自然科学）,2017,31(10):187-191. 被引量：1
5和志强,王丽鹏,张鹏云.基于词共现的关键词提取算法研究与改进[J].电子技术与软件工程,2018(1):144-146. 被引量：1
6李玖一,于洪志,徐涛.藏文文本聚类及其相关技术综述[J].广西科学院学报,2018,34(1):39-45.
7吴龙峰,于瓅,王峰.向量空间模型的文本分类研究进展与应用[J].宿州学院学报,2019,34(12):69-72. 被引量：6
8孙冰,沈瑞.基于在线评论的产品需求偏好判别与客户细分——以智能手机为例[J].中国管理科学,2023,31(3):217-227. 被引量：7
9马晶晶,肖萌,陈树广.情感视域下突发公共事件网络舆情情感分析与主题演化研究[J].情报探索,2023(8):61-68.
10韦灵,卢光云,唐爱龙.基于自然语言处理的海量文本潜在主题聚类方法[J].自动化与仪器仪表,2024(9):304-308.

1史科,宣国庆.基于共现词对的文档表示方法研究[J].阜阳师范学院学报（自然科学版）,2012,29(4):60-63.
2申绍勇.用UML建模工具为XML文档建模的方法[J].计算机系统应用,2002,11(4):76-77.
3王桐,刘大昕.一种基于改进粒子群优化的XML结构聚类方法[J].小型微型计算机系统,2007,28(5):871-875. 被引量：8
4蒋辉,阳小华,刘志明,闫仕宇,马家宇,李晓昀,李萌,周座.基于一种文档表示模型的站内搜索引擎设计与实现[J].南华大学学报（自然科学版）,2013,27(4):77-81. 被引量：1
5白秋产,金春霞,章慧,周海岩.词共现文本主题聚类算法[J].计算机工程与科学,2013,35(7):164-168. 被引量：13
6申绍勇.用UML建模工具为XML文档建模方法的研究[J].中山大学研究生学刊（自然科学与医学版）,2002,23(1):1-4.
7杨清泉,李卫疆.基于文摘的SLDA主题模型[J].价值工程,2016,35(19):231-234.
8何海江,凌云.由Logistic回归识别Web社区的垃圾评论[J].计算机工程与应用,2009,45(23):140-143. 被引量：11
9邢玉娟,谭萍,曹晓丽.基于多约简Fisher-VSM和SVM的文本情感分类[J].计算机应用与软件,2016,33(9):301-305. 被引量：1
10郝文宁,冯波,陈刚,靳大尉,赵水宁.基于领域本体的文档向量空间模型构建[J].计算机应用研究,2013,30(3):764-767. 被引量：8

中文信息学报

2012年第1期

浏览历史

内容加载中请稍等...

基于词共现的文档表示模型被引量：8

参考文献11

二级参考文献43

共引文献101

同被引文献82

引证文献8

二级引证文献10

相关作者

相关机构

相关主题

浏览历史

基于词共现的文档表示模型 被引量：8

参考文献11

二级参考文献43

共引文献101

同被引文献82

引证文献8

二级引证文献10

相关作者

相关机构

相关主题

浏览历史

基于词共现的文档表示模型被引量：8