基于词条之间关联关系的文档聚类被引量：1

Document clustering based on association relations between terms

下载PDF

导出

摘要针对现有的空间向量模型在进行文档表示时忽略词条之间的语义关系的不足,提出了一种新的基于关联规则的文档向量表示方法。在广义空间向量模型中分析词条的频繁同现关系得到词条同现语义,根据关联规则分析词条之间的关联相关性,挖掘出文档中词条之间的潜在关联语义关系,将词条同现语义和关联语义线性加权对文档进行表示。实验结果表明,与BOW模型和GVSM模型相比,采用关联规则文档向量表示的文档聚类结果更准确。 For the existing vector space model to omit making insufficient semantic relationships between terms in documents representation, this paper proposes a novel document vector representation approach based association relationship.In terms of generalized vector space model, it captures the frequent co-occurrence semantic relations between terms, and then analyzes the correlation between related terms based on association rules, digging out the potential relevance of semantic relationships between terms in the document. It represents documents with linear weighting co-occurrence semantic relations with association semantic. Experimental results show that, compared with the BOW model and GVSM model, the clustering results using association rules document vector represented are more accurate.

作者任建华沈炎彬孟祥福王伟

机构地区辽宁工程技术大学电子与信息工程学院

出处《计算机工程与应用》 CSCD 北大核心 2016年第7期86-90,共5页 Computer Engineering and Applications

基金国家青年科学基金(No.61003162) 辽宁省教育厅一般项目(No.L2013131)

关键词文档聚类关联关系词条同现文档相似度潜在语义 document clustering association terms co-occurrence document similarity latent semantic

分类号 TP311.13 [自动化与计算机技术—计算机软件与理论]

引文网络
相关文献

参考文献16

1Salton G,Mcgill M J.Introduction to modern information retrieval[M].New York:Mc Graw-Hill,1983.
2张明卫,刘莹,张斌,朱志良.一种基于概念的数据聚类模型[J].软件学报,2009,20(9):2387-2396. 被引量：15
3Wong S K M,Ziarko W,Wong P C N.Generalized vector spaces model in information retrieval[C]//Proceedings of the 8th Annual International ACM SIGIR Conference on Research and Development in Information Retrieval,1985:18-25.
4Billhardt H,Borrajo D,Maojo V.A context vector model for information retrieval[J].J Am Soc Info Sci Technol,2002,53(3):236-249.
5Kalogeratos A,Likas A.Text document clustering using global term context vectors[J].Knowledge and Information Systems,2012,31(3):455-474.
6Cai D,He X,Han J.Locally consistent concept factorization for document clustering[J].IEEE Trans on Knowl Data Eng,2011,23(6):902-913.
7黄承慧,印鉴,侯昉.一种结合词项语义信息和TF-IDF方法的文本相似度量方法[J].计算机学报,2011,34(5):856-864. 被引量：221
8俞辉.基于改进LSA的文档聚类算法[J].小型微型计算机系统,2009,30(5):963-966. 被引量：5
9常鹏,冯楠,马辉.一种基于词共现的文档聚类算法[J].计算机工程,2012,38(2):213-214. 被引量：15
10Billionaire J A,Levy J P.Extracting semantic representations from word co-occurrence statistics:a computational study[J].Behavior Research Methods,2007,39(3):510-526.

二级参考文献63

1白硕.不完全知识下的概念聚类[J].计算机学报,1995,18(6):409-416. 被引量：6
2耿焕同,蔡庆生,于琨,赵鹏.一种基于词共现图的文档主题词自动抽取方法[J].南京大学学报（自然科学版）,2006,42(2):156-162. 被引量：30
3张敏,耿焕同,王煦法.一种利用BC方法的关键词自动提取算法研究[J].小型微型计算机系统,2007,28(1):189-192. 被引量：19
4Fung B C M,Wang K,Ester M.Hierarchical document clustering//Wang John ed.The Encyclopedia of Data Warehousing and Mining,idea Group.2005:970-975.
5Salton G.The SMART Retrieval System-Experiments in Automatic Document Processing.Englewood Cliffs,New Jersey:Prentice Hall Inc,1971.
6Wang Y,Julia H.Document clustering with semantic analysis//Proceedings of the 39th Hawaii International Conferences on System Sciences.Hawaii,US,2006:54-63.
7Hotho A,Staab S,Stumme G.Wordnet improves text document clustering//Proceedings of the Semantic Web Workshop at SIGIR-2003,26th Annual International ACM SIGIR Conference.Toronto,Canada,2003:541-550.
8Hall P,Dowling G.Approximate string matching.Computing Survey,1980,12(4):381-402.
9Coelho T,Calado P,Souza L,Ribeiro-Neto B,Muntz R.Image retrieval using multiple evidence ranking.IEEETransactions on Knowledge and Data Engineering,2004,16(4):408-417.
10Ko Y,Park J,Seo J.Improving text categorization using the importance of sentences.lnformation Processing and Management,2004,40(1):65-79.

共引文献275

1杨一,邹昀瑾.以机器学习应对信息“爆炸”时代:公共管理研究的降维可视化探析[J].中国行政管理,2021(1):105-113. 被引量：15
2杨捷,范美位,罗成臣,张思路.面向电力工单文本的服务失误识别[J].云南大学学报（自然科学版）,2020,42(S02):32-37. 被引量：1
3龚丽娟,王昊,张紫玄,朱立平.Word2Vec对海关报关商品文本特征降维效果分析[J].数据分析与知识发现,2020,4(2):89-100. 被引量：7
4赵增涛,张豪,余益龙.应用于电网资产模型搜索的交叉权积文本相似度计算方法[J].水利水电技术（中英文）,2020,51(S02):209-214.
5孙红,黎铨祺,赵娜.基于双层树状支持向量机的观点挖掘与倾向分析[J].智能计算机与应用,2021,11(3):44-47. 被引量：3
6王鹏,郑贵省,郭强,贾蓓.基于网络爬虫的民用运力数据获取[J].军事交通学院学报,2020,22(1):87-90. 被引量：1
7高飞,鱼江,任芳,黄保瑞,次旺多吉.四维文档向量模型的k-means新闻文本聚类算法[J].西藏大学学报（社会科学版）,2013,28(4):109-112.
8尹红健.数据挖掘在学生行为智能分析中的应用研究[J].信息技术,2010,34(7):152-153.
9胡永丽,龚沛曾.基于模糊C均值和改进的LSA的文档聚类研究[J].计算机技术与发展,2010,20(12):126-129. 被引量：5
10赵学锋,陈传红,陈获帆,张金隆,周敏.基于文本聚类的电子零售商信誉维度发现研究[J].情报学报,2011,30(1):69-75. 被引量：4

同被引文献9

1李涤尘.电子病历的优势不足与改善方法[J].包头医学,2009,33(2):126-127. 被引量：4
2魏芊汇.关于结构化向量空间模型的研究[J].电子技术与软件工程,2016(16):166-166. 被引量：2
3官琴,邓三鸿,王昊.中文文本聚类常用停用词表对比研究[J].数据分析与知识发现,2017,1(3):72-80. 被引量：46
4成波,关雪峰,向隆刚,高萌,吴华意.一种面向时空对象及其关联关系动态变化表达的概念数据模型[J].地球信息科学学报,2017,19(11):1415-1421. 被引量：17
5耿巧曼,徐小力,吴国新,夏欣雨.一种改进空间向量模型的东巴文本表示方法[J].北京信息科技大学学报（自然科学版）,2018,33(3):57-60. 被引量：3
6刘晓敏,张艳丽,聂磊.一种基于K均值的网络文本信息挖掘算法设计[J].电脑知识与技术,2017,13(8X):1-2. 被引量：1
7文娜,张英卓,陈达.多粒度时空对象属性关联关系的组成与交互式构建方法[J].地理信息世界,2018,25(2):17-22. 被引量：4
8刘斌,黄铁军,程军,高文.一种新的基于统计的自动文本分类方法[J].中文信息学报,2002,16(6):18-24. 被引量：48
9杨晓敏,严斌宇,李康丽,苏冰山.一种基于词袋模型的图像分类方法[J].太赫兹科学与电子信息学报,2014,12(5):726-730. 被引量：7

引证文献1

1曾红武,王佳.基于关联关系的电子病历聚类研究[J].中华医学图书情报杂志,2018,27(5):42-45. 被引量：1

二级引证文献1

1胡佳慧,赵琬清,方安,任慧玲.基于医疗大数据的临床文本处理与知识发现方法研究[J].中国数字医学,2020,15(7):11-13. 被引量：14

1周沁,丁秋林,李怡平,董名垂.Latent Supportive Utility of Irrelevant Attributes in Feature Selection[J].Journal of Southwest Jiaotong University(English Edition),2008,16(1):10-17.
2刘明昌.关联规则挖掘算法研究[J].山西青年,2016,0(15):98-98.
3张力生,年欢,宋辉,雷大江.领域模型中关联语义的描述逻辑表示与应用[J].软件,2015,36(6):66-74. 被引量：6
4党齐民,吕冬煜.基于词关联语义的文本分类研究[J].计算机应用,2004,24(4):62-63. 被引量：6
5姜伟,钟志农,吴烨,陈荦,李杰.基于综合支持度的广义空间实体关系特征词提取方法[J].计算机与现代化,2014(8):30-33. 被引量：1
6高俊波,栾翠菊,王晓峰.新的关键字提取算法研究[J].计算机工程与设计,2008,29(3):765-767. 被引量：6
7万建成,刘嵩.对象组装及其关联语义的自动维持[J].软件学报,2002,13(5):1013-1017. 被引量：2
8马宇驰,杨宁,谢琳,李川,唐常杰.基于轨迹时空关联语义和时态熵的移动对象社会角色发现[J].计算机研究与发展,2012,49(10):2153-2160. 被引量：8
9陈天莹,苏智慧.基于语义推理的文本信息关联关系分析技术[J].电讯技术,2014,54(1):68-73. 被引量：7
10陈频,王周敬.基于语义分析和外延匹配的文档分类方法[J].福建电脑,2005,21(10):44-45.

计算机工程与应用

2016年第7期

浏览历史

内容加载中请稍等...

基于词条之间关联关系的文档聚类被引量：1

参考文献16

二级参考文献63

共引文献275

同被引文献9

引证文献1

二级引证文献1

相关作者

相关机构

相关主题

浏览历史

基于词条之间关联关系的文档聚类 被引量：1

参考文献16

二级参考文献63

共引文献275

同被引文献9

引证文献1

二级引证文献1

相关作者

相关机构

相关主题

浏览历史

基于词条之间关联关系的文档聚类被引量：1