向量空间模型文本建模的语义增量化改进研究被引量：6

Semantic Incremental Improvement on Vector Space Model for Text Modeling

导出

摘要【目的】基于语义增量对向量空间模型文本分类方法进行改进,并进行实验验证。【方法】梳理目前文本表示中语义向量引入和改进的相关研究,提出文本的语义向量表示实现框架。根据主题词和词汇分别与领域本体中概念之间的映射关系,构建概念层次树和定位词汇,计算概念语义相似度,结合语义增量实现文本的语义向量构建。【结果】通过文本分类的对比实验发现,本文所提方法可行且有效,在宏平均准确率、宏平均召回率和宏平均F_1方面优于其他方法。【局限】在向量空间模型基础上的改进,语义信息的表达不够充分,应继续探索文本建模的真正语义化实现方法;应对多种类型数据进行实验验证,以提高方法的适用性。【结论】探索原始向量空间模型的语义化问题,对当前文本分类及其语义关联等研究具有现实意义。 [Objective] This paper improves the methods of text classification based on VSM using semantic increment, and the model is verified by experiments. [Methods] Combing the studies of semantic vector and its improvement in text representation, this paper improves VSM based on semantic increment, and proposes an implementation frame of semantic vector representation of texts. Furthermore, based on the mapping relationships between words and concepts in domain Ontology, the construction of concept hierarchy tree and words positioning are constructed, semantic similarity of concepts is calculated, and the semantic vector model of texts＇ representation is achieved. [Results] The comparative experiments of texts classification demonstrate that the proposed method is feasible and effective, and the performance of this method is better than traditional methods from the perspectives of Precison, Recall and F1-Measure. [Limitations] The description of text semantic information is not good enough, and it is necessary to explore the authentic semantic methods in text modeling. In addition, more comparative experiments on several datasets should be conducted in order to obtain more accurate results. [Conclusions] The semantic improvement on traditional VSM is explored which is important for further text classification and semantic association.

作者胡吉明肖璐

机构地区武汉大学信息资源研究中心

出处《现代图书情报技术》 CSSCI 北大核心 2014年第10期49-55,共7页 New Technology of Library and Information Service

基金国家自然科学基金青年项目"社会网络环境下基于用户-资源关联的信息推荐研究"(项目编号:71303178) 武汉大学人文社会科学研究项目"社会网络环境下基于关系社区发现的用户建模研究"(项目编号:274013)的研究成果之一

关键词文本建模语义向量空间模型语义增量语义相似度 Text modeling Semantic Vector Space Model Semantic increment Semantic similarity

分类号 TP391.1 [自动化与计算机技术—计算机应用技术]

引文网络
相关文献

参考文献27

1Salton G, Wong A, Yang C S. A Vector Space Model for Automatic Indexing [J]. Communications of the ACM, 1975, 18(1 1): 613-620.
2Liu G Z. The Semantic Vector Space Model (SVSM): A Text Representation and Searching Technique [C]. In: Proceedings of the 27th Hawaii International Conference on System Science. 1994:928-937.
3杨玉珍,刘培玉,姜沛佩.向量空间模型中结合句法的文本表示研究[J].计算机工程,2011,37(3):58-60. 被引量：6
4Chang B, Dho H, Lee Y, et al. Concept Based Learning Contents Retrieval by Using Extended Vector Space Model with Ontology [J]. Information-an International Interdisci- plinary Journal, 2012, 15(2): 793-804.
5Tasi C, Huang Y, Liu C, et al. Applying VSM and LCS to Develop an Integrated Text Retrieval Mechanism [J]. Expert Systems with Applications, 2012, 39(4): 3974-3982.
6Virpioja S, Paukkeri M, Tripathi A, et al. Evaluating Vector Space Models with Canonical Correlation Analysis [J].Natural Language Engineering, 2012, 18(3): 399-436.
7Nasir J A, Varlamis I, Karim A, et al. Semantic Smoothing for Text Clustering [J]. Knowledge-Based Systems, 2012, 54: 216-229.
8Sbattella L, Tedesco R. A Novel Semantic Information Retrieval System Based on a Three-level Domain Model [J]. Journal of Systems and Software, 2013, 86(5): 1426-1452.
9Liu G Z. Semantic Vector Space Model: Implementation and Evaluation [J]. Journal of the American Society for Information Science, 1997, 48(5): 395-417.
10Zadeh P D H, Reformat M Z. Assessment of Semantic Similarity of Concepts Defined in Ontology [J]. Information Sciences, 2013, 250: 21-39.

二级参考文献47

1费爱蓉,穆斌,蒋建国.基于本体的XML数据集成及映射关系的研究[J].合肥工业大学学报（自然科学版）,2004,27(7):804-914. 被引量：5
2董振东.语义关系的表达和知识系统的建造[J].语言文字应用,1998(3):79-85. 被引量：58
3陈文亮,朱靖波,朱慕华,姚天顺.基于领域词典的文本特征表示[J].计算机研究与发展,2005,42(12):2155-2160. 被引量：21
4YE Hui-min,CHENG Wei,DAI Guan-zhong.Design and Implementation of On-Line Hot Topic Discovery Model[J].Wuhan University Journal of Natural Sciences,2006,11(1):21-26. 被引量：14
5徐德智,王怀民.基于本体的概念间语义相似度计算方法研究[J].计算机工程与应用,2007,43(8):154-156. 被引量：34
6李鹏,陶兰,王弼佐.一种改进的本体语义相似度计算及其应用[J].计算机工程与设计,2007,28(1):227-229. 被引量：39
7李峰,李芳.中文词语语义相似度计算——基于《知网》2000[J].中文信息学报,2007,21(3):99-105. 被引量：105
8夏天.汉语词语语义相似度计算研究[J].计算机工程,2007,33(6):191-194. 被引量：63
9ALLAN J, CARBONELL J, DODDINGTON G, et al. Topic detection and tracking pilot study : final report [ C ] // Proceedings of the DARPA Broadcast News Transcription and Understanding Workshop. Virginia: Lansdowne, 1998: 194-218.
10LEEK T, SCHWARTZ R M, SISTA S. Probabilistic approaches to topic detection and tracking [ C ] //Topic Detection and Tracking: Event-based Information Organization. Kluwer Academic : Massachusetts, 2002 : 67-83.

共引文献52

1王俊超,刘晨帆,徐明世,纪山,兰伟.语义相似性度量技术在地名匹配研究中的应用[J].辽宁工程技术大学学报（自然科学版）,2012,31(6):871-874. 被引量：6
2肖庆,焦健.网络安全策略与措施的语义一致性研究[J].计算机技术与发展,2011,21(8):220-222.
3席程成,李文化.基于精准农户信息的农业文本数据自动挖掘模型[J].热带农业科学,2011,31(9):87-89.
4黄先珍,杨玉珍,刘培玉.信息过滤中基于统计与规则的关键词抽取研究[J].计算机工程,2012,38(2):57-59. 被引量：9
5胡月红,刘萍.基于本体概念的专长表示研究[J].图书情报工作,2012,56(4):17-21. 被引量：7
6陈勇,王昌明.基于自然语言理解的故障诊断方法研究[J].计算机测量与控制,2012,20(3):610-613. 被引量：2
7廖开际,杨彬彬.基于加权语义网的文本相似度计算的研究[J].情报杂志,2012,31(7):182-186. 被引量：10
8唐晓波,王洪艳.基于潜在语义分析的微博主题挖掘模型研究[J].图书情报工作,2012,56(24):114-119. 被引量：31
9梁士金.VSM信息检索中的数据稀疏问题分析与规避策略[J].图书情报工作,2013,57(1):142-146. 被引量：3
10刘薇,刘柏嵩,王洋洋.基于知识元的数字图书馆学科标引研究[J].宁波大学学报（理工版）,2013,26(1):100-103. 被引量：6

同被引文献80

1郝占刚,王正欧.基于潜在语义索引和遗传算法的文本特征提取方法[J].情报科学,2006,24(1):104-107. 被引量：16
2翟凤文,赫枫龄,左万利.字典与统计相结合的中文分词方法[J].小型微型计算机系统,2006,27(9):1766-1771. 被引量：41
3陈艳莹,原毅军.治理机制与企业网络的规模:嵌入性视角的研究[J].中国工业经济,2006(9):102-108. 被引量：15
4秦春秀,赵捧未,刘怀亮.词语相似度计算研究[J].情报理论与实践,2007,30(1):105-108. 被引量：30
5王敏,王卓甫,肖建红.建设工程管理的合作博弈决策[J].统计与决策,2007,23(16):65-67. 被引量：7
6张树雄.雷达结构与工艺[M].北京:电子工业出版社,2007.
7BRANDT S C, MORBACH J, MICHALISM, et al. An on- tology-based approach to knowledge management in design processes[J]. Computers Chemical Engineering,2008,32(1/ 2): 320-342,.
8STUDER R, BENJAMINS V R, FENSEL D. Knowledge management and electronic commeree[M]. Berlin, Germany: Springer-Verlag,2001 : 12-13.
9ZHANG X, HOU X, CHEN X, et al. Ontology-based seman tic retrieval for engineering domain knowledge[J]. Neurocom puting, 2013,116(9) : 382-391.
10LIU X, ZHOU Y, ZHENG R. Measuring semantic similari- ty in wordnet[C]//Proceedings of the 6th International Con- ference on Machine Learning and Cybernetics. Piscataway, N.J. ,USAIEEE Computer Soeiety,2007:3431-3435.

引证文献6

1方伟光,郭宇,廖文和,王发麟.基于本体的复杂产品设计知识表示和标注方法[J].计算机集成制造系统,2016,22(9):2063-2071. 被引量：21
2汤洋,汤敏倩.网络招聘信息中职业类型与专业领域的情报分析[J].情报杂志,2017,36(6):72-77. 被引量：11
3徐建民,许彩云.基于文本和公式的科技文档相似度计算[J].数据分析与知识发现,2018,2(10):103-109. 被引量：7
4隗玲,许海云,刘春江,李婧,方曙.技术领域主题发现研究——以基因工程疫苗领域为例[J].数字图书馆论坛,2017(1):37-45. 被引量：5
5张晓宇,王永滨,吴林.基于文本加权词共现的跨语言文本相似度分析[J].软件导刊,2020,19(2):92-95. 被引量：2
6严斌,郭超群,张兵.基于VSM的高校基建合作网络分类及其结构形态分析[J].工程管理学报,2020,34(4):40-44.

二级引证文献46

1陈玲,林平,段尧清.产业链视角下结合K-means和LDA的专利技术主题挖掘与趋势分析——以虚拟现实技术为例[J].知识管理论坛,2020(3):135-146. 被引量：5
2刘菲.基于加权层次子树模型的XML文档相似度的计算[J].中国科技纵横,2019,0(14):39-40.
3刘庭煜,汪惠芬,贲可存,柳林燕,徐骏善.基于多维情境本体匹配的产品开发过程业务产物智能推荐技术[J].计算机集成制造系统,2016,22(12):2727-2750. 被引量：11
4桑成,程健,史一明.闭环全生命周期管理系统中知识集成与语义标注[J].计算机应用,2017,37(6):1728-1734.
5王庆林,薛惠锋.支持复杂产品系统设计的虚拟知识流生成算法[J].计算机工程与应用,2017,53(22):29-34.
6王亚辉,余隋怀,陈登凯,初建杰,王淑侠.案例驱动的协同设计知识管理模型及实现[J].计算机集成制造系统,2018,24(3):741-751. 被引量：6
7罗仕鉴,董烨楠.面向文化创意设计的器物知识集成与管理[J].计算机集成制造系统,2018,24(4):964-977. 被引量：13
8刘畅.基于Web文本挖掘的数据分析岗位需求研究[J].中国管理信息化,2018,21(10):76-79. 被引量：3
9李聪,樊蓓蓓.基于本体的产品再设计知识建模与重用方法[J].工业控制计算机,2018,31(6):133-134.
10陈帅帅,付鹏斌,杨慧荣.基于语义相似度的主观题自动阅卷系统设计[J].自动化与仪器仪表,2018,0(9):59-62.

1王方,成颖,柯青.基于混合模型的文本聚类研究综述[J].情报学报,2015,34(5):536-548.
2马文宁.语义Web服务的相似度计算研究[J].电脑知识与技术,2013,9(8X):5513-5514. 被引量：1
3唐晓丽,白宇,张桂平,蔡东风.一种面向聚类的文本建模方法[J].山西大学学报（自然科学版）,2014,37(4):595-600. 被引量：8
4张晓孪,王西锋.FCA中的概念语义相似度计算[J].现代图书情报技术,2007(3):51-54. 被引量：5
5龙银杏,阳许军.用向量空间模型对运营商投诉文本建模的研究[J].信息技术,2016,40(12):121-124. 被引量：1
6郑诚,代宁.一种短文本主题特征的改进方法[J].工业控制计算机,2015,28(8):110-112.
7卓涛,詹颖.改进人工蜂群算法的云计算资源调度模型[J].微电子学与计算机,2014,31(7):147-150. 被引量：24
8陈英芝.基于语义的中文自动文摘方法[J].科技信息,2009(30).
9卫华,韩立新,夏建华.基于Word2fea模型的文本建模方法[J].计算机技术与发展,2016,26(2):165-167. 被引量：1
10胡吉明,胡昌平.基于主题层次树和语义向量空间模型的用户建模[J].情报学报,2013,32(8):838-843. 被引量：7

现代图书情报技术

2014年第10期

浏览历史

内容加载中请稍等...

向量空间模型文本建模的语义增量化改进研究被引量：6

参考文献27

二级参考文献47

共引文献52

同被引文献80

引证文献6

二级引证文献46

相关作者

相关机构

相关主题

浏览历史

向量空间模型文本建模的语义增量化改进研究 被引量：6

参考文献27

二级参考文献47

共引文献52

同被引文献80

引证文献6

二级引证文献46

相关作者

相关机构

相关主题

浏览历史

向量空间模型文本建模的语义增量化改进研究被引量：6