基于词项聚类的文本语义标签抽取研究

Word Clustering Based Text Semantic Tagging Extraction Method

下载PDF

导出

摘要本研究主要解决在大量文本数据中抽取关键语义信息的问题。文本是自然语言的信息载体,在分析和处理文本信息时,由于目标与方式不同,对文本信息的特征表达方式也各不相同。已有的语义抽取方法往往是针对单篇文本的,忽略了不同文本间的语义联系。为此,文中提出了基于词项聚类的文本语义标签提取方法。该方法以语义抽取为目标,以Hinton的分布式表示假说为文本信息的表达方式,并以最大化语义标签与原文本数据间的语义相似度为目标,使用聚类算法对语义标签进行聚类。实验表明,所提方法由于是基于全体词汇表对语义信息分布进行聚类计算的,因此在语义丰富度和表达能力上相比很多现有方法具有更好的表现。 This research mainly solves the problem of extracting key semantic information from a large number of text data.Text is the information carrier of the natural language.When the text information is analyzed and processed,the characteristics of text messages are different,due to different goals and methods.In the past,the semantic tagging extraction method is usually focused on the single text,but the semantic relationships between different texts are ignored.To this end,this paper proposed a text semantic tagging extraction method based on word clustering.The proposed method is based on semantic tagging extraction processing target,which employs a distributed Hinton representation hypothesis to express text information,and uses word clustering algorithm to maximize the semantic tagging and semantic similarity between the original text data.Experiments show that since the method involves all vocabularies in the cluster computing,the semantic richness and power of information expression of the proposed method outperform many existing methods.

作者李雄丁治明苏醒郭黎敏 LI Xiong;DING Zhi-ming;SU Xing;GUO Li-min(Department of Information,Beijing University of Technology,Beijing 100124,China)

机构地区北京工业大学信息学部

出处《计算机科学》 CSCD 北大核心 2018年第B11期417-421,438,共6页 Computer Science

基金国家自然科学基金(91546111)资助

关键词语义抽取分布式表示假说聚类相似度 Semantic extraction Distributed representation hypothesis Clustering Similarity

分类号 TP391 [自动化与计算机技术—计算机应用技术]

引文网络
相关文献

参考文献16

1文继军,王珊.SEEKER:基于关键词的关系数据库信息检索[J].软件学报,2005,16(7):1270-1281. 被引量：45
2张阔,李涓子,吴刚,王克宏.基于关键词元的话题内事件检测[J].计算机研究与发展,2009,46(2):245-252. 被引量：15
3李峰,黄金柱,李舟军,杨伟铭.使用关键词扩展的新闻文本自动摘要方法[J].计算机科学与探索,2016,10(3):372-380. 被引量：13
4吴舜尧,邵峰晶,王金龙,孙仁诚,王营.融合语义资源和关键词的文本聚类[J].计算机工程,2014,40(4):223-227. 被引量：7
5李然,张华平,赵燕平,商建云.基于主题模型与信息熵的中文文档自动摘要技术研究[J].计算机科学,2014,41(B11):298-300. 被引量：7
6刘通.基于复杂网络的文本关键词提取算法研究[J].计算机应用研究,2016,33(2):365-369. 被引量：17
7陈伟鹤,刘云.基于词或词组长度和频数的短中文文本关键词提取算法[J].计算机科学,2016,43(12):50-57. 被引量：14
8王立霞,淮晓永.基于语义的中文文本关键词提取算法[J].计算机工程,2012,38(1):1-4. 被引量：48
9李鹏,王斌,石志伟,崔雅超,李恒训.Tag-TextRank:一种基于Tag的网页关键词抽取方法[J].计算机研究与发展,2012,49(11):2344-2351. 被引量：56
10罗燕,赵书良,李晓超,韩玉辉,丁亚飞.基于词频统计的文本关键词提取方法[J].计算机应用,2016,36(3):718-725. 被引量：76

二级参考文献198

1刘建香.复杂网络及其在国内研究进展的综述[J].系统科学学报,2009,17(4):31-37. 被引量：72
2何干俊.汉语音译词的多维考察[J].江西社会科学,2012,32(4):194-197. 被引量：4
3贾自艳,何清,张海俊,李嘉佑,史忠植.一种基于动态进化模型的事件探测和追踪算法[J].计算机研究与发展,2004,41(7):1273-1280. 被引量：58
4李素建,王厚峰,俞士汶,辛乘胜.关键词自动标引的最大熵模型应用研究[J].计算机学报,2004,27(9):1192-1197. 被引量：92
5张奇,黄萱菁,吴立德.一种新的句子相似度度量及其在文本自动摘要中的应用[J].中文信息学报,2005,19(2):93-99. 被引量：34
6张锋,许云,侯艳,樊孝忠.基于互信息的中文术语抽取系统[J].计算机应用研究,2005,22(5):72-73. 被引量：36
7杜波,田怀凤,王立,陆汝占.基于多策略的专业领域术语抽取器的设计[J].计算机工程,2005,31(14):159-160. 被引量：26
8姜亚莉,关泽群.用于Web文档聚类的基于相似度的软聚类算法[J].计算机工程,2006,32(2):59-61. 被引量：6
9吴平博,陈群秀,马亮.基于时空分析的线索性事件的抽取与集成系统研究[J].中文信息学报,2006,20(1):21-28. 被引量：21
10尹存燕,戴新宇,陈家骏.Internet上文本的自动摘要技术[J].计算机工程,2006,32(3):88-90. 被引量：13

共引文献398

1陈财森,向阳霞,寇应展,刘会英.面向装备作战数据的知识图谱平台构建[J].装甲兵学报,2022(5):105-110. 被引量：1
2聂卉.结合词向量和词图算法的用户兴趣建模研究[J].数据分析与知识发现,2019,3(12):30-40. 被引量：8
3黄波,刘传才.基于加权TextRank的中文自动文本摘要[J].计算机应用研究,2020,37(2):407-410. 被引量：20
4巴哈古丽·图尼亚孜,玉素甫·艾拜都拉.维吾尔语词频统计系统研究[J].电子世界,2020(3):63-64.
5涂鼎,陈岭,陈根才,吴勇,王敬昌.基于多路层次聚类的商品评论数据概念分类构建[J].计算机研究与发展,2013,50(S2):208-215. 被引量：3
6王珊,张俊,彭朝晖,战疆,杜小勇,Zhao-hui Xiao-yong.基于本体的关系数据库语义检索[J].计算机科学与探索,2007,1(1):59-78. 被引量：15
7何盈捷,文继军,冯月利,王珊.P2P环境下数据管理系统上的Top-k查询[J].计算机科学,2005,32(10):89-94. 被引量：1
8王珊,杜小勇,孟小峰,陈红.Database Research： Achievements and Challenges[J].Journal of Computer Science & Technology,2006,21(5):823-837. 被引量：4
9乐敏,张文超,崔三俊.SXKS:一种基于栈的XML关键词查询算法[J].安康师专学报,2006,18(6):81-85.
10张俊,彭朝晖,王珊,聂惠静.CLASCN： Candidate Network Selection for Efficient Top-κ Keyword Queries over Databases[J].Journal of Computer Science & Technology,2007,22(2):197-207. 被引量：2

1李天添,赵丹华,赵江洪.汽车造型姿态的认知属性研究[J].包装工程,2017,38(22):207-211. 被引量：3
2佘娟.群文阅读:从单一走向多元[J].教育视界,2018(18):35-37.
3杨麟,杜吉祥,聂一亮.块聚类的协同显著性检测[J].华侨大学学报（自然科学版）,2018,39(3):445-450. 被引量：1
4范秋红.精读课文赏析精华[J].考试周刊,2018,0(98):16-16.
5李良强,李开明,白梨霏,曹云忠,吴亮.网购农产品评论中的消费者情感标签抽取方法研究[J].电子科技大学学报（社科版）,2018,20(4):1-7. 被引量：1
6谢雨杉,王利亚,李莘,邱航,杨昊.基于语义相似度的ICD-10编码归一化[J].中国病案,2018,19(9):18-21. 被引量：4
7杨敏.新课改下小学语文群文阅读的价值及教学策略[J].课程教育研究（学法教法研究）,2018,0(34):218-218.
8叶闯.实在论的容易论证中关于指称的默认假设[J].哲学研究,2018,0(10):119-126.
9李泽魁,孙霏,陈珺.新闻媒体领域中文语义分析技术智能化、知识化之路的研究与探索[J].中国传媒科技,2018,0(8):35-37. 被引量：2
10乔晶晶,段利国,李爱萍.融合多种特征的实体对齐算法[J].计算机工程与设计,2018,39(11):3395-3400. 被引量：6

计算机科学

2018年第B11期

浏览历史

内容加载中请稍等...

基于词项聚类的文本语义标签抽取研究

参考文献16

二级参考文献198

共引文献398

相关作者

相关机构

相关主题

浏览历史