期刊文献+

基于词项聚类的文本语义标签抽取研究

Word Clustering Based Text Semantic Tagging Extraction Method
下载PDF
导出
摘要 本研究主要解决在大量文本数据中抽取关键语义信息的问题。文本是自然语言的信息载体,在分析和处理文本信息时,由于目标与方式不同,对文本信息的特征表达方式也各不相同。已有的语义抽取方法往往是针对单篇文本的,忽略了不同文本间的语义联系。为此,文中提出了基于词项聚类的文本语义标签提取方法。该方法以语义抽取为目标,以Hinton的分布式表示假说为文本信息的表达方式,并以最大化语义标签与原文本数据间的语义相似度为目标,使用聚类算法对语义标签进行聚类。实验表明,所提方法由于是基于全体词汇表对语义信息分布进行聚类计算的,因此在语义丰富度和表达能力上相比很多现有方法具有更好的表现。 This research mainly solves the problem of extracting key semantic information from a large number of text data.Text is the information carrier of the natural language.When the text information is analyzed and processed,the characteristics of text messages are different,due to different goals and methods.In the past,the semantic tagging extraction method is usually focused on the single text,but the semantic relationships between different texts are ignored.To this end,this paper proposed a text semantic tagging extraction method based on word clustering.The proposed method is based on semantic tagging extraction processing target,which employs a distributed Hinton representation hypothesis to express text information,and uses word clustering algorithm to maximize the semantic tagging and semantic similarity between the original text data.Experiments show that since the method involves all vocabularies in the cluster computing,the semantic richness and power of information expression of the proposed method outperform many existing methods.
作者 李雄 丁治明 苏醒 郭黎敏 LI Xiong;DING Zhi-ming;SU Xing;GUO Li-min(Department of Information,Beijing University of Technology,Beijing 100124,China)
出处 《计算机科学》 CSCD 北大核心 2018年第B11期417-421,438,共6页 Computer Science
基金 国家自然科学基金(91546111)资助
关键词 语义抽取 分布式表示假说 聚类 相似度 Semantic extraction Distributed representation hypothesis Clustering Similarity
  • 相关文献

参考文献16

二级参考文献198

共引文献398

相关作者

内容加载中请稍等...

相关机构

内容加载中请稍等...

相关主题

内容加载中请稍等...

浏览历史

内容加载中请稍等...
;
使用帮助 返回顶部