摘要
对于一个实体(产品或者商户),往往伴随着成千上万的用户评论。如何从这些冗杂的评论信息中抽取能够描述此实体的精华信息是研究的热点问题。该文提出了一种能够为每个实体抽取特征标签的方法,并且语义去重,保证标签在语义空间内相互独立。首先,对于每个实体的所有评论,进行中文分词、词性标注,并且做依存句法分析。然后,根据每个句子中的依存关系,抽取关键标签,构成此实体的标签库,并且对标签库进行显式语义去重。最后通过K-Means聚类以及Latent Dirichlet Allocation(LDA)主题模型将每个标签映射到语义独立的主题空间,再根据每个标签相对该主题的置信度进行排序。通过以上步骤,可以为每个实体抽取语义独立的关键标签描述,实验中,该文通过对返回标签列表的准确性以及语义多样性进行了统计分析,验证了标签抽取方法的可行性和有效性。
There are usually millions of comments for an entity (e. g. a shop or a product). How to extract the con- sice and useful information to describe the entity is a challenging issue. This paper proposes a method to extract tags without semantic redundancy. First, we perform the word segmentation, POS tagging and dependency parsing for all the comments. Then, we extract tags aeroding to the dependency realtions, and reduce the semantically duplicate tags explicitly. Finally, we map all the tags to the independent semantic space via K-Means and Latent Dirichlet A1- location(LDA), and rank the tag list. according to the topic confidence. The results of the experiments show that our method could extract the tags accurately with semantic independency.
出处
《中文信息学报》
CSCD
北大核心
2012年第5期14-19,45,共7页
Journal of Chinese Information Processing
基金
国家自然科学基金资助项目(60970047
61103151
61173068)
教育部博士点基金资助项目(20110131110028)
关键词
意见挖掘
主题模型
语义独立
标签抽取
排序
opinion mining
topic model
semantic independent
tag extraction
ranking