-
题名基于词激活力的自动词发现
被引量:2
- 1
-
-
作者
张永田
徐蔚然
汪浩
-
机构
北京邮电大学模式识别实验室
-
出处
《软件》
2012年第12期182-184,共3页
-
文摘
在使用计算机处理中文信息时,对词语的自动化发现技术有迫切的需求。因为在互联网时代,词语集合的更新换代非常之快,词语以非常快的节奏产生和消亡,这直接影响着对中文信息自动化处理的准确度和可靠性。为了解决这个难题,本文提出一种基于词激活力模型的中文词语发现方法。该方法将海量汉语语料建模成为有序的汉字序列,建立词激活力模型,分析字与字之间的联系程度,从而对任意两个汉字是否构成词语进行估计。在大规模语料集上的数据实验表明,该方法能够有效地对预料中的潜在词语进行自动化发现,达到了预期目标。
-
关键词
自然语言处理
自动词发现
词激活力
-
Keywords
Natural Language Processing
Automatic Word Detection
Word Activation Force
-
分类号
TP391.4
[自动化与计算机技术—计算机应用技术]
-
-
题名利用组合模型生成微博热点话题事件摘要
被引量:8
- 2
-
-
作者
戴天
吴渝
雷大江
-
机构
重庆邮电大学网络智能研究所
-
出处
《计算机应用研究》
CSCD
北大核心
2016年第7期2026-2029,2038,共5页
-
基金
重庆市教委科学技术研究项目(KJ130527)
重庆市自然科学基金资助项目(CSTC
+1 种基金
2014jcyj A40049)
国家级大学生创新创业训练计划项目(201310617003)
-
文摘
针对微博热点话题检测使用主题模型只能提取出无序话题词组合的问题,提出一种结合词激活力模型与主题模型各自优点的微博热点话题检测方法及话题关键词的计算方法。使用传统的主题模型提取出微博文本中的热点主题,根据各主题下文档的概率分布提取出新的话题文档,引入词激活力模型计算各个词之间的词激活力,生成词激活力矩阵,最后利用词激活力矩阵生成有序的词序列作为热点事件摘要。实验验证了该方法的可行性,表明所提出的方法能够很好地识别出热点词并生成可读性高的事件摘要。
-
关键词
微博
话题检测
潜在狄利克雷分布
词激活力
-
Keywords
microblog
topic detection
latent Diriehlet allocation(LDA)
word active force
-
分类号
TP391.1
[自动化与计算机技术—计算机应用技术]
-
-
题名基于职业特征的人名消歧算法
被引量:2
- 3
-
-
作者
阳怡林
周杰
李弼程
李爱国
-
机构
信息工程大学
[
-
出处
《信息工程大学学报》
2016年第5期548-554,共7页
-
基金
国家社会科学基金资助项目(14BXW028)
-
文摘
职业是人物实体的代表性特征,能够有效地区分人物实体。传统人名消歧算法仅把职业当作一个普通的特征,忽视了它的重要性。针对以上问题,提出了基于职业特征的人名消歧算法。首先通过互联网手动构建基础职业词典;其次以维基百科的所有中文页面为训练语料,通过词激活力模型扩展基础职业词典得到职业特征词典;然后从文本中提取职业特征,并抽取人名和作品名作为其补充特征,弥补文本中职业特征缺失和同一人物具有多个职业的问题;最后采用凝聚层次聚类实现人名消歧。在CLP2010的人名消歧训练语料上进行实验,结果表明文章算法能够有效地实现人名消歧。
-
关键词
职业特征
亲和度
人名消歧
词激活力
凝聚层次聚类
-
Keywords
occupational characteristics
affinity
name disambiguation
word activation force
agglomerative hierarchical clustering
-
分类号
TP391.1
[自动化与计算机技术—计算机应用技术]
-