-
题名基于多向量和实体模糊匹配的话题关联识别
被引量:5
- 1
-
-
作者
张晓艳
王挺
陈火旺
-
机构
国防科技大学计算机学院
-
出处
《中文信息学报》
CSCD
北大核心
2008年第1期9-14,共6页
-
基金
国家自然科学基金资助项目(60403050)
新世纪优秀人才支持计划资助项目(NCET-06-0926)
-
文摘
本文在对新闻报道理论分析及实验验证的基础上,提出一种多向量表示模型,使其在尽量不丢失信息的情况下,对特征集合尽可能细地划分。基于该模型,本文设计了一种模糊匹配的方法用于计算命名实体子向量之间的关联度,它们和多个向量相似度一起用支持向量机进行整合,形成报道模型间的相似度。本文选用TDT4中文语料作为测试语料,将上述模型及模糊匹配技术用于话题关联识别。实验表明,多向量模型能够改进话题关联识别的性能,模糊匹配技术也在一定程度上弥补了精确匹配带来的性能损失。
-
关键词
计算机应用
中文信息处理
话题关联识别
多向量表示模型
命名实体模糊匹配
-
Keywords
computer application
Chinese information processing
story link detection
multi-vector model
namedentity fuzzy matching
-
分类号
TP391
[自动化与计算机技术—计算机应用技术]
-
-
题名基于SVM的中文报道关系识别方法研究
被引量:3
- 2
-
-
作者
王强
张永奎
-
机构
山西大学计算机与信息技术学院
计算智能与中文信息处理省部共建教育部重点实验室
-
出处
《计算机工程与应用》
CSCD
北大核心
2008年第33期141-143,共3页
-
基金
国家自然科学基金No.60475022
山西省自然科学基金No.20041041
山西省回国留学人员基金(No.2002004)。~~
-
文摘
针对网络新闻的特点,从人名、时间名、地点名、组织机构名、内容五个方面抽取特征词形成特征向量。在此基础上,分别进行了相似度计算,其中,人名、组织机构名、内容采用余弦夹角的方法,时间和地点向量,相似度计算采用了引入报道时间和关联度计算。最后,使用这5个相似度作为特征,使用SVM进行训练,并在测试集上进行了测试。测试结果表明,这种方法可以有效地改善系统的性能。
-
关键词
报道关系识别
话题检测与跟踪
多向量表示模型
-
Keywords
story link detection
topic detection and tracking
multi-vector mode
-
分类号
TP391
[自动化与计算机技术—计算机应用技术]
-