-
题名基于多向量和实体模糊匹配的话题关联识别
被引量:5
- 1
-
-
作者
张晓艳
王挺
陈火旺
-
机构
国防科技大学计算机学院
-
出处
《中文信息学报》
CSCD
北大核心
2008年第1期9-14,共6页
-
基金
国家自然科学基金资助项目(60403050)
新世纪优秀人才支持计划资助项目(NCET-06-0926)
-
文摘
本文在对新闻报道理论分析及实验验证的基础上,提出一种多向量表示模型,使其在尽量不丢失信息的情况下,对特征集合尽可能细地划分。基于该模型,本文设计了一种模糊匹配的方法用于计算命名实体子向量之间的关联度,它们和多个向量相似度一起用支持向量机进行整合,形成报道模型间的相似度。本文选用TDT4中文语料作为测试语料,将上述模型及模糊匹配技术用于话题关联识别。实验表明,多向量模型能够改进话题关联识别的性能,模糊匹配技术也在一定程度上弥补了精确匹配带来的性能损失。
-
关键词
计算机应用
中文信息处理
话题关联识别
多向量表示模型
命名实体模糊匹配
-
Keywords
computer application
Chinese information processing
story link detection
multi-vector model
namedentity fuzzy matching
-
分类号
TP391
[自动化与计算机技术—计算机应用技术]
-
-
题名话题关联识别中报道信息的动态扩充研究
被引量:2
- 2
-
-
作者
张晓艳
王挺
-
机构
国防科技大学计算机学院
-
出处
《计算机科学》
CSCD
北大核心
2009年第11期200-203,241,共5页
-
基金
国家自然科学基金资助项目(60403050)
新世纪优秀人才支持计划(NCET-06-0926)资助
-
文摘
话题关联识别用于判断新闻报道对流中每对中的两篇报道是否描述了同一个话题。为解决其中报道篇幅短小、稀疏问题严重及其内容存在漂移等问题,提出了一种动态信息扩充技术,用于改进报道表示模型。该技术用过去最新的话题相关报道来扩充当前报道,动态更新原有模型。此外,还研究了扩充信息的精化问题,通过有选择地加重一些重要特征的权重来减小扩充过程中噪音带来的影响。该方法在TDT4中的中文语料上进行了实验,结果表明动态信息扩充技术能够较大幅度地改进话题关联识别的性能,对多种特征采取的精化技术也对性能改进产生了较大影响。
-
关键词
话题关联识别
动态信息扩充
报道模型
-
Keywords
Topic detection and tracking, Dynamic information extending, Story representation model
-
分类号
TP301
[自动化与计算机技术—计算机系统结构]
-
-
题名新闻文本话题关联识别研究
- 3
-
-
作者
张晓艳
王挺
陈火旺
-
机构
国防科技大学计算机学院
-
出处
《计算机工程与科学》
CSCD
2008年第4期131-134,138,共5页
-
基金
国家自然科学基金资助项目(60403050)
-
文摘
本文首先简单介绍了话题发现与追踪的发展史及主要任务,然后重点分析比较了现有话题关联识别模型的使用情况,并测试了文档中各层次知识特征对话题关联识别性能的影响。其测试结果对如何评判已有的识别系统或构建好的识别系统具有一定参考价值。
-
关键词
话题关联识别
话题发现与追踪
知识特征
-
Keywords
story link detection
topic detection and tracking
knowledge feature
-
分类号
TP391
[自动化与计算机技术—计算机应用技术]
-