期刊文献+

基于条件随机场与时间词库的中文时间表达式识别 被引量:11

Temporal Information Extraction Based on CRF and Time Thesaurus
下载PDF
导出
摘要 该文提出一种统计与规则相结合的时间表达式识别方法。首先,通过分析中文文本中时间表达式的词形、词性和上下文信息,采用条件随机场识别时间单元而非时间表达式整体,避免了中文时间表达式边界定位不准确的问题;然后,从训练语料中自动获取候选触发词,并依据评价函数对候选触发词打分,筛选出正确的触发词完善触发词库;最后,根据时间触发词库与时间缀词库,制定规则对时间表达式边界进行定位。实验结果显示开式测试F1值达到98.31%。 This paper proposes a generic algorithm for time expression recognition task by combining rules with sta- tistics. By analyzing a set of linguistic features of time expressions such as lexical features and context information, Conditional Random Fields (CRF) is applied to recognize time unit rather than time expression so as to, avoid the boundary localization problems in Chinese time expressions. In addition, the candidate trigger words are automati- cally obtained from the test corpus, refining the trigger thesaurus by a designed score function. Finally, rules for the time expression boundary localization are formulated based on time trigger thesaurus and time affix word thesaurus. Our experimental results show that the F1 value reaches 98.31% in an open test.
作者 吴琼 黄德根
出处 《中文信息学报》 CSCD 北大核心 2014年第6期169-174,189,共7页 Journal of Chinese Information Processing
基金 国家自然科学基金(61173100 61173101 61272375)
关键词 CRF 规则 时间触发词 时间缀词 CRF rule time trigger time affix word
  • 相关文献

参考文献15

二级参考文献88

共引文献49

同被引文献86

引证文献11

二级引证文献68

相关作者

内容加载中请稍等...

相关机构

内容加载中请稍等...

相关主题

内容加载中请稍等...

浏览历史

内容加载中请稍等...
;
使用帮助 返回顶部