摘要
该文提出了一种基于自定义知识库强化获取规则集,以及规则与统计模型相结合的日语时间表达式识别方法。在按照Timex2标准对时间表达进行细化分类的基础上,我们结合日语时间词的特点,渐进地扩展重构日语时间表达式知识库,实现基于知识库获取的规则集的优化更新,旨在不断提高时间表达式的识别精准度。同时,融合CRF统计模型提高日语时间表达式识别的泛化能力。实验结果显示开放测试F1值达0.898 7。
Based on the knowledge base we defined, this paper presents a Japanese time expression recognition method throughcombining rules setstrengthened by knowledge base with statistical model. According to the Timex2 standards' granular classification on time, we progressivelyexpanded and reconstructed the knowledge base given the Japanese time characteristic, and then achieved rules set optimization and update, in order to increase recognition accuracy. Simultaneously, we fused CRF model to enhance the generalization ability of Japanese time expression recognition. Our experimental results show that the F1 value reaches0. 8987 on open test.
出处
《中文信息学报》
CSCD
北大核心
2013年第6期192-200,共9页
Journal of Chinese Information Processing
基金
国家自然科学基金资助项目(61370130)
科技部国际科技合作计划(K11F100010)
中央高校基本科研业务费专项资金资助项目(2010JBZ2007)
北京市重点学科共建资助项目(计算机应用技术)
中国科学院计算技术研究所智能信息处理重点实验室开放课题(IIP2010-4)
北京交通大学人才基金资助项目(2011RC034)
关键词
知识库
规则集
统计模型
knowledge base
rules set
statistical model