自动构建时间基元规则库的中文时间表达式识别被引量：16

Chinese Time Expression Recognition Based on Automatically Generated Basic-Time-Unit Rules

下载PDF

导出

摘要该文提出一种基于正则文法的时间表达式识别算法:它基于"时间基元"①进行规则构建,提高了时间表达式识别的召回率;同时使用基于错误驱动思想的规则剪枝算法,削减了从训练语料带来的噪声,提高了识别的正确率,两者搭配有效提高了系统整体性能。在ACE07中文语料上的实验结果显著超过了现有水平,F-score达到89.9%。该文提出的算法具有很好的通用性和扩展性,加以改进将可以有更广泛的应用。 This paper proposes a generic algorithm for Time Expression Recognition（TER） task based on regular expressions.The algorithm generates rules based on ＂Basic Time Unit＂,which improves the recall value.And it prunes the rule collection through error driven method and reduces the ＂noise＂ taken from training corpus,which leads to a high precision.The two features jointlyimprove the overall efficiency of our method compared to the baseline system： with a significant better performance of up to 89.9% F-score on ACE07 Chinese Corpus.In addition,the proposed algorithm has good adaptablility and scalability for a broader application.

作者邬桐周雅倩黄萱菁吴立德

机构地区复旦大学计算机科学技术学院

出处《中文信息学报》 CSCD 北大核心 2010年第4期3-10,共8页 Journal of Chinese Information Processing

基金国家自然科学基金资助项目(60503070)

关键词计算机应用中文信息处理时间表达式识别时间基元 Timex2 错误驱动正则表达式 computer application Chinese information processing time expression recognition basic time unit Timex2 error-driven regular expression

分类号 TP391 [自动化与计算机技术—计算机应用技术]

引文网络
相关文献

参考文献9

1Seok Bae Jang, Jennifer Baldwin. Inderjeet Mani Automatic TIMEX2 Tagging of Korean News [J].ACM Transactions on Asian Language Information processing (TALIP), 2004, 3(1) : 51-65.
2Nikolai Vazov A System for Extraction of Temporal Expressions from French Texts based on Syntactic and Semantic Constraints[C]//Proceedings of the workshop on Temporal and spatial information processing, 2001, Volume 13: Article No. 14:1-8.
3Estela Saquete, Patricio Martinez-barco. Rafael Mufioz Recognizing and Tagging Temporal Expressions in Spanish [C]//Workshop on Annotation Standards for Temporal Information in Natural Language (LREC), 2002: 44-51.
4Mingli Wu, Wenjie Li, Qin Lu, Baoli Li. A Chinese Temporal Parser for Extracting and Normalizing Temporal Information [C]//International Joint Conference on Natural Language Processing ( IJCNLP), 2005, Volume 3651: 694-706.
5David Ahn, Sisay Fissaha Adafre, Maarten De Rijke Towards Task-Based Temporal Extraction and Recognition [C]//Proceedings Dagstuhl Workshop on Annotating, Extracting, and Reasoning about Time and Events, 2005.
6Kadri Hacioglu, Ying Chen. Benjamin Douglas Auto matic Time Expression Labeling for English and Chi nese Text [C]//Computational Linguistics and Intelli gent Text Processing (CICLing), 2005, Volume 3406 548-559.
7林静,曹德芳,苑春法.中文时间信息的TIMEX2自动标注[J].清华大学学报（自然科学版）,2008,48(1):117-120. 被引量：20
8贺瑞芳,秦兵,刘挺,潘越群,李生.基于依存分析和错误驱动的中文时间表达式识别[J].中文信息学报,2007,21(5):36-40. 被引量：21
9贺瑞芳,秦兵,潘越群,刘挺,李生.基于启发式错误驱动学习的中文时间表达式识别[J].高技术通讯,2008,18(12):1258-1262. 被引量：3

二级参考文献34

1WuML, LiWJ, Lu Q, etal. CTEMP: A Chinese temporal parser for extracting and normalizing temporal Information. In: Proceeding of the International Joint Conference on Natural language Processing, Jeju Island, Korea, 2005. 694-706
2Ye Y, Fossum V L, Abney S. Latent features in automatic tense translation between Chinese and English. in: Proceedings of the 5th SIGHAN Workshop on Chinese Language Processing, Sydney, Australia, 2006.48-55
3ACE2007 evaluation plan. http://projects. ldc. upenn. edu/ace/intro. html. 2006-11-6
4SemEval-2007. http://nlp. cs. swarthmore.edu/semevaL/index. shtml. 2007-1
5Jang S B, Baldwin J, Mind I. Automatic TIMEX2 tagging of Korean news. ACM Transaction on Asian Language Information processing,2004, 3 (1):51-65
6Vazov N. A system for extraction of temporal expressions French Texts based on syntactic and semantic constraints. In: Proceedings d the Association for Computational Linguistics Workshop on Temporal and Spatial Information Processing, Toulouse, France, 2001. 96-103
7Estela S, Martinez-Barco, Patricio, et al. Recognizing and tagging temporal expressions in Spanish. In: Proceedinss of the Workshop on Annotation Standards for Temporal Information in Natural Language, The International Conference on Language Resources and Evaluation, Las Palmas, Spain, 2002
8Mani I. Recent developments in temporal information extraction. In: Proceedings d the Conference on Recent Advances in Natural Language Processing, Alicante, Spain, 2004
9Hacioglu K, Chen Y, Douglas B. Automatic time exxon labeling for English and Chinese text. In: Proceedings d Conference on Intelligent Text Processing and Computational Linguistics, Mexico City, Mexico, 2005.
10AhnD, Adahe S F, Rijke M de. Towards task-besed temporal extraction and recognition. In: Proceedings of Dagstuhl Workshop on Annotating, Extracting, and Reasoning about Tune and Events, Dagstuhl Castle, Germany, 2005

共引文献32

1李君婵,谭红叶,王风娥.中文时间表达式及类型识别[J].计算机科学,2012,39(S3):191-194. 被引量：9
2贺瑞芳,秦兵,潘越群,刘挺,李生.基于启发式错误驱动学习的中文时间表达式识别[J].高技术通讯,2008,18(12):1258-1262. 被引量：3
3徐永东,王亚东,刘杨,王伟,权光日.多文档文摘中基于时间信息的句子排序策略研究[J].中文信息学报,2009,23(4):27-33. 被引量：8
4林静,苑春法.汉语时间关系抽取与计算[J].中文信息学报,2009,23(5):62-67. 被引量：11
5贺一帆,江铭虎.网络文本分类中基于信息瓶颈的特征提取[J].清华大学学报（自然科学版）,2010,50(1):45-48. 被引量：6
6刘莉,何中市,邢欣来,毛小丽.基于语义角色的中文时间表达式识别[J].计算机应用研究,2011,28(7):2543-2545. 被引量：14
7朱莎莎,刘宗田,付剑锋,朱芳.基于条件随机场的中文时间短语识别[J].计算机工程,2011,37(15):164-167. 被引量：16
8谭红叶,郑家恒,梁吉业.时间关系识别研究进展[J].中文信息学报,2011,25(5):44-52. 被引量：6
9许旭阳,李弼程,张先飞,席耀一.基于条件随机场与自定义规则的时间表达式识别[J].情报学报,2011,30(10):1065-1071. 被引量：3
10周小甲,周庆利,李昊旻,吕旭东.中文病历文本中时间信息自动标注[J].中国生物医学工程学报,2012,31(3):434-439.

同被引文献180

1王昀,苑春法.基于转换的时间-事件关系映射[J].中文信息学报,2004,18(4):23-30. 被引量：19
2李君婵,谭红叶,王风娥.中文时间表达式及类型识别[J].计算机科学,2012,39(S3):191-194. 被引量：9
3刘群,张华平,俞鸿魁,程学旗.基于层叠隐马模型的汉语词法分析[J].计算机研究与发展,2004,41(8):1421-1429. 被引量：198
4邓思颖.汉语时间词谓语句的限制条件[J].中国语文,2002(3):217-221. 被引量：19
5车万翔,刘挺,李生.实体关系自动抽取[J].中文信息学报,2005,19(2):1-6. 被引量：116
6陆丙甫,屈正林.时间表达的语法差异及其认知解释——从“年、月、日”的同类性谈起[J].世界汉语教学,2005,19(2):12-21. 被引量：14
7辛永芬.日汉时间词对比分析及相关问题[J].河南大学学报（社会科学版）,2005,45(3):96-99. 被引量：3
8乐小虬,杨崇俊,于文洋.基于空间语义角色的自然语言空间概念提取[J].武汉大学学报（信息科学版）,2005,30(12):1100-1103. 被引量：27
9俞鸿魁,张华平,刘群,吕学强,施水才.基于层叠隐马尔可夫模型的中文命名实体识别[J].通信学报,2006,27(2):87-94. 被引量：157
10张海霞,吴江.基于语义网的知识管理系统框架设计[J].计算机技术与发展,2006,16(4):46-48. 被引量：8

引证文献16

1李君婵,谭红叶,王风娥.中文时间表达式及类型识别[J].计算机科学,2012,39(S3):191-194. 被引量：9
2沈思,苏新宁,谢靖,王东波.基于清华汉语树库的时间表达式抽取模型构建研究[J].图书情报工作,2012,56(18):127-132. 被引量：6
3肖升,何炎祥,李勇帆.基于依存分析的中文时间表达式类型判定[J].计算机应用,2013,33(6):1582-1586. 被引量：2
4仲兆满,李存华,乔磊,张文艳,管燕.一种高效的Web新闻发表时间提取方法[J].小型微型计算机系统,2013,34(9):2085-2089.
5赵紫玉,徐金安,张玉洁,刘江鸣.规则与统计相结合的日语时间表达式识别[J].中文信息学报,2013,27(6):192-200. 被引量：3
6王伟,赵东岩,苏婷婷.C-TERN:一种基于CFSA的军事新闻文本时间信息处理算法[J].北京大学学报（自然科学版）,2014,50(1):9-16. 被引量：4
7赵紫玉,徐金安,张玉洁,刘江鸣.日语时间表达式识别与日汉翻译研究[J].北京大学学报（自然科学版）,2014,50(1):180-186. 被引量：1
8吴琼,黄德根.基于条件随机场与时间词库的中文时间表达式识别[J].中文信息学报,2014,28(6):169-174. 被引量：11
9张春菊,张雪英,李明,王曙.中文文本中时间信息解析方法[J].地理与地理信息科学,2014,30(6):1-6. 被引量：17
10郑学伟.基于知识管理的本体自动构建算法研究[J].计算机技术与发展,2014,24(12):64-68. 被引量：3

二级引证文献61

1李灿,解丹.中医电子病历入院记录信息自动抽取方法研究[J].世界科学技术-中医药现代化,2023,25(5):1615-1622.
2仲兆满,李存华,乔磊,张文艳,管燕.一种高效的Web新闻发表时间提取方法[J].小型微型计算机系统,2013,34(9):2085-2089.
3赵紫玉,徐金安,张玉洁,刘江鸣.规则与统计相结合的日语时间表达式识别[J].中文信息学报,2013,27(6):192-200. 被引量：3
4肖升,李勇帆,何炎祥.基于依存分析的离合触发词合法分离形式判定[J].计算机工程与应用,2014,50(10):11-17.
5李娜.基于条件随机场的方志古籍别名自动抽取模型构建[J].中文信息学报,2018,32(11):41-48. 被引量：29
6左亚尧,龙耀发,李杰骏.基于规则的中文时间表达式识别与规范化[J].广东工业大学学报,2014,31(3):88-94. 被引量：3
7吴琼,黄德根.基于条件随机场与时间词库的中文时间表达式识别[J].中文信息学报,2014,28(6):169-174. 被引量：11
8贾遂民,张玉,张腾飞.一种基于介词用法的灾难事件信息抽取方法[J].计算机与现代化,2015(7):116-119. 被引量：3
9张磊,杨雅婷,米成刚,李晓.维吾尔语数词类命名实体的识别与翻译[J].计算机应用与软件,2015,32(8):64-67. 被引量：6
10高源,席耀一,李弼程,李苏奕.基于词典特征优化和依存关系的中文时间表达式识别[J].信息工程大学学报,2016,17(4):490-495. 被引量：4

1赵紫玉,徐金安,张玉洁,刘江鸣.规则与统计相结合的日语时间表达式识别[J].中文信息学报,2013,27(6):192-200. 被引量：3
2高源,席耀一,李弼程,李苏奕.基于词典特征优化和依存关系的中文时间表达式识别[J].信息工程大学学报,2016,17(4):490-495. 被引量：4
3许旭阳,李弼程,张先飞,席耀一.基于条件随机场与自定义规则的时间表达式识别[J].情报学报,2011,30(10):1065-1071. 被引量：3
4赵紫玉,徐金安,张玉洁,刘江鸣.日语时间表达式识别与日汉翻译研究[J].北京大学学报（自然科学版）,2014,50(1):180-186. 被引量：1
5王凤玲.基于条件随机域模型的英语时间表达式识别研究[J].电子技术（上海）,2012,39(5):8-10. 被引量：2
6贺瑞芳,秦兵,刘挺,潘越群,李生.基于依存分析和错误驱动的中文时间表达式识别[J].中文信息学报,2007,21(5):36-40. 被引量：21
7左亚尧,龙耀发,李杰骏.基于规则的中文时间表达式识别与规范化[J].广东工业大学学报,2014,31(3):88-94. 被引量：3
8李君婵,谭红叶,王风娥.中文时间表达式及类型识别[J].计算机科学,2012,39(S3):191-194. 被引量：9
9王芳,白宇.基于JavaScript的轻量化BASE64编码及解码算法[J].软件,2015,36(4):24-27. 被引量：3
10吴琼,黄德根.基于条件随机场与时间词库的中文时间表达式识别[J].中文信息学报,2014,28(6):169-174. 被引量：11

中文信息学报

2010年第4期

浏览历史

内容加载中请稍等...

自动构建时间基元规则库的中文时间表达式识别被引量：16

参考文献9

二级参考文献34

共引文献32

同被引文献180

引证文献16

二级引证文献61

相关作者

相关机构

相关主题

浏览历史

自动构建时间基元规则库的中文时间表达式识别 被引量：16

参考文献9

二级参考文献34

共引文献32

同被引文献180

引证文献16

二级引证文献61

相关作者

相关机构

相关主题

浏览历史

自动构建时间基元规则库的中文时间表达式识别被引量：16