C-TERN:一种基于CFSA的军事新闻文本时间信息处理算法被引量：4

C-TERN: A Temporal Information Processing Algorithm of Chinese Military News Story Based on Cascade Finite State Automata

下载PDF

导出

摘要提出一种基于层叠有限状态自动机(CFSA)的中文军事文本时间表达式识别与规范化算法C-TERN。C-TERN首先利用成熟的分词工具识别出文本中的时间词,然后将从通用语言和军事语言中提取的时间表达式规则分成多层,逐层进行时间信息的精细识别。在规范化过程中,通过4个步骤分别对特殊时间表达式、简单时间表达式、时间段表达式和绝对/相对时间表达式进行推理计算和规范化。算法考虑了规则集提取的正确性、规则之间冲突的消解以及匹配方式的合理性。在多个数据集上的实验结果显示,C-TERN不但能有效地识别标准时间、偏移时间和不确定性时间表达式,而且能完成对简单、特殊以及隐含的时间点、时间段和偏移时间的推理与规范化,能够满足军事文本时间信息处理的需要。 The authors propose a new method C-TERN to recognize and normalize the temporal expression in military story based on cascade finite state automata. Firstly, C-TERN recognizes the temporal expression in military story, and layers the temporal information extracted from general language and military language, and recognizes the temporal by layer. Then, in the procedure of temporal expression normalization, C-TERN ratiocinates and normalizes the simple/specify time, duration time, absolute and relative temporal expression in four steps. The method pays special attention to the correctness of the regulation extraction, the dispelling of the collision between regulations, and the reasonability of the matching method. The experimental results on multi-information show that proposed method can recognize and normalize the absolute and relative temporal expression as well as the simple/specify time and duration time effectively. It can better meets the temporal information processing needs in military applications.

作者王伟赵东岩苏婷婷

机构地区武警工程大学信息安全重点实验室北京大学计算科学与技术研究所

出处《北京大学学报（自然科学版）》 EI CAS CSCD 北大核心 2014年第1期9-16,共8页 Acta Scientiarum Naturalium Universitatis Pekinensis

基金陕西省自然科学基金(2013JQ8031) 国家自然科学基金(2012AA011101) 武警工程大学军事基础研究基金(WJY201314)资助

关键词自然语言理解有限状态自动机时间表达式识别与规范化 natrual language processing finite state automata temporal expression recognition and normalization

分类号 TP391.1 [自动化与计算机技术—计算机应用技术]

引文网络
相关文献

参考文献16

1Mani I, Wilson G. Robust temporal processing of News II Proceedings of the 38th Annual Meeting on Association for Computational Linguistics. New Brunswick, 2000: 69-76.
2徐永东,徐志明,王晓龙,刘远超.中文文本时间信息获取及语义计算[J].哈尔滨工业大学学报,2007,39(3):438-442. 被引量：10
3贺瑞芳,秦兵,刘挺,潘越群,李生.基于依存分析和错误驱动的中文时间表达式识别[J].中文信息学报,2007,21(5):36-40. 被引量：21
4Estela S, Martinez-Barco P, Munoz R. Recognizing and tagging temporal expressions in Spanish II Workshop on Annotation Standards for Temporal Information in Natural Language, LREC. Las Palmas, Spain, 2002: 44-51.
5Li W, Wong K F, Yuan C. A design of temporal event extraction from Chinese financial news. InternationalJournal of Computer Processing of Oriental Lan?guages, 2003, 16(1): 21-39.
6邬桐,周雅倩,黄萱菁,吴立德.自动构建时间基元规则库的中文时间表达式识别[J].中文信息学报,2010,24(4):3-10. 被引量：16
7林静,苑春法.汉语时间关系抽取与计算[J].中文信息学报,2009,23(5):62-67. 被引量：11
8刘群,张华平,俞鸿魁,程学旗.基于层叠隐马模型的汉语词法分析[J].计算机研究与发展,2004,41(8):1421-1429. 被引量：198
9Ferro L, Gerber L, Mani I, et al. TIDES standard for the annotation of temporal expressions[EB/OL]. (2003 )[20 13-03-21]. http://timex2.mitre.org.
10Gerber L, Huang S, Wang X. TIDES 2003 standard for the annotation of temporal expressions. Chinese supplement draft[EB/OL]. (2003)[2013-03-21]. http://timex2.mitre.org.

二级参考文献90

1王昀,苑春法.基于转换的时间-事件关系映射[J].中文信息学报,2004,18(4):23-30. 被引量：19
2陈振宇,陈振宁.怎样计算现代汉语句子的时间信息[J].中文信息学报,2005,19(3):94-104. 被引量：6
3H Y Tan. Chinese place automatic recognition research. In: C N Huang, Z D Dong, eds. Proc of Computational Language.Beijing: Tsinghua University Press, 1999
4Zhang Huaping, Liu Qun, Zhang Hao, et al. Automatic recognition of Chinese unknown words recognition. First SIGHAN Workshop Attached with the 19th COLING, Taipei, 2002
5S R Ye, T S Chua, J M Liu. An agent-based approach to Chinese named entity recognition. The 19th Int'l Conf on Computational Linguistics, Taipei, 2002
6J Sun, J F Gao, L Zhang, et al. Chinese named entity identification using class-based language model. The 19th Int'l Conf on Computational Linguistics, Taipei, 2002
7Lawrence R Rabiner. A tutorial on hidden Markov models and selected applications in speech recognition. Proc of IEEE, 1989,77(2): 257～286
8Shai Fine, Yoram Singer, Naftali Tishby. The hierarchical hidden Markov model: Analysis and applications. Machine Learning,1998, 32(1): 41～62
9Richard Sproat, Thomas Emerson. The first international Chinese word segmentation bakeoff. The First SIGHAN Workshop Attached with the ACL2003, Sapporo, Japan, 2003. 133～143
10J Hockenmaier, C Brew. Error-driven learning of Chinese word segmentation. In: J Guo, K T Lua, J Xu, eds. The 12th Pacific Conf on Language and Information, Singapore, 1998

共引文献253

1刘苗苗,李燕,王欣萌,甘琳琳,李虹.分级阅读初探:基于小学教材的汉语可读性公式研究[J].语言文字应用,2021(2):116-126. 被引量：9
2魏伟,郭崇慧,邢小宇.基于语义关联规则的试题知识点标注及试题推荐[J].数据分析与知识发现,2020,4(2):182-191. 被引量：8
3陈博逊,黄晶晓.一种基于HMM和CRF的双层分词模型[J].硅谷,2009,2(22).
4尹继豪,樊孝忠,刘士宁,于江德.一种基于Bootstrapping构建训练语料的方法[J].计算机研究与发展,2007,44(z2):394-397.
5于江德,谷川,葛文英,樊孝忠.一种基于字和子串联合标注的汉语分词方法[J].山西大学学报（自然科学版）,2011,34(3):357-362. 被引量：2
6于江德,周宏宇,余正涛.基于单个词语特征模板的汉语词性标注[J].山西大学学报（自然科学版）,2011,34(4):513-517. 被引量：1
7李君婵,谭红叶,王风娥.中文时间表达式及类型识别[J].计算机科学,2012,39(S3):191-194. 被引量：9
8李彦,贾爱军,占向辉,李翔龙.面向创新设计的多层次Web信息检索研究[J].工程设计学报,2005,12(3):129-133. 被引量：1
9任国锋,李德华,潘莹.一种改进的基尼指数特征权重算法[J].计算机与数字工程,2010,38(12):8-13. 被引量：1
10俞鸿魁,张华平,刘群,吕学强,施水才.基于层叠隐马尔可夫模型的中文命名实体识别[J].通信学报,2006,27(2):87-94. 被引量：157

同被引文献27

1李君婵,谭红叶,王风娥.中文时间表达式及类型识别[J].计算机科学,2012,39(S3):191-194. 被引量：9
2赵军.命名实体识别、排歧和跨语言关联[J].中文信息学报,2009,23(2):3-17. 被引量：50
3徐永东,王亚东,刘杨,王伟,权光日.多文档文摘中基于时间信息的句子排序策略研究[J].中文信息学报,2009,23(4):27-33. 被引量：8
4邬桐,周雅倩,黄萱菁,吴立德.自动构建时间基元规则库的中文时间表达式识别[J].中文信息学报,2010,24(4):3-10. 被引量：16
5王斯日古楞,斯琴图,那顺乌日图.汉蒙机器翻译系统中量词翻译研究[J].中文信息学报,2010,24(5):92-95. 被引量：3
6粟栗.多传感器数据融合方法在军事信息领域的应用[J].舰船科学技术,2013,35(6):117-122. 被引量：20
7郭红建,黄兵.潜在语义分析聚类算法在文摘句子排序中的应用[J].计算机应用研究,2013,30(11):3299-3301. 被引量：3
8赵紫玉,徐金安,张玉洁,刘江鸣.规则与统计相结合的日语时间表达式识别[J].中文信息学报,2013,27(6):192-200. 被引量：3
9邹岳琳,吐尔根.依布拉音,麦热哈巴.艾力,艾山.吾买尔,帕力旦.吐尔逊.基于词干提取的维吾尔语事件类时间短语识别[J].计算机工程与设计,2014,35(2):625-630. 被引量：6
10赵紫玉,徐金安,张玉洁,刘江鸣.日语时间表达式识别与日汉翻译研究[J].北京大学学报（自然科学版）,2014,50(1):180-186. 被引量：1

引证文献4

1阿依古丽.哈力克,艾山.吾买尔,吐尔根.伊布拉音,卡哈尔江.阿比的热西提,买合木提.买买提.汉维时间数字和量词的识别与翻译研究[J].中文信息学报,2016,30(6):190-200. 被引量：8
2薛涛,王恒.基于条件熵和上下文邻近度的句子排序研究[J].计算机应用研究,2017,34(9):2680-2684. 被引量：2
3殷来祥,李志强,付琼莹.基于NL2SQL的兵棋数据智能统计分析方法研究[J].系统仿真学报,2023,35(9):2000-2010. 被引量：1
4李燕,张诗雅,李建玉,王奕如.海防部队数据系统建设研究[J].火力与指挥控制,2024,49(7):184-193.

二级引证文献11

1买合木提.买买提,卡哈尔江.阿比的热西提,艾山.吾买尔,吐尔根.依布拉音,王路路.CRF与规则相结合的维吾尔文地名识别研究[J].中文信息学报,2017,31(6):110-118. 被引量：9
2朱顺乐.融合深度学习特征的汉维短语表过滤研究[J].计算机技术与发展,2018,28(7):149-154. 被引量：1
3买合木提.买买提,王路路,吐尔根.依布拉音,艾山.吾买尔,卡哈尔江.阿比的热西提.基于条件随机场的维吾尔文机构名识别[J].计算机工程与设计,2019,40(1):273-278. 被引量：5
4王路路,艾山.吾买尔,吐尔根.依布拉音,买合木提.买买提,卡哈尔江.阿比的热西提.基于深度神经网络的维吾尔文命名实体识别研究[J].中文信息学报,2019,33(3):64-70. 被引量：10
5朱顺乐.融合多特征的汉维神经网络机器翻译模型[J].计算机工程与设计,2019,40(5):1484-1488. 被引量：7
6杨正祥,刘杰,袁克柔,周建设.作文段落句间逻辑合理性等级评测[J].计算机应用与软件,2019,36(9):175-180. 被引量：2
7阿依古丽·哈力克,卡哈尔江·阿比的热西提,艾山·吾买尔,吐尔根·依布拉音.维吾尔语-汉语量词短语的神经机器翻译[J].计算机工程与设计,2019,40(9):2649-2653. 被引量：3
8陈南辛,张青华,任涛,张丽华,张琳.基于高考分数的能力素养分析及其关联探索[J].内蒙古大学学报（自然科学版）,2021,52(6):644-650.
9赵莉莉,马雪梅.汉维数词对比与翻译[J].文化创新比较研究,2021,5(32):136-139.
10牛一凡,吕晓艳,李仕旺,张奥,王洪业.基于NL2SQL的铁路客运营销数据智能交互[J].铁道科学与工程学报,2024,21(9):3529-3539.

1左亚尧,龙耀发,李杰骏.基于规则的中文时间表达式识别与规范化[J].广东工业大学学报,2014,31(3):88-94. 被引量：3
2高源,席耀一,李弼程,李苏奕.基于词典特征优化和依存关系的中文时间表达式识别[J].信息工程大学学报,2016,17(4):490-495. 被引量：4
3赵紫玉,徐金安,张玉洁,刘江鸣.规则与统计相结合的日语时间表达式识别[J].中文信息学报,2013,27(6):192-200. 被引量：3
4许旭阳,李弼程,张先飞,席耀一.基于条件随机场与自定义规则的时间表达式识别[J].情报学报,2011,30(10):1065-1071. 被引量：3
5王凤玲.基于条件随机域模型的英语时间表达式识别研究[J].电子技术（上海）,2012,39(5):8-10. 被引量：2
6肖山竹,陈尚锋,孙广富.动态可重构的高速小波图像压缩系统[J].微处理机,2003,24(3):34-37. 被引量：1
7张洪,钱胜,陈路.多传感器在确定智能小车安全区域中的应用[J].传感器与微系统,2013,32(12):145-148. 被引量：8
8赵紫玉,徐金安,张玉洁,刘江鸣.日语时间表达式识别与日汉翻译研究[J].北京大学学报（自然科学版）,2014,50(1):180-186. 被引量：1
9徐永东,徐志明,王晓龙,刘远超.中文文本时间信息获取及语义计算[J].哈尔滨工业大学学报,2007,39(3):438-442. 被引量：10
10刘天琪.绿色网络伴我行[J].全国优秀作文选（小学中高年级）,2014(3):27-28.

北京大学学报（自然科学版）

2014年第1期

浏览历史

内容加载中请稍等...

C-TERN:一种基于CFSA的军事新闻文本时间信息处理算法被引量：4

参考文献16

二级参考文献90

共引文献253

同被引文献27

引证文献4

二级引证文献11

相关作者

相关机构

相关主题

浏览历史

C-TERN:一种基于CFSA的军事新闻文本时间信息处理算法 被引量：4

参考文献16

二级参考文献90

共引文献253

同被引文献27

引证文献4

二级引证文献11

相关作者

相关机构

相关主题

浏览历史

C-TERN:一种基于CFSA的军事新闻文本时间信息处理算法被引量：4