期刊文献+
共找到3篇文章
< 1 >
每页显示 20 50 100
中文时间信息的TIMEX2自动标注 被引量:20
1
作者 林静 曹德芳 苑春法 《清华大学学报(自然科学版)》 EI CAS CSCD 北大核心 2008年第1期117-120,共4页
为了完善中文时间信息标注规范,实现中文时间短语的自动标注,该文研究并修改国际通用的时间短语标注规范TIMEX2的中文标注草案,以此为基础开发一个基于正则表达式的中文TIMEX2自动标注系统(CTAT)。该系统采用3层候选确定参考时间,并行... 为了完善中文时间信息标注规范,实现中文时间短语的自动标注,该文研究并修改国际通用的时间短语标注规范TIMEX2的中文标注草案,以此为基础开发一个基于正则表达式的中文TIMEX2自动标注系统(CTAT)。该系统采用3层候选确定参考时间,并行使用多个模块识别输入句子中的时间短语,通过排序冲突消解确定最终结果。经测试,该系统识别时间短语和将时间信息值解析为标准格式的Fmeasure分别达到了90.15%和83.27%,与其他语言同类系统性能相当。应用该系统标注的语料,为时间信息处理方面的后续研究提供了重要资源。 展开更多
关键词 信息处理 中文时间信息 timex2标注规范 自动标注
原文传递
自动构建时间基元规则库的中文时间表达式识别 被引量:16
2
作者 邬桐 周雅倩 +1 位作者 黄萱菁 吴立德 《中文信息学报》 CSCD 北大核心 2010年第4期3-10,共8页
该文提出一种基于正则文法的时间表达式识别算法:它基于"时间基元"①进行规则构建,提高了时间表达式识别的召回率;同时使用基于错误驱动思想的规则剪枝算法,削减了从训练语料带来的噪声,提高了识别的正确率,两者搭配有效提高... 该文提出一种基于正则文法的时间表达式识别算法:它基于"时间基元"①进行规则构建,提高了时间表达式识别的召回率;同时使用基于错误驱动思想的规则剪枝算法,削减了从训练语料带来的噪声,提高了识别的正确率,两者搭配有效提高了系统整体性能。在ACE07中文语料上的实验结果显著超过了现有水平,F-score达到89.9%。该文提出的算法具有很好的通用性和扩展性,加以改进将可以有更广泛的应用。 展开更多
关键词 计算机应用 中文信息处理 时间表达式识别 时间基元 timex2 错误驱动 正则表达式
下载PDF
中文病历文本中时间信息自动标注
3
作者 周小甲 周庆利 +1 位作者 李昊旻 吕旭东 《中国生物医学工程学报》 CAS CSCD 北大核心 2012年第3期434-439,共6页
病历文本中标准化的时间信息及其关联临床事件的自动提取,对促进临床决策支持和医疗信息挖掘等应用具有重要意义。虽然很多研究已提出多种面向临床事件的提取方法,然而在时间信息自动标注领域的研究还未达到实际利用的水平。这主要是由... 病历文本中标准化的时间信息及其关联临床事件的自动提取,对促进临床决策支持和医疗信息挖掘等应用具有重要意义。虽然很多研究已提出多种面向临床事件的提取方法,然而在时间信息自动标注领域的研究还未达到实际利用的水平。这主要是由于中文病历文本中时间信息表达的多样性、相互关联性和不明确性所致。为此本研究首先利用基于正则表达式的时间信息自动识别方法实现基本时间信息的提取,然后通过分析和研究中文病历文本中参考时间的种类和选取规律,将时间信息自动识别结果进行计算并自动标注为国际时间标注标准TIMEX2形式。本方法在包含1 207条时间信息的147份实际病历文本语料中进行了验证,结果显示时间识别的F值为92.82%,时间标注的F值为90.80%,为时间信息的后续利用奠定了良好的基础。 展开更多
关键词 时间信息标注 timex2 正则表达式
下载PDF
上一页 1 下一页 到第
使用帮助 返回顶部