-
题名一种基于层叠CRF的古文断句与句读标记方法
被引量:9
- 1
-
-
作者
张合
王晓东
杨建宇
周卫东
-
机构
河南师范大学计算机与信息技术学院
北京得意音通技术有限责任公司
北京交通大学信息所
-
出处
《计算机应用研究》
CSCD
北大核心
2009年第9期3326-3329,共4页
-
基金
河南省科技厅攻关资助项目(0624480021)
-
文摘
针对利用自然语言理解技术进行古汉语断句及句读标注的主要挑战是数据稀疏问题,设计了一种六字位标记集,提出了一种基于层叠式CRF模型的古文断句与句读标记方法。基于六字位标集,低层模型用观察序列确定句子边界,高层模型同时使用观察序列和低层的句子边界信息进行句读标记。实验在5M混合古文语料上分别进行了封闭测试和开放测试,封闭测试断句与句读标注的F值分别达到96.48%和91.35%,开放测试断句与句读标注的F值分别达到71.42%和67.67%。
-
关键词
古汉语
层叠条件随机场
数据稀疏
断句
句读标注
-
Keywords
ancient Chinese literatures
cascaded CRF
data sparseness
sentence segmentation
punctuating
-
分类号
TP391
[自动化与计算机技术—计算机应用技术]
-
-
题名古汉语句子切分与句读标记方法研究
被引量:2
- 2
-
-
作者
王川
张小红
韩采华
-
机构
河南师范大学计算机与信息技术学院
河南财政税务高等专科学校信息工程系
郑州大学省信息网络重点学科开放实验室
河南省广播电视大学
-
出处
《河南大学学报(自然科学版)》
CAS
北大核心
2009年第5期525-529,共5页
-
文摘
利用自然语言理解技术进行古汉语断句及句读标注的主要挑战是数据稀疏问题.为了解决这一难题,设计了一种六字位标记集,提出了一种基于层叠式条件随机场模型的古文断句与句读标记方法.基于六字位标集,低层模型用观察序列确定句子边界,高层模型同时使用观察序列和低层的句子边界信息进行句读标记.实验在5 M混合古文语料上分别进行了封闭测试和开放测试,封闭测试断句与句读标注的F值分别达到96.48%和91.35%,开放测试断句与句读标注的F值分别达到71.42%和67.67%.
-
关键词
古汉语
层叠条件随机场
数据稀疏
句子切分
句读标注
-
Keywords
ancient Chinese
cascaded conditional random fields
data sparseness
sentence segmentation
punctuation
-
分类号
TP391.1
[自动化与计算机技术—计算机应用技术]
-