-
题名基于条件随机场模型的汉语功能块自动标注
被引量:7
- 1
-
-
作者
李国臣
王瑞波
李济洪
-
机构
山西大学计算机与信息技术学院
山西大学计算中心
-
出处
《计算机研究与发展》
EI
CSCD
北大核心
2010年第2期336-343,共8页
-
基金
国家自然科学基金项目(60873128)
山西省科技攻关计划基金项目(2007031126_01)~~
-
文摘
汉语组块分析是将汉语句子中的词首先组合成基本块,进一步组合形成句子的功能块,最终形成一个具有层次组合结构的汉语句法描述结构.将汉语功能块的自动标注问题看作序列标注任务,并使用词和基本块作为标注单元分别建立标注模型.针对不同的标注模型,分别构建基本块层面的特征集合,并使用条件随机场模型进行汉语功能块的自动标注.实验数据来自清华大学TCT语料库,并且按照8∶2的比例切分形成训练集和测试集.实验结果表明,与仅使用词层面信息的标注模型相比,基本块特征信息的适当加入可以显著提高功能块标注性能.当使用人工标注的基本块信息时,汉语功能块自动标注的准确率达到88.47%,召回率达到89.93%,F值达到89.19%.当使用自动标注的基本块信息时,汉语功能块的标注的准确率为84.27%,召回率为85.57%,F值为84.92%.
-
关键词
汉语基本块
汉语功能块
条件随机场模型
句法分析
序列标注
-
Keywords
Chinese base chunk
Chinese functional chunk
conditional random fields
syntactic parsing
sequence labeling
-
分类号
TP391
[自动化与计算机技术—计算机应用技术]
-
-
题名汉语功能块自动分析
被引量:13
- 2
-
-
作者
周强
赵颖泽
-
机构
清华大学计算机系智能技术与系统国家重点实验室
-
出处
《中文信息学报》
CSCD
北大核心
2007年第5期18-24,共7页
-
基金
国家自然科学基金资助项目(6057318560
520130299)
-
文摘
汉语功能块描述了句子的基本骨架,是联结句法结构和语义描述的重要桥梁。本文提出了两种不同功能块分析模型:边界识别模型和序列标记模型,并使用不同的机器学习方法进行了计算模拟。通过两种模型分析结果的有机融合,充分利用了两者分析结果的互补性,对汉语句子的主谓宾状四个典型功能块的自动识别性能达到了80%以上。实验结果显示,基于局部词汇语境机器学习算法可以从不同侧面准确识别出大部分功能块,句子中复杂从句和多动词连用结构等是主要的识别难点。
-
关键词
计算机应用
中文信息处理
汉语功能块
边界识别模型
序列标记模型
模型融合
-
Keywords
computer application
Chinese information processing
functional chunk
boundary recognition model
sequence labeling model
model merging
-
分类号
TP391
[自动化与计算机技术—计算机应用技术]
-
-
题名语义信息与CRF结合的汉语功能块自动识别
被引量:3
- 3
-
-
作者
刘海霞
黄德根
-
机构
大连理工大学计算机科学与技术学院
-
出处
《中文信息学报》
CSCD
北大核心
2011年第5期53-59,共7页
-
基金
中央高校基本科研业务费专项资金资助(DUT10RW202)
-
文摘
为了构建汉语功能块自动识别系统,该文利用条件随机域模型对经过正确词语切分和词性标注处理的汉语句子进行功能块边界识别和功能信息标注处理,通过在特征提取阶段优化组合丰富的上下文特征,得到功能块识别的精确率、召回率和F1-measure值分别为85.84%、85.07%和85.45%。在此基础上,该文引入由词义聚合关系将汉语单词组织起来的《同义词词林》作为语义资源,把其中的语义信息作为特征加入到功能块的识别过程,缓解了数据稀疏以及歧义问题对识别结果造成的影响,使得上述三个性能指标分别提高到86.21%、85.31%和85.76%。
-
关键词
汉语功能块
条件随机域(CRFs)
语义信息
歧义结构
-
Keywords
Chinese functional chunk
Conditional Random Fields(CRFs)
semantic information
ambiguous structure
-
分类号
TP391
[自动化与计算机技术—计算机应用技术]
-