-
题名置信度加权在线序列标注算法
被引量:3
- 1
-
-
作者
汤步洲
王晓龙
王轩
-
机构
哈尔滨工业大学深圳研究生院计算机科学与技术学科部
-
出处
《自动化学报》
EI
CSCD
北大核心
2011年第2期188-195,共8页
-
基金
国家高技术研究发展计划(863计划)(2006AA01Z197)
国家自然科学基金(60703015
60973076)资助~~
-
文摘
序列标注问题是自然语言处理领域的基本问题之一.序列标注任务是将连续输入的不定长序列,标注成连续等长的标签序列.在在线序列标注方法的基本框架下,针对序列标注任务的特征稀疏特性,采用置信度加权分类算法思想,提出了一种新的线性判别式在线序列标注方法—置信度加权在线序列标注算法.该方法对每个特征权值参数引入一个概率置信度,取得了优于其他相关算法的性能.在中文分词,中文名实体识别以及英文组块分析等问题上,验证了本文方法的有效性.
-
关键词
序列标注问题
自然语言处理
在线序列标注算法
置信度加权
概率置信度
-
Keywords
Sequence labeling problem, natural language processing, online sequence labeling linear algorithm,confidence-weighted, probabilistic measure of confidence
-
分类号
TP391.1
[自动化与计算机技术—计算机应用技术]
-
-
题名利用扩展标记集的词结构分析
被引量:2
- 2
-
-
作者
孙静
方艳
丁彬
周国栋
-
机构
苏州大学计算机科学与技术学院
-
出处
《中文信息学报》
CSCD
北大核心
2014年第5期39-45,82,共8页
-
基金
国家自然科学基金青年项目(61202162)
教育部博士点基金新教师类课题(20123201120011)
国家863计划前沿技术研究类项目(2012AA011102)
-
文摘
该文给出了一种与传统分词不同的词法分析选择,提出了一种利用扩展标记集来实现词内部结构分析的方法。首先阐述了词的内部结构特点,把结构中的前后缀视为特殊的词,进而通过识别出每一个词的前后缀来识别词的内部结构。方法是把词内部结构识别问题转换成序列标注问题,通过扩展标记集,采用CRF模型来实现词的内部结构分析。最终实验表明,无论是在总体性能上,还是在各层结构的识别上都取得了较高的准确度。
-
关键词
扩展标记集
词结构分析
前后缀
序列标注问题
-
Keywords
extend the word tag set
words structures analysis
prefixes and suffixes
sequence tagging problem
-
分类号
TP391
[自动化与计算机技术—计算机应用技术]
-