期刊导航
期刊开放获取
河南省图书馆
退出
期刊文献
+
任意字段
题名或关键词
题名
关键词
文摘
作者
第一作者
机构
刊名
分类号
参考文献
作者简介
基金资助
栏目信息
任意字段
题名或关键词
题名
关键词
文摘
作者
第一作者
机构
刊名
分类号
参考文献
作者简介
基金资助
栏目信息
检索
高级检索
期刊导航
共找到
1
篇文章
<
1
>
每页显示
20
50
100
已选择
0
条
导出题录
引用分析
参考文献
引证文献
统计分析
检索结果
已选文献
显示方式:
文摘
详细
列表
相关度排序
被引量排序
时效性排序
基于λ-主动学习方法的中文微博分词
被引量:
2
1
作者
张婧
黄德根
+2 位作者
黄锴宇
刘壮
孟祥主
《清华大学学报(自然科学版)》
EI
CAS
CSCD
北大核心
2018年第3期260-265,共6页
由于面向中文微博的分词标注语料相对较少,导致基于传统方法和深度学习方法的中文分词系统在微博语料上的表现效果很差。针对此问题,该文提出一种主动学习方法,从大规模未标注语料中挑选更具标注价值的微博分词语料。根据微博语料的...
由于面向中文微博的分词标注语料相对较少,导致基于传统方法和深度学习方法的中文分词系统在微博语料上的表现效果很差。针对此问题,该文提出一种主动学习方法,从大规模未标注语料中挑选更具标注价值的微博分词语料。根据微博语料的特点,在主动学习迭代过程中引入参数λ来控制所选的重复样例的个数,以确保所选样例的多样性;同时,根据样例中字标注结果的不确定性和上下文的多样性,采用Max、Avg和AvgMax这3种策略衡量样例整体的标注价值;此外,用于主动学习的初始分词器除使用当前字的上下文作为特征外,还利用字向量自动计算当前字成为停用字的可能性作为模型的特征。实验结果表明:该方法的F值比基线系统提高了0.84%~1.49%,比目前最优的基于词边界标注(wordboundaryannotation,wBA)的主动学习方法提升效果更好。
展开更多
关键词
文字信息处理
中文分词
主动学习
样例多样性
微博语料
原文传递
题名
基于λ-主动学习方法的中文微博分词
被引量:
2
1
作者
张婧
黄德根
黄锴宇
刘壮
孟祥主
机构
大连理工大学计算机科学与技术学院
出处
《清华大学学报(自然科学版)》
EI
CAS
CSCD
北大核心
2018年第3期260-265,共6页
基金
国家自然科学基金资助项目(61672127,61672126)
文摘
由于面向中文微博的分词标注语料相对较少,导致基于传统方法和深度学习方法的中文分词系统在微博语料上的表现效果很差。针对此问题,该文提出一种主动学习方法,从大规模未标注语料中挑选更具标注价值的微博分词语料。根据微博语料的特点,在主动学习迭代过程中引入参数λ来控制所选的重复样例的个数,以确保所选样例的多样性;同时,根据样例中字标注结果的不确定性和上下文的多样性,采用Max、Avg和AvgMax这3种策略衡量样例整体的标注价值;此外,用于主动学习的初始分词器除使用当前字的上下文作为特征外,还利用字向量自动计算当前字成为停用字的可能性作为模型的特征。实验结果表明:该方法的F值比基线系统提高了0.84%~1.49%,比目前最优的基于词边界标注(wordboundaryannotation,wBA)的主动学习方法提升效果更好。
关键词
文字信息处理
中文分词
主动学习
样例多样性
微博语料
Keywords
word information processing
Chinese word segmentation
active learning
diversity of samples
microblog-oriented data
分类号
TP391.1 [自动化与计算机技术—计算机应用技术]
原文传递
题名
作者
出处
发文年
被引量
操作
1
基于λ-主动学习方法的中文微博分词
张婧
黄德根
黄锴宇
刘壮
孟祥主
《清华大学学报(自然科学版)》
EI
CAS
CSCD
北大核心
2018
2
原文传递
已选择
0
条
导出题录
引用分析
参考文献
引证文献
统计分析
检索结果
已选文献
上一页
1
下一页
到第
页
确定
用户登录
登录
IP登录
使用帮助
返回顶部