期刊导航
期刊开放获取
河南省图书馆
退出
期刊文献
+
任意字段
题名或关键词
题名
关键词
文摘
作者
第一作者
机构
刊名
分类号
参考文献
作者简介
基金资助
栏目信息
任意字段
题名或关键词
题名
关键词
文摘
作者
第一作者
机构
刊名
分类号
参考文献
作者简介
基金资助
栏目信息
检索
高级检索
期刊导航
共找到
2
篇文章
<
1
>
每页显示
20
50
100
已选择
0
条
导出题录
引用分析
参考文献
引证文献
统计分析
检索结果
已选文献
显示方式:
文摘
详细
列表
相关度排序
被引量排序
时效性排序
结合统计特征和图模型的半监督式中文关键短语抽取方法
被引量:
2
1
作者
谢海华
陈雪飞
+2 位作者
都仪敏
吕肖庆
汤帜
《中文信息学报》
CSCD
北大核心
2022年第4期57-65,共9页
关键短语抽取,即从文档中抽取能够表达文档主题和内容的关键短语集合,对于信息检索和文档分类等文本处理任务具有重要意义。然而,现有文献缺乏针对中文特点的关键短语抽取算法的研究。为此,该文提出了一种半监督式中文关键短语抽取模型...
关键短语抽取,即从文档中抽取能够表达文档主题和内容的关键短语集合,对于信息检索和文档分类等文本处理任务具有重要意义。然而,现有文献缺乏针对中文特点的关键短语抽取算法的研究。为此,该文提出了一种半监督式中文关键短语抽取模型,该模型采用预训练语言模型来表征短语及文章,以减少算法对大量标注训练数据的依赖;进而提出图模型描述候选短语间的相似性空间并迭代计算各短语的重要度;同时结合了多项统计特征来进一步提高短语评估的准确率。对比实验表明,该文提出的方法在中文关键短语抽取方面比基线方法具有明显的提升效果。
展开更多
关键词
中文关键短语抽取
半监督式方法
图模型
统计特征
下载PDF
职称材料
基于数据增强和多任务特征学习的中文语法错误检测方法
2
作者
谢海华
陈志优
+2 位作者
程静
吕肖庆
汤帜
《中文信息学报》
CSCD
北大核心
2022年第12期36-43,共8页
由于中文语法的复杂性,中文语法错误检测(CGED)的难度较大,而训练语料和相关研究的缺乏,使得CGED的效果还远未达到实用的程度。该文提出一种CGED模型,APM-CGED,采用数据增强、预训练语言模型和基于语言学特征多任务学习的方式,弥补训练...
由于中文语法的复杂性,中文语法错误检测(CGED)的难度较大,而训练语料和相关研究的缺乏,使得CGED的效果还远未达到实用的程度。该文提出一种CGED模型,APM-CGED,采用数据增强、预训练语言模型和基于语言学特征多任务学习的方式,弥补训练语料的不足。数据增强能够有效地扩充训练集,而预训练语言模型蕴含丰富的语义信息又有助于语法分析,基于语言学特征多任务学习对语言模型进行优化则可以使语言模型学习到跟语法错误检测相关的语言学特征。该文提出的方法在NLPTEA的CGED数据集进行测试,取得了优于其他对比模型的结果。
展开更多
关键词
中文语法错误检测
数据增强
多任务学习
下载PDF
职称材料
题名
结合统计特征和图模型的半监督式中文关键短语抽取方法
被引量:
2
1
作者
谢海华
陈雪飞
都仪敏
吕肖庆
汤帜
机构
北大方正信息产业集团有限公司数字出版技术国家重点实验室
北京大学王选计算机研究所
北京雁栖湖应用数学研究院
出处
《中文信息学报》
CSCD
北大核心
2022年第4期57-65,共9页
基金
国家重点研发计划(2019YFB1406302)
国家自然科学基金(61472014,61573028,61432020)
+1 种基金
北京市自然科学基金(4142023,L192024)
北京新星计划项目(XX2015B010)。
文摘
关键短语抽取,即从文档中抽取能够表达文档主题和内容的关键短语集合,对于信息检索和文档分类等文本处理任务具有重要意义。然而,现有文献缺乏针对中文特点的关键短语抽取算法的研究。为此,该文提出了一种半监督式中文关键短语抽取模型,该模型采用预训练语言模型来表征短语及文章,以减少算法对大量标注训练数据的依赖;进而提出图模型描述候选短语间的相似性空间并迭代计算各短语的重要度;同时结合了多项统计特征来进一步提高短语评估的准确率。对比实验表明,该文提出的方法在中文关键短语抽取方面比基线方法具有明显的提升效果。
关键词
中文关键短语抽取
半监督式方法
图模型
统计特征
Keywords
Chinese key phrase extraction
semi-supervised method
graph model
statistical features
分类号
TP391 [自动化与计算机技术—计算机应用技术]
下载PDF
职称材料
题名
基于数据增强和多任务特征学习的中文语法错误检测方法
2
作者
谢海华
陈志优
程静
吕肖庆
汤帜
机构
北大方正信息产业集团有限公司数字出版技术国家重点实验室
北京大学王选计算机研究所
北京雁栖湖应用数学研究院
出处
《中文信息学报》
CSCD
北大核心
2022年第12期36-43,共8页
基金
国家重点研发计划(2019YFB1406302)
国家自然科学基金(61573028,61432020)
+1 种基金
北京市自然科学基金(4142023)
北京新星计划项目(XX2015B010)。
文摘
由于中文语法的复杂性,中文语法错误检测(CGED)的难度较大,而训练语料和相关研究的缺乏,使得CGED的效果还远未达到实用的程度。该文提出一种CGED模型,APM-CGED,采用数据增强、预训练语言模型和基于语言学特征多任务学习的方式,弥补训练语料的不足。数据增强能够有效地扩充训练集,而预训练语言模型蕴含丰富的语义信息又有助于语法分析,基于语言学特征多任务学习对语言模型进行优化则可以使语言模型学习到跟语法错误检测相关的语言学特征。该文提出的方法在NLPTEA的CGED数据集进行测试,取得了优于其他对比模型的结果。
关键词
中文语法错误检测
数据增强
多任务学习
Keywords
Chinese grammar error detection
data enhancement
multi-task learning
分类号
TP391 [自动化与计算机技术—计算机应用技术]
下载PDF
职称材料
题名
作者
出处
发文年
被引量
操作
1
结合统计特征和图模型的半监督式中文关键短语抽取方法
谢海华
陈雪飞
都仪敏
吕肖庆
汤帜
《中文信息学报》
CSCD
北大核心
2022
2
下载PDF
职称材料
2
基于数据增强和多任务特征学习的中文语法错误检测方法
谢海华
陈志优
程静
吕肖庆
汤帜
《中文信息学报》
CSCD
北大核心
2022
0
下载PDF
职称材料
已选择
0
条
导出题录
引用分析
参考文献
引证文献
统计分析
检索结果
已选文献
上一页
1
下一页
到第
页
确定
用户登录
登录
IP登录
使用帮助
返回顶部