期刊文献+
共找到3篇文章
< 1 >
每页显示 20 50 100
基于线索词识别和训练集扩展的中文问题分类 被引量:6
1
作者 张志昌 张宇 +1 位作者 刘挺 李生 《高技术通讯》 EI CAS CSCD 北大核心 2009年第2期111-118,共8页
针对问题分类的数据稀疏问题,提出了一种以疑问词和焦点词为关键线索的中文事实型问题分类方法。该方法首先自动识别用户提出的问题中的疑问词和焦点词,若疑问词和焦点词存在,则用最近邻模型进行分类,而对没有用最近邻方法分类的其他问... 针对问题分类的数据稀疏问题,提出了一种以疑问词和焦点词为关键线索的中文事实型问题分类方法。该方法首先自动识别用户提出的问题中的疑问词和焦点词,若疑问词和焦点词存在,则用最近邻模型进行分类,而对没有用最近邻方法分类的其他问题,则用支持向量机(SVM)模型进行分类。训练SVM模型时,从Web上自动获取新问题来对训练集进行扩展,最近邻方法只利用线索词词义距离进行类别判断。实验表明,这种按照问题结构的不同而选择不同分类器的方法,在性能上要优于单一分类方法;词义距离的应用和训练集自动扩展改善了训练数据的稀疏,提高了分类性能。 展开更多
关键词 问题分类 焦点词 词义距离 训练集扩展
下载PDF
基于训练样本集扩展的隐式篇章关系分类 被引量:3
2
作者 朱珊珊 洪宇 +3 位作者 丁思远 严为绒 姚建民 朱巧明 《中文信息学报》 CSCD 北大核心 2016年第5期111-120,共10页
隐式篇章关系分类主要任务是在显式关联线索缺失的情况下,自动检测特定论元之间的语义关系类别。前人研究显示,语言学特征能够有效辅助隐式篇章关系的分类。目前,主流检测方法由于缺少足够的已标注隐式训练样本,导致分类器无法准确学习... 隐式篇章关系分类主要任务是在显式关联线索缺失的情况下,自动检测特定论元之间的语义关系类别。前人研究显示,语言学特征能够有效辅助隐式篇章关系的分类。目前,主流检测方法由于缺少足够的已标注隐式训练样本,导致分类器无法准确学习各种分类特征,分类精确率仅约为40%。针对这一问题,该文提出一种基于训练样本集扩展的隐式篇章关系分类方法。该方法首先借助论元向量,以原始训练样本集为种子实例,从外部数据资源中挖掘与其在语义以及关系上一致的"平行训练样本集";然后将"平行训练样本集"加入原始训练样本集中,形成扩展的训练样本集;最后基于扩展的训练样本集,实现隐式篇章关系的分类。该文在宾州篇章树库(Penn Discourse Treebank,PDTB)上对扩展的训练样本集进行评测,结果显示,相较于原始训练样本集,使用扩展的训练样本集的实验系统整体性能提升8.41%,在四种篇章关系类别上的平均性能提升5.42%。与现有主流分类方法性能对比,识别精确率提升6.36%。 展开更多
关键词 隐式篇章关系 语义向量 训练样本扩展 篇章分析
下载PDF
网络泛化能力与随机扩展训练集 被引量:6
3
作者 杨慧中 卢鹏飞 +1 位作者 张素贞 陶振麟 《控制理论与应用》 EI CAS CSCD 北大核心 2002年第6期963-966,共4页
针对神经网络的过拟合和泛化能力差的问题 ,研究了样本数据的输入输出混合概率密度函数的局部最大熵密度估计 ,提出了运用Chebyshev不等式的样本参数按类分批自校正方法 ,以此估计拉伸样本集 ,得到新的随机扩充训练集 .使估计质量更高 ... 针对神经网络的过拟合和泛化能力差的问题 ,研究了样本数据的输入输出混合概率密度函数的局部最大熵密度估计 ,提出了运用Chebyshev不等式的样本参数按类分批自校正方法 ,以此估计拉伸样本集 ,得到新的随机扩充训练集 .使估计质量更高 ,效果更好 .仿真结果证明用这种方法训练的前馈神经网络具有较好的泛化性能 . 展开更多
关键词 随机扩展训练 前馈神经网络 泛化能力 最大局部熵密度函数 CHEBYSHEV不等式 概率密度估计
下载PDF
上一页 1 下一页 到第
使用帮助 返回顶部