期刊导航
期刊开放获取
河南省图书馆
退出
期刊文献
+
任意字段
题名或关键词
题名
关键词
文摘
作者
第一作者
机构
刊名
分类号
参考文献
作者简介
基金资助
栏目信息
任意字段
题名或关键词
题名
关键词
文摘
作者
第一作者
机构
刊名
分类号
参考文献
作者简介
基金资助
栏目信息
检索
高级检索
期刊导航
共找到
21
篇文章
<
1
2
>
每页显示
20
50
100
已选择
0
条
导出题录
引用分析
参考文献
引证文献
统计分析
检索结果
已选文献
显示方式:
文摘
详细
列表
相关度排序
被引量排序
时效性排序
一种聚类质量的评价方法及其应用
被引量:
7
1
作者
韩习武
赵铁军
《哈尔滨工业大学学报》
EI
CAS
CSCD
北大核心
2009年第11期225-227,共3页
提出一种聚类质量的评价方法,它依据以类内相似度和类外相似度描述的相关数据集的自然结构来计算给定聚类结果的分类质量.初步的实验和分析表明,该方法基本符合人类的分类直觉,可以单独用来对聚类结果进行评价,用作对其它评价方法的补充...
提出一种聚类质量的评价方法,它依据以类内相似度和类外相似度描述的相关数据集的自然结构来计算给定聚类结果的分类质量.初步的实验和分析表明,该方法基本符合人类的分类直觉,可以单独用来对聚类结果进行评价,用作对其它评价方法的补充,也可以用来调整人工聚类标准.
展开更多
关键词
聚类质量
类内相似度
类外相似度
评价
下载PDF
职称材料
基于弱指导SVM的汉语动词次范畴化自动获取
被引量:
2
2
作者
韩习武
赵铁军
《计算机工程与应用》
CSCD
北大核心
2006年第28期9-11,27,共4页
动词次范畴化自动获取过程主要涉及到两个典型步骤一、依据启发性规则生成次范畴化假设;二、应用统计方法对假设集合进行过滤,选择可靠的次范畴化类型。此前改进获取性能的研究都集中在统计过滤阶段,并且相关实验的假设生成阶段都没有...
动词次范畴化自动获取过程主要涉及到两个典型步骤一、依据启发性规则生成次范畴化假设;二、应用统计方法对假设集合进行过滤,选择可靠的次范畴化类型。此前改进获取性能的研究都集中在统计过滤阶段,并且相关实验的假设生成阶段都没有涉及到有指导的训练过程,因此所有这些方法都是无指导的。文章提出一种弱指导的汉语动词次范畴化自动获取方案,并应用SVM分类器取代原系统中的无指导假设生成模块。实验结果表明,最终获取性能有了统计意义上的改善。
展开更多
关键词
汉语动词
次范畴化
弱指导
SVM
下载PDF
职称材料
基于子类的汉语动词SCF获取回退
被引量:
1
3
作者
韩习武
赵铁军
《计算机工程与应用》
CSCD
北大核心
2005年第30期158-161,共4页
研究证明基于动词子类的回退方法能够改进次范畴化(SCF)自动获取的性能,不同的子类划分方法起到重要的作用。本文利用《同义词词林》、《知网1.2版》和《现代汉语动词大词典》分别对30个测试动词进行分类,并以分类结果来改进汉语动词SC...
研究证明基于动词子类的回退方法能够改进次范畴化(SCF)自动获取的性能,不同的子类划分方法起到重要的作用。本文利用《同义词词林》、《知网1.2版》和《现代汉语动词大词典》分别对30个测试动词进行分类,并以分类结果来改进汉语动词SCF自动获取的性能,实验结果证明:一、回退后的获取性能有了较为明显的提高;二、涉及句法成分较多的分类方法更适合汉语SCF自动获取;三、随机组合相关动词来构造回退子类是不合理的;四、上述分类都不是适合汉语动词SCF获取回退的最优方法。
展开更多
关键词
汉语动词
子类
SCF
回退
下载PDF
职称材料
从真实语料中自动获取汉语动词次范畴化信息
被引量:
1
4
作者
韩习武
赵铁军
《计算机工程与应用》
CSCD
北大核心
2005年第19期1-4,181,共5页
描述了一种自动获取汉语动词次范畴化信息的可行技术和一个从大规模真实文本中构建动词次范畴化词汇知识库的系统性实验。实验基于语言学启发信息生成次范畴化框架假设,然后应用统计方法进行假设检验。对20个句模多元化动词获取结果的...
描述了一种自动获取汉语动词次范畴化信息的可行技术和一个从大规模真实文本中构建动词次范畴化词汇知识库的系统性实验。实验基于语言学启发信息生成次范畴化框架假设,然后应用统计方法进行假设检验。对20个句模多元化动词获取结果的初步评价表明,该技术已经达到了目前国际上同类研究相应水平的精确率和召回率;并且,所得知识库在一个PCFG句法分析器上的简单应用体现了次范畴化信息在自然语言处理领域有着可观的潜在价值。
展开更多
关键词
汉语动词
谓词
次范畴化
次范畴化框架
下载PDF
职称材料
非精确概念的机器学习与应用
被引量:
1
5
作者
韩习武
赵铁军
《哈尔滨工业大学学报》
EI
CAS
CSCD
北大核心
2006年第10期1736-1739,共4页
提出并描述非精确概念的机器学习问题,定义非精确概念学习的一般任务模式,给出符合人类学习习惯的解决方案.结合具体例子说明非精确概念的学习与应用的过程,总结非精确概念学习同时具有归纳学习和统计学习的、优势及很强的鲁棒性,其缺...
提出并描述非精确概念的机器学习问题,定义非精确概念学习的一般任务模式,给出符合人类学习习惯的解决方案.结合具体例子说明非精确概念的学习与应用的过程,总结非精确概念学习同时具有归纳学习和统计学习的、优势及很强的鲁棒性,其缺点是计算量大,需要维扩一个很大的目标函数假设集合及没能充分考虑领域知识.并指出本文学习方法的可能应用领域.
展开更多
关键词
非精确概念
机器学习
任务模式
下载PDF
职称材料
基于扩展Viterbi路径的概率Earley算法
被引量:
1
6
作者
韩习武
Roland Hausser
《计算机科学》
CSCD
北大核心
2011年第1期207-209,共3页
概率Earley句法分析算法采用Viterbi路径构造输入序列的句法树,由于文法限制,存在空树问题。提出了扩展启始状态、省略未覆盖句首和补充未覆盖子树等方法来对Viterbi路径进行扩展,解决了绝大多数空树问题,并有效提高了Earley算法的整体...
概率Earley句法分析算法采用Viterbi路径构造输入序列的句法树,由于文法限制,存在空树问题。提出了扩展启始状态、省略未覆盖句首和补充未覆盖子树等方法来对Viterbi路径进行扩展,解决了绝大多数空树问题,并有效提高了Earley算法的整体性能。
展开更多
关键词
Viterbi路径
句法分析
概率Earley算法
下载PDF
职称材料
基于次范畴化的汉语多义动词模糊聚类(英文)
7
作者
韩习武
赵铁军
《软件学报》
EI
CSCD
北大核心
2006年第2期259-266,共8页
描述了应用模糊k均值方法聚类汉语多义动词的实验,共涉及到60个汉语动词,40个多义词,20个单义词.首先,自动获取每个动词的次范畴化框架的概率分布,然后,导出这些动词的模糊聚类.结果表明,纯洁度和对精确度的综合量度较好地反映了聚类性...
描述了应用模糊k均值方法聚类汉语多义动词的实验,共涉及到60个汉语动词,40个多义词,20个单义词.首先,自动获取每个动词的次范畴化框架的概率分布,然后,导出这些动词的模糊聚类.结果表明,纯洁度和对精确度的综合量度较好地反映了聚类性能,尽管动词的句法行为在一定程度上体现了深层语义,但汉语动词的句法行为不易从单一的语义层预测出来.
展开更多
关键词
汉语
多义动词
次范畴化
模糊k均值
聚类
下载PDF
职称材料
基于转换句式的英语动词次范畴化获取回退
8
作者
韩习武
赵铁军
《高技术通讯》
CAS
CSCD
北大核心
2006年第9期904-908,共5页
提出了一种以转换句式为回退启发信息的双重过滤的假设检验方法,从而在很大程度上改善了Korhonen英语动词SCF自动获取系统的整体性能.实验数据表明,同MLE过滤方法相比,精确率提高到91.18%,召回率没有降低,绝对F值提高3.96%,相对F值提高1...
提出了一种以转换句式为回退启发信息的双重过滤的假设检验方法,从而在很大程度上改善了Korhonen英语动词SCF自动获取系统的整体性能.实验数据表明,同MLE过滤方法相比,精确率提高到91.18%,召回率没有降低,绝对F值提高3.96%,相对F值提高13.72%;同当前最优结果相比,上述指标都有不同程度的提高.这使得英语动词次范畴化自动获取结果对于某些具体的NLP任务或进一步的人工校对来说有了更大的实用性价值.
展开更多
关键词
句式转换
次范畴化
回退
过滤
下载PDF
职称材料
汉英动词次范畴化对应类型的统计分析
9
作者
韩习武
赵铁军
《计算机科学》
CSCD
北大核心
2010年第3期230-233,共4页
基于大规模句子级,对齐双语语料库进行了统计分析汉英动词次范畴化对应类型的系统性实验。首先以语言学量度为启发,应用双重最大似然检验的统计过滤方法初步估计了654种汉英次范畴化对应类型的概率分布;然后根据汉英句法特点对次范畴化...
基于大规模句子级,对齐双语语料库进行了统计分析汉英动词次范畴化对应类型的系统性实验。首先以语言学量度为启发,应用双重最大似然检验的统计过滤方法初步估计了654种汉英次范畴化对应类型的概率分布;然后根据汉英句法特点对次范畴化对应类型进行了语言学分类;最后针对每一种对应类型及其背景语料进行了基于支持向量机的语言学类别标注和统计可靠性分析。
展开更多
关键词
汉英动词次范畴化
统计分析
支持向量机
下载PDF
职称材料
动词次范畴化形式描写的语义与句法
10
作者
韩习武
《语言文字应用》
CSSCI
北大核心
2008年第4期126-132,共7页
动词次范畴化现象普遍存在于自然语言的语义和句法形式之中,是计算语言学研究的关键性内容之一。恰当的动词次范畴化形式描写将有利于自然语言信息的逻辑表述、计算机自动处理以及动词词汇化知识的获取和应用。本文试从语言认知和言语...
动词次范畴化现象普遍存在于自然语言的语义和句法形式之中,是计算语言学研究的关键性内容之一。恰当的动词次范畴化形式描写将有利于自然语言信息的逻辑表述、计算机自动处理以及动词词汇化知识的获取和应用。本文试从语言认知和言语生成的角度讨论动词次范畴化形式描写中语义和句法的关系,提出属性划分和子类对应的解决方案。
展开更多
关键词
动词次范畴化
形式描写
语义属性
句法属性
下载PDF
职称材料
汉英动词次范畴化对应关系自动获取
11
作者
韩习武
《计算机工程与应用》
CSCD
北大核心
2008年第6期9-13,28,共6页
动词次范畴化及其自动获取的研究已经在英、汉等很多语种里取得了较好的成果,但跨语言的次范畴化研究仍然很少,并且不成体系。描述了基于汉英双语语料库的统计分析并获取跨语言次范畴化对应关系的系统化实验。首先,根据双语词典和句法...
动词次范畴化及其自动获取的研究已经在英、汉等很多语种里取得了较好的成果,但跨语言的次范畴化研究仍然很少,并且不成体系。描述了基于汉英双语语料库的统计分析并获取跨语言次范畴化对应关系的系统化实验。首先,根据双语词典和句法相似度识别谓词可能对齐的句对;然后,应用双重最大似然检验的统计过滤方法自动获取了654种次范畴化框架对应类型。实验结果分析表明,这些对应类型具备统计和句法意义上的协调性。
展开更多
关键词
动词次范畴化
跨语言对应关系
自动获取
下载PDF
职称材料
面向特定领域的汉语句法主干分析
被引量:
8
12
作者
齐浩亮
杨沐昀
+2 位作者
孟遥
韩习武
赵铁军
《中文信息学报》
CSCD
北大核心
2004年第1期1-5,13,共6页
本文提出了一种面向特定领域的汉语句法主干分析方法。该方法中包括浅层句法分析、模板匹配两个关键环节 ,形成用模板表示的句法主干。在浅层句法分析中 ,本文使用了级联的隐马尔可夫模型进行了短语的归并 ;而后以已有的汉语句子模板为...
本文提出了一种面向特定领域的汉语句法主干分析方法。该方法中包括浅层句法分析、模板匹配两个关键环节 ,形成用模板表示的句法主干。在浅层句法分析中 ,本文使用了级联的隐马尔可夫模型进行了短语的归并 ;而后以已有的汉语句子模板为基础 ,进行模板匹配以达到句法主干分析的目标。在针对体育新闻领域语料的开放测试中 ,模板匹配的精确率和召回率分别达到了 98 0 4 %和 81 4 3% ,句子级的精确率和召回率分别达到了 96 97%、84 85 % 。
展开更多
关键词
人工智能
自然语言处理
浅层句法分析
句法主干分析
模板
下载PDF
职称材料
面向体育领域的句子主干翻译技术研究
被引量:
1
13
作者
薛永增
杨沐昀
+2 位作者
赵铁军
韩习武
齐浩亮
《中文信息学报》
CSCD
北大核心
2005年第5期24-30,共7页
为了有效翻译体育领域文本,特别是文本中的长句,本文提出了一种面向体育领域的句子主干翻译方法。该方法采用模板来表示句子主干,主要包括句法主干分析、模板转换和句子主干译文生成三个步骤。本文研究中特别针对体育领域的语言特点进...
为了有效翻译体育领域文本,特别是文本中的长句,本文提出了一种面向体育领域的句子主干翻译方法。该方法采用模板来表示句子主干,主要包括句法主干分析、模板转换和句子主干译文生成三个步骤。本文研究中特别针对体育领域的语言特点进行了模板的设计和获取;在译文生成过程中,则分别利用规则和模板,采用了短语级全译和句子级摘译相结合的混合生成策略,并引入翻译函数来处理形态变化。实验结果表明句子主干翻译方法能够获取句子的关键信息,在可懂度上优于完全翻译,其忠实度也令人满意,是处理体育领域文本的有效方法。
展开更多
关键词
人工智能
机器翻译
句子主干翻译
模板
体育领域
下载PDF
职称材料
动词次范畴英汉论元对应关系获取
被引量:
1
14
作者
朱聪慧
赵铁军
+1 位作者
韩习武
郑德权
《中文信息学报》
CSCD
北大核心
2010年第2期91-95,121,共6页
动词次范畴是根据句法行为对动词的进一步划分,它是由核心动词和一系列论元组成。其相关研究在英汉等多种语言方面都取得了较好的成果,但跨语言之间的研究还很少。该文提出了一种基于主动学习策略的英汉动词次范畴论元对应关系自动获取...
动词次范畴是根据句法行为对动词的进一步划分,它是由核心动词和一系列论元组成。其相关研究在英汉等多种语言方面都取得了较好的成果,但跨语言之间的研究还很少。该文提出了一种基于主动学习策略的英汉动词次范畴论元对应关系自动获取方法,这种方法可以在双语平行语料上,几乎不需要任何先验的语言学知识的情况下,自动获取英汉论元的对应关系。然后我们将这些对应关系加入了统计机器翻译系统。实验结果表明,融合了英汉动词次范畴论元对应关系的SMT系统在性能上有明显的提升,证明了自动抽取的对应关系的有效性,也为SMT提供了新的研究方向。
展开更多
关键词
人工智能
机器翻译
动词次范畴化
跨语言论元对应关系
自动获取
统计机器翻译
下载PDF
职称材料
基于加权子序列核函数的次范畴论元分析
15
作者
朱聪慧
赵铁军
+1 位作者
韩习武
郑德权
《高技术通讯》
EI
CAS
CSCD
北大核心
2010年第2期127-132,共6页
为提高汉语动词次范畴化框架(SCFs)的分析性能,提出了一种新的次范畴论元分析方法。该方法引入了基于间隙加权子序列的核函数,以传统规则的右部作为分类类别,将规则左部作为问题输入空间,将原本规则推导的问题转化为机器学习问题。由于...
为提高汉语动词次范畴化框架(SCFs)的分析性能,提出了一种新的次范畴论元分析方法。该方法引入了基于间隙加权子序列的核函数,以传统规则的右部作为分类类别,将规则左部作为问题输入空间,将原本规则推导的问题转化为机器学习问题。由于间隙加权子序列核函数可以考虑跨距离的词之间的依赖关系,加之机器学习方法的引入,使得论元识别精度从55.16%提到了93.43%,并且极大提高了次范畴整句获取精度。
展开更多
关键词
汉语动词次范畴(SCF)
论元分析
主动学习
间隔加权子序列
下载PDF
职称材料
双语词典在统计机器翻译中的应用
16
作者
王丽
韩习武
《计算机工程与应用》
CSCD
北大核心
2010年第16期135-139,共5页
在当前的基于统计的翻译方法中,双语语料库的规模、词对齐的准确率对于翻译系统的性能有很大的影响。虽然大规模语料库可以改善词语对齐的准确度,提高系统的性能,但同时会以增加系统的负载为代价,因此目前对于统计机器翻译方法的研究在...
在当前的基于统计的翻译方法中,双语语料库的规模、词对齐的准确率对于翻译系统的性能有很大的影响。虽然大规模语料库可以改善词语对齐的准确度,提高系统的性能,但同时会以增加系统的负载为代价,因此目前对于统计机器翻译方法的研究在使用大规模语料库的基础上,同时寻求其他可以提高系统性能的方法。针对以上问题,提出一种把双语词典应用在统计机器翻译中的方法,不仅优化了词对齐的准确率,而且得出质量更高的翻译结果,在一定程度上缓解了数据稀疏问题。
展开更多
关键词
统计机器翻译
双语词典
双语语料库
下载PDF
职称材料
浅析英语中的否定句式
17
作者
韩习武
胡继成
邬明晶
《黑龙江工程学院学报》
CAS
2000年第3期18-20,23,共4页
从否定句式的语言功能角度,以否定成分的语义为标准,把否定句式划分为四类,并辅以例句;此外,对句子中否定成分的位置,及否定成分的句法控制范围做了系统的阐述。
关键词
否定句式
分类
否定位置
否定范围
下载PDF
职称材料
再论语言的层次结构——语义层在语言研究中的地位
18
作者
韩习武
《外国语言文学》
2004年第4期26-30,共5页
语言的层次结构一直是各语言学派首要解决的问题,本文在总结前人观点的基础上,结合当代语言学和其它同语言学相交叉的学科的发展,尝试提出以语义为中心的语言层次结构模式,并阐述了该模式的理论意义和部分应用设想。
关键词
语言研究
语言学派
语义
语言层次
论语
结构模式
理论意义
学科
层次结构
观点
原文传递
NLP领域粗糙假设空间的统计优化
19
作者
韩习武
赵铁军
《计算机与信息技术》
2005年第4期9-12,共4页
本文尝试总结出一类通过优化粗糙假设空间而学习近似目标概念的自然语言处理(NLP)问题的解决方法。自然语言的结构、意义和应用复杂多变,这使得NLP目标概念本身就不很明确,更难于从目标概念出发构造偏序假设空间。因此我们从NLP训练样...
本文尝试总结出一类通过优化粗糙假设空间而学习近似目标概念的自然语言处理(NLP)问题的解决方法。自然语言的结构、意义和应用复杂多变,这使得NLP目标概念本身就不很明确,更难于从目标概念出发构造偏序假设空间。因此我们从NLP训练样本出发,以较为简单明确的语言学知识为启发,生成例(token)无偏的粗糙假设空间H,然后以型(type)频率为偏序对H进行统计优化,直至得到可以"可能近似正确"表示目标概念的变型空间H。
展开更多
关键词
NLP
粗糙假设空间
统计优化
原文传递
汉英机器翻译中的意译和直译应用
被引量:
1
20
作者
翟舒
韩习武
《外语学刊》
CSSCI
北大核心
2011年第4期113-116,共4页
汉英机器翻译的能力一直是应用语言学界探讨的焦点。本文通过对直译和意译在传统翻译理论中的界定,提出计算语言学中对直译和意译的形式化和识别的方法,并把其应用到统计机器翻译(SMT)对直译和意译句对的识别中,最后在机器翻译实验中对...
汉英机器翻译的能力一直是应用语言学界探讨的焦点。本文通过对直译和意译在传统翻译理论中的界定,提出计算语言学中对直译和意译的形式化和识别的方法,并把其应用到统计机器翻译(SMT)对直译和意译句对的识别中,最后在机器翻译实验中对直译、意译理论进行验证。
展开更多
关键词
直译
意译
统计机器翻译
应用
原文传递
题名
一种聚类质量的评价方法及其应用
被引量:
7
1
作者
韩习武
赵铁军
机构
黑龙江大学计算机学院
哈尔滨工业大学计算机学院
出处
《哈尔滨工业大学学报》
EI
CAS
CSCD
北大核心
2009年第11期225-227,共3页
基金
国家自然科学基金资助项目(60373101
60773069
60873169)
文摘
提出一种聚类质量的评价方法,它依据以类内相似度和类外相似度描述的相关数据集的自然结构来计算给定聚类结果的分类质量.初步的实验和分析表明,该方法基本符合人类的分类直觉,可以单独用来对聚类结果进行评价,用作对其它评价方法的补充,也可以用来调整人工聚类标准.
关键词
聚类质量
类内相似度
类外相似度
评价
Keywords
clustering quality
intra-cluster similarity
inter-cluster similarity
evaluation
分类号
TP18 [自动化与计算机技术—控制理论与控制工程]
下载PDF
职称材料
题名
基于弱指导SVM的汉语动词次范畴化自动获取
被引量:
2
2
作者
韩习武
赵铁军
机构
黑龙江大学计算机学院
哈尔滨工业大学计算机学院
出处
《计算机工程与应用》
CSCD
北大核心
2006年第28期9-11,27,共4页
基金
国家自然科学基金项目资助(编号:60373101)
文摘
动词次范畴化自动获取过程主要涉及到两个典型步骤一、依据启发性规则生成次范畴化假设;二、应用统计方法对假设集合进行过滤,选择可靠的次范畴化类型。此前改进获取性能的研究都集中在统计过滤阶段,并且相关实验的假设生成阶段都没有涉及到有指导的训练过程,因此所有这些方法都是无指导的。文章提出一种弱指导的汉语动词次范畴化自动获取方案,并应用SVM分类器取代原系统中的无指导假设生成模块。实验结果表明,最终获取性能有了统计意义上的改善。
关键词
汉语动词
次范畴化
弱指导
SVM
Keywords
Chinese verbs, subcategorization,weakly supervised, SVM
分类号
TP18 [自动化与计算机技术—控制理论与控制工程]
下载PDF
职称材料
题名
基于子类的汉语动词SCF获取回退
被引量:
1
3
作者
韩习武
赵铁军
机构
哈尔滨工业大学计算机科学与技术学院
出处
《计算机工程与应用》
CSCD
北大核心
2005年第30期158-161,共4页
基金
国家自然科学基金项目:1.汉语动词次范畴化自动获取技术的研究(编号:60373101)
2.基于双语信息的英汉译文消歧技术研究(编号:60375019)
国家863高技术研究发展计划(编号:2002AA117010-09)
文摘
研究证明基于动词子类的回退方法能够改进次范畴化(SCF)自动获取的性能,不同的子类划分方法起到重要的作用。本文利用《同义词词林》、《知网1.2版》和《现代汉语动词大词典》分别对30个测试动词进行分类,并以分类结果来改进汉语动词SCF自动获取的性能,实验结果证明:一、回退后的获取性能有了较为明显的提高;二、涉及句法成分较多的分类方法更适合汉语SCF自动获取;三、随机组合相关动词来构造回退子类是不合理的;四、上述分类都不是适合汉语动词SCF获取回退的最优方法。
关键词
汉语动词
子类
SCF
回退
Keywords
Chinese verbs, sub-classification, SCF, backoff
分类号
TP18 [自动化与计算机技术—控制理论与控制工程]
下载PDF
职称材料
题名
从真实语料中自动获取汉语动词次范畴化信息
被引量:
1
4
作者
韩习武
赵铁军
机构
哈尔滨工业大学计算机学院
出处
《计算机工程与应用》
CSCD
北大核心
2005年第19期1-4,181,共5页
基金
国家自然科学基金项目"汉语动词次范畴化自动获取技术的研究"(编号:60373101)
文摘
描述了一种自动获取汉语动词次范畴化信息的可行技术和一个从大规模真实文本中构建动词次范畴化词汇知识库的系统性实验。实验基于语言学启发信息生成次范畴化框架假设,然后应用统计方法进行假设检验。对20个句模多元化动词获取结果的初步评价表明,该技术已经达到了目前国际上同类研究相应水平的精确率和召回率;并且,所得知识库在一个PCFG句法分析器上的简单应用体现了次范畴化信息在自然语言处理领域有着可观的潜在价值。
关键词
汉语动词
谓词
次范畴化
次范畴化框架
Keywords
Chinese verb,predicate,subcategorization,subcategorization frame
分类号
TP18 [自动化与计算机技术—控制理论与控制工程]
下载PDF
职称材料
题名
非精确概念的机器学习与应用
被引量:
1
5
作者
韩习武
赵铁军
机构
哈尔滨工业大学计算机科学与技术学院
出处
《哈尔滨工业大学学报》
EI
CAS
CSCD
北大核心
2006年第10期1736-1739,共4页
基金
国家自然科学基金资助项目(60373101)
文摘
提出并描述非精确概念的机器学习问题,定义非精确概念学习的一般任务模式,给出符合人类学习习惯的解决方案.结合具体例子说明非精确概念的学习与应用的过程,总结非精确概念学习同时具有归纳学习和统计学习的、优势及很强的鲁棒性,其缺点是计算量大,需要维扩一个很大的目标函数假设集合及没能充分考虑领域知识.并指出本文学习方法的可能应用领域.
关键词
非精确概念
机器学习
任务模式
Keywords
inaccurate concept
machine learning
task model
分类号
TP181 [自动化与计算机技术—控制理论与控制工程]
下载PDF
职称材料
题名
基于扩展Viterbi路径的概率Earley算法
被引量:
1
6
作者
韩习武
Roland Hausser
机构
黑龙江大学计算机科学技术学院
德国埃尔兰根纽伦堡大学计算语言学研究室
出处
《计算机科学》
CSCD
北大核心
2011年第1期207-209,共3页
基金
国家自然科学基金(60773069
60873169)资助
文摘
概率Earley句法分析算法采用Viterbi路径构造输入序列的句法树,由于文法限制,存在空树问题。提出了扩展启始状态、省略未覆盖句首和补充未覆盖子树等方法来对Viterbi路径进行扩展,解决了绝大多数空树问题,并有效提高了Earley算法的整体性能。
关键词
Viterbi路径
句法分析
概率Earley算法
Keywords
Viterbi path
Parsing
Probabilistic earley algorithm
分类号
TP181 [自动化与计算机技术—控制理论与控制工程]
下载PDF
职称材料
题名
基于次范畴化的汉语多义动词模糊聚类(英文)
7
作者
韩习武
赵铁军
机构
哈尔滨工业大学计算机学院
出处
《软件学报》
EI
CSCD
北大核心
2006年第2期259-266,共8页
基金
国家自然科学基金~~
文摘
描述了应用模糊k均值方法聚类汉语多义动词的实验,共涉及到60个汉语动词,40个多义词,20个单义词.首先,自动获取每个动词的次范畴化框架的概率分布,然后,导出这些动词的模糊聚类.结果表明,纯洁度和对精确度的综合量度较好地反映了聚类性能,尽管动词的句法行为在一定程度上体现了深层语义,但汉语动词的句法行为不易从单一的语义层预测出来.
关键词
汉语
多义动词
次范畴化
模糊k均值
聚类
Keywords
Chinese
polysemic verb
subcategrization
fuzzy k-means
cluster
分类号
TP391 [自动化与计算机技术—计算机应用技术]
下载PDF
职称材料
题名
基于转换句式的英语动词次范畴化获取回退
8
作者
韩习武
赵铁军
机构
哈尔滨工业大学计算机学院
出处
《高技术通讯》
CAS
CSCD
北大核心
2006年第9期904-908,共5页
基金
863计划(2002AA117010-09)和国家自然科学基金(60373101)资助项目.
文摘
提出了一种以转换句式为回退启发信息的双重过滤的假设检验方法,从而在很大程度上改善了Korhonen英语动词SCF自动获取系统的整体性能.实验数据表明,同MLE过滤方法相比,精确率提高到91.18%,召回率没有降低,绝对F值提高3.96%,相对F值提高13.72%;同当前最优结果相比,上述指标都有不同程度的提高.这使得英语动词次范畴化自动获取结果对于某些具体的NLP任务或进一步的人工校对来说有了更大的实用性价值.
关键词
句式转换
次范畴化
回退
过滤
Keywords
diathesis alternation, SCF, backoff, filtering
分类号
TP311 [自动化与计算机技术—计算机软件与理论]
下载PDF
职称材料
题名
汉英动词次范畴化对应类型的统计分析
9
作者
韩习武
赵铁军
机构
黑龙江大学计算机科学技术学院
哈尔滨工业大学计算机科学技术学院
出处
《计算机科学》
CSCD
北大核心
2010年第3期230-233,共4页
基金
国家自然科学基金(60773069
60873169)资助
文摘
基于大规模句子级,对齐双语语料库进行了统计分析汉英动词次范畴化对应类型的系统性实验。首先以语言学量度为启发,应用双重最大似然检验的统计过滤方法初步估计了654种汉英次范畴化对应类型的概率分布;然后根据汉英句法特点对次范畴化对应类型进行了语言学分类;最后针对每一种对应类型及其背景语料进行了基于支持向量机的语言学类别标注和统计可靠性分析。
关键词
汉英动词次范畴化
统计分析
支持向量机
Keywords
Chinese-English verb subcategorization, Statistical analysis, SVM
分类号
TP181 [自动化与计算机技术—控制理论与控制工程]
下载PDF
职称材料
题名
动词次范畴化形式描写的语义与句法
10
作者
韩习武
机构
黑龙江大学计算语言学研究所
出处
《语言文字应用》
CSSCI
北大核心
2008年第4期126-132,共7页
基金
国家自然科学基金项目(批准号:60773069)
国家博士后科研基金项目(编号:20060400246)
黑龙江省博士后科研基金项目(编号:LBH-Z06217)
文摘
动词次范畴化现象普遍存在于自然语言的语义和句法形式之中,是计算语言学研究的关键性内容之一。恰当的动词次范畴化形式描写将有利于自然语言信息的逻辑表述、计算机自动处理以及动词词汇化知识的获取和应用。本文试从语言认知和言语生成的角度讨论动词次范畴化形式描写中语义和句法的关系,提出属性划分和子类对应的解决方案。
关键词
动词次范畴化
形式描写
语义属性
句法属性
Keywords
verb subcategorization
formalization
semantic attributes
syntactic attributes
分类号
H146 [语言文字—汉语]
下载PDF
职称材料
题名
汉英动词次范畴化对应关系自动获取
11
作者
韩习武
机构
黑龙江大学计算语言学研究所
出处
《计算机工程与应用》
CSCD
北大核心
2008年第6期9-13,28,共6页
基金
国家自然科学基金(the National Natural Science Foundation of Chinaunder Grant No.60773069)
中国博士后一等资助项目(No.20060400246)
黑龙江省博士后资助项目(No.LBH-Z06217)。
文摘
动词次范畴化及其自动获取的研究已经在英、汉等很多语种里取得了较好的成果,但跨语言的次范畴化研究仍然很少,并且不成体系。描述了基于汉英双语语料库的统计分析并获取跨语言次范畴化对应关系的系统化实验。首先,根据双语词典和句法相似度识别谓词可能对齐的句对;然后,应用双重最大似然检验的统计过滤方法自动获取了654种次范畴化框架对应类型。实验结果分析表明,这些对应类型具备统计和句法意义上的协调性。
关键词
动词次范畴化
跨语言对应关系
自动获取
Keywords
verb subcategorization
cross-lingual relations
acquisition
分类号
TP18 [自动化与计算机技术—控制理论与控制工程]
下载PDF
职称材料
题名
面向特定领域的汉语句法主干分析
被引量:
8
12
作者
齐浩亮
杨沐昀
孟遥
韩习武
赵铁军
机构
哈尔滨工业大学计算机科学与技术学院
富士通研究开发中心有限公司
出处
《中文信息学报》
CSCD
北大核心
2004年第1期1-5,13,共6页
基金
国家自然科学基金资助项目 (6 0 37310 1)
86 3计划支持项目(2 0 0 2AA1170 10 - 0 9)
文摘
本文提出了一种面向特定领域的汉语句法主干分析方法。该方法中包括浅层句法分析、模板匹配两个关键环节 ,形成用模板表示的句法主干。在浅层句法分析中 ,本文使用了级联的隐马尔可夫模型进行了短语的归并 ;而后以已有的汉语句子模板为基础 ,进行模板匹配以达到句法主干分析的目标。在针对体育新闻领域语料的开放测试中 ,模板匹配的精确率和召回率分别达到了 98 0 4 %和 81 4 3% ,句子级的精确率和召回率分别达到了 96 97%、84 85 % 。
关键词
人工智能
自然语言处理
浅层句法分析
句法主干分析
模板
Keywords
artificial intelligence
natural language processing
shallow parsing
skeleton parsing
template
分类号
TP391.1 [自动化与计算机技术—计算机应用技术]
下载PDF
职称材料
题名
面向体育领域的句子主干翻译技术研究
被引量:
1
13
作者
薛永增
杨沐昀
赵铁军
韩习武
齐浩亮
机构
哈尔滨工业大学计算机科学与技术学院
出处
《中文信息学报》
CSCD
北大核心
2005年第5期24-30,共7页
基金
国家863计划资助项目(2001AA114101
2002AA117010-09)
文摘
为了有效翻译体育领域文本,特别是文本中的长句,本文提出了一种面向体育领域的句子主干翻译方法。该方法采用模板来表示句子主干,主要包括句法主干分析、模板转换和句子主干译文生成三个步骤。本文研究中特别针对体育领域的语言特点进行了模板的设计和获取;在译文生成过程中,则分别利用规则和模板,采用了短语级全译和句子级摘译相结合的混合生成策略,并引入翻译函数来处理形态变化。实验结果表明句子主干翻译方法能够获取句子的关键信息,在可懂度上优于完全翻译,其忠实度也令人满意,是处理体育领域文本的有效方法。
关键词
人工智能
机器翻译
句子主干翻译
模板
体育领域
Keywords
artificial intelligence
machine translation
sentence skeleton translation
template
sports domain
分类号
TP391.1 [自动化与计算机技术—计算机应用技术]
下载PDF
职称材料
题名
动词次范畴英汉论元对应关系获取
被引量:
1
14
作者
朱聪慧
赵铁军
韩习武
郑德权
机构
教育部-微软语言语音重点实验室
计算机科学与技术学院
出处
《中文信息学报》
CSCD
北大核心
2010年第2期91-95,121,共6页
基金
国家自然科学基金资助项目(60773069,60973169)
文摘
动词次范畴是根据句法行为对动词的进一步划分,它是由核心动词和一系列论元组成。其相关研究在英汉等多种语言方面都取得了较好的成果,但跨语言之间的研究还很少。该文提出了一种基于主动学习策略的英汉动词次范畴论元对应关系自动获取方法,这种方法可以在双语平行语料上,几乎不需要任何先验的语言学知识的情况下,自动获取英汉论元的对应关系。然后我们将这些对应关系加入了统计机器翻译系统。实验结果表明,融合了英汉动词次范畴论元对应关系的SMT系统在性能上有明显的提升,证明了自动抽取的对应关系的有效性,也为SMT提供了新的研究方向。
关键词
人工智能
机器翻译
动词次范畴化
跨语言论元对应关系
自动获取
统计机器翻译
Keywords
artificial intelligence
machine translation
verb subcategorization
cross-lingual argument crrespon- dence
automatic acquisition
statistical machine translation
分类号
TP391 [自动化与计算机技术—计算机应用技术]
下载PDF
职称材料
题名
基于加权子序列核函数的次范畴论元分析
15
作者
朱聪慧
赵铁军
韩习武
郑德权
机构
哈尔滨工业大学教育部-微软语言语音重点实验室
黑龙江大学计算机科学与技术学院
出处
《高技术通讯》
EI
CAS
CSCD
北大核心
2010年第2期127-132,共6页
基金
国家自然科学基金(60773069
60973169)资助项目
文摘
为提高汉语动词次范畴化框架(SCFs)的分析性能,提出了一种新的次范畴论元分析方法。该方法引入了基于间隙加权子序列的核函数,以传统规则的右部作为分类类别,将规则左部作为问题输入空间,将原本规则推导的问题转化为机器学习问题。由于间隙加权子序列核函数可以考虑跨距离的词之间的依赖关系,加之机器学习方法的引入,使得论元识别精度从55.16%提到了93.43%,并且极大提高了次范畴整句获取精度。
关键词
汉语动词次范畴(SCF)
论元分析
主动学习
间隔加权子序列
Keywords
Chinese verb subeategorization frame (SCF), argument analysis, active learning strategies, weighted gap subsequenee kernel
分类号
TP18 [自动化与计算机技术—控制理论与控制工程]
下载PDF
职称材料
题名
双语词典在统计机器翻译中的应用
16
作者
王丽
韩习武
机构
黑龙江大学信息技术研究所
出处
《计算机工程与应用》
CSCD
北大核心
2010年第16期135-139,共5页
基金
国家自然科学基金(No.60773069
No.60873169)~~
文摘
在当前的基于统计的翻译方法中,双语语料库的规模、词对齐的准确率对于翻译系统的性能有很大的影响。虽然大规模语料库可以改善词语对齐的准确度,提高系统的性能,但同时会以增加系统的负载为代价,因此目前对于统计机器翻译方法的研究在使用大规模语料库的基础上,同时寻求其他可以提高系统性能的方法。针对以上问题,提出一种把双语词典应用在统计机器翻译中的方法,不仅优化了词对齐的准确率,而且得出质量更高的翻译结果,在一定程度上缓解了数据稀疏问题。
关键词
统计机器翻译
双语词典
双语语料库
Keywords
statistical machine translation
bilingual dictionary
bilingual corpus
分类号
TP18 [自动化与计算机技术—控制理论与控制工程]
下载PDF
职称材料
题名
浅析英语中的否定句式
17
作者
韩习武
胡继成
邬明晶
机构
哈尔滨工程高等专科学校
黑龙江交通高等专科学校
出处
《黑龙江工程学院学报》
CAS
2000年第3期18-20,23,共4页
文摘
从否定句式的语言功能角度,以否定成分的语义为标准,把否定句式划分为四类,并辅以例句;此外,对句子中否定成分的位置,及否定成分的句法控制范围做了系统的阐述。
关键词
否定句式
分类
否定位置
否定范围
Keywords
negation
class
negation position
negation range
分类号
H314.3 [语言文字—英语]
下载PDF
职称材料
题名
再论语言的层次结构——语义层在语言研究中的地位
18
作者
韩习武
机构
黑龙江大学计算语言学研究所
出处
《外国语言文学》
2004年第4期26-30,共5页
文摘
语言的层次结构一直是各语言学派首要解决的问题,本文在总结前人观点的基础上,结合当代语言学和其它同语言学相交叉的学科的发展,尝试提出以语义为中心的语言层次结构模式,并阐述了该模式的理论意义和部分应用设想。
关键词
语言研究
语言学派
语义
语言层次
论语
结构模式
理论意义
学科
层次结构
观点
Keywords
layers of language
framework of language
semantic layer
fabric model of language
分类号
H030 [语言文字—语言学]
原文传递
题名
NLP领域粗糙假设空间的统计优化
19
作者
韩习武
赵铁军
机构
哈尔滨工业大学计算机学院
出处
《计算机与信息技术》
2005年第4期9-12,共4页
基金
国家自然科学基金项目支持
项目名称:"汉语动词次范畴化自动获取技术的研究"
项目编号:60373101。
文摘
本文尝试总结出一类通过优化粗糙假设空间而学习近似目标概念的自然语言处理(NLP)问题的解决方法。自然语言的结构、意义和应用复杂多变,这使得NLP目标概念本身就不很明确,更难于从目标概念出发构造偏序假设空间。因此我们从NLP训练样本出发,以较为简单明确的语言学知识为启发,生成例(token)无偏的粗糙假设空间H,然后以型(type)频率为偏序对H进行统计优化,直至得到可以"可能近似正确"表示目标概念的变型空间H。
关键词
NLP
粗糙假设空间
统计优化
分类号
TP301.6 [自动化与计算机技术—计算机系统结构]
原文传递
题名
汉英机器翻译中的意译和直译应用
被引量:
1
20
作者
翟舒
韩习武
机构
东北林业大学
黑龙江大学
出处
《外语学刊》
CSSCI
北大核心
2011年第4期113-116,共4页
基金
国家自然科学基金项目"英汉动词次范畴化对应关系自动获取"(60770069)
国家自然科学基金项目"面向句法分析的动词次范畴化应用技术"(60873169)的阶段性成果
文摘
汉英机器翻译的能力一直是应用语言学界探讨的焦点。本文通过对直译和意译在传统翻译理论中的界定,提出计算语言学中对直译和意译的形式化和识别的方法,并把其应用到统计机器翻译(SMT)对直译和意译句对的识别中,最后在机器翻译实验中对直译、意译理论进行验证。
关键词
直译
意译
统计机器翻译
应用
Keywords
literal translation
free translation
SMT
application
分类号
H315.9 [语言文字—英语]
原文传递
题名
作者
出处
发文年
被引量
操作
1
一种聚类质量的评价方法及其应用
韩习武
赵铁军
《哈尔滨工业大学学报》
EI
CAS
CSCD
北大核心
2009
7
下载PDF
职称材料
2
基于弱指导SVM的汉语动词次范畴化自动获取
韩习武
赵铁军
《计算机工程与应用》
CSCD
北大核心
2006
2
下载PDF
职称材料
3
基于子类的汉语动词SCF获取回退
韩习武
赵铁军
《计算机工程与应用》
CSCD
北大核心
2005
1
下载PDF
职称材料
4
从真实语料中自动获取汉语动词次范畴化信息
韩习武
赵铁军
《计算机工程与应用》
CSCD
北大核心
2005
1
下载PDF
职称材料
5
非精确概念的机器学习与应用
韩习武
赵铁军
《哈尔滨工业大学学报》
EI
CAS
CSCD
北大核心
2006
1
下载PDF
职称材料
6
基于扩展Viterbi路径的概率Earley算法
韩习武
Roland Hausser
《计算机科学》
CSCD
北大核心
2011
1
下载PDF
职称材料
7
基于次范畴化的汉语多义动词模糊聚类(英文)
韩习武
赵铁军
《软件学报》
EI
CSCD
北大核心
2006
0
下载PDF
职称材料
8
基于转换句式的英语动词次范畴化获取回退
韩习武
赵铁军
《高技术通讯》
CAS
CSCD
北大核心
2006
0
下载PDF
职称材料
9
汉英动词次范畴化对应类型的统计分析
韩习武
赵铁军
《计算机科学》
CSCD
北大核心
2010
0
下载PDF
职称材料
10
动词次范畴化形式描写的语义与句法
韩习武
《语言文字应用》
CSSCI
北大核心
2008
0
下载PDF
职称材料
11
汉英动词次范畴化对应关系自动获取
韩习武
《计算机工程与应用》
CSCD
北大核心
2008
0
下载PDF
职称材料
12
面向特定领域的汉语句法主干分析
齐浩亮
杨沐昀
孟遥
韩习武
赵铁军
《中文信息学报》
CSCD
北大核心
2004
8
下载PDF
职称材料
13
面向体育领域的句子主干翻译技术研究
薛永增
杨沐昀
赵铁军
韩习武
齐浩亮
《中文信息学报》
CSCD
北大核心
2005
1
下载PDF
职称材料
14
动词次范畴英汉论元对应关系获取
朱聪慧
赵铁军
韩习武
郑德权
《中文信息学报》
CSCD
北大核心
2010
1
下载PDF
职称材料
15
基于加权子序列核函数的次范畴论元分析
朱聪慧
赵铁军
韩习武
郑德权
《高技术通讯》
EI
CAS
CSCD
北大核心
2010
0
下载PDF
职称材料
16
双语词典在统计机器翻译中的应用
王丽
韩习武
《计算机工程与应用》
CSCD
北大核心
2010
0
下载PDF
职称材料
17
浅析英语中的否定句式
韩习武
胡继成
邬明晶
《黑龙江工程学院学报》
CAS
2000
0
下载PDF
职称材料
18
再论语言的层次结构——语义层在语言研究中的地位
韩习武
《外国语言文学》
2004
0
原文传递
19
NLP领域粗糙假设空间的统计优化
韩习武
赵铁军
《计算机与信息技术》
2005
0
原文传递
20
汉英机器翻译中的意译和直译应用
翟舒
韩习武
《外语学刊》
CSSCI
北大核心
2011
1
原文传递
已选择
0
条
导出题录
引用分析
参考文献
引证文献
统计分析
检索结果
已选文献
上一页
1
2
下一页
到第
页
确定
用户登录
登录
IP登录
使用帮助
返回顶部