期刊文献+
共找到21篇文章
< 1 2 >
每页显示 20 50 100
一种聚类质量的评价方法及其应用 被引量:7
1
作者 韩习武 赵铁军 《哈尔滨工业大学学报》 EI CAS CSCD 北大核心 2009年第11期225-227,共3页
提出一种聚类质量的评价方法,它依据以类内相似度和类外相似度描述的相关数据集的自然结构来计算给定聚类结果的分类质量.初步的实验和分析表明,该方法基本符合人类的分类直觉,可以单独用来对聚类结果进行评价,用作对其它评价方法的补充... 提出一种聚类质量的评价方法,它依据以类内相似度和类外相似度描述的相关数据集的自然结构来计算给定聚类结果的分类质量.初步的实验和分析表明,该方法基本符合人类的分类直觉,可以单独用来对聚类结果进行评价,用作对其它评价方法的补充,也可以用来调整人工聚类标准. 展开更多
关键词 聚类质量 类内相似度 类外相似度 评价
下载PDF
基于弱指导SVM的汉语动词次范畴化自动获取 被引量:2
2
作者 韩习武 赵铁军 《计算机工程与应用》 CSCD 北大核心 2006年第28期9-11,27,共4页
动词次范畴化自动获取过程主要涉及到两个典型步骤一、依据启发性规则生成次范畴化假设;二、应用统计方法对假设集合进行过滤,选择可靠的次范畴化类型。此前改进获取性能的研究都集中在统计过滤阶段,并且相关实验的假设生成阶段都没有... 动词次范畴化自动获取过程主要涉及到两个典型步骤一、依据启发性规则生成次范畴化假设;二、应用统计方法对假设集合进行过滤,选择可靠的次范畴化类型。此前改进获取性能的研究都集中在统计过滤阶段,并且相关实验的假设生成阶段都没有涉及到有指导的训练过程,因此所有这些方法都是无指导的。文章提出一种弱指导的汉语动词次范畴化自动获取方案,并应用SVM分类器取代原系统中的无指导假设生成模块。实验结果表明,最终获取性能有了统计意义上的改善。 展开更多
关键词 汉语动词 次范畴化 弱指导 SVM
下载PDF
基于子类的汉语动词SCF获取回退 被引量:1
3
作者 韩习武 赵铁军 《计算机工程与应用》 CSCD 北大核心 2005年第30期158-161,共4页
研究证明基于动词子类的回退方法能够改进次范畴化(SCF)自动获取的性能,不同的子类划分方法起到重要的作用。本文利用《同义词词林》、《知网1.2版》和《现代汉语动词大词典》分别对30个测试动词进行分类,并以分类结果来改进汉语动词SC... 研究证明基于动词子类的回退方法能够改进次范畴化(SCF)自动获取的性能,不同的子类划分方法起到重要的作用。本文利用《同义词词林》、《知网1.2版》和《现代汉语动词大词典》分别对30个测试动词进行分类,并以分类结果来改进汉语动词SCF自动获取的性能,实验结果证明:一、回退后的获取性能有了较为明显的提高;二、涉及句法成分较多的分类方法更适合汉语SCF自动获取;三、随机组合相关动词来构造回退子类是不合理的;四、上述分类都不是适合汉语动词SCF获取回退的最优方法。 展开更多
关键词 汉语动词 子类 SCF 回退
下载PDF
从真实语料中自动获取汉语动词次范畴化信息 被引量:1
4
作者 韩习武 赵铁军 《计算机工程与应用》 CSCD 北大核心 2005年第19期1-4,181,共5页
描述了一种自动获取汉语动词次范畴化信息的可行技术和一个从大规模真实文本中构建动词次范畴化词汇知识库的系统性实验。实验基于语言学启发信息生成次范畴化框架假设,然后应用统计方法进行假设检验。对20个句模多元化动词获取结果的... 描述了一种自动获取汉语动词次范畴化信息的可行技术和一个从大规模真实文本中构建动词次范畴化词汇知识库的系统性实验。实验基于语言学启发信息生成次范畴化框架假设,然后应用统计方法进行假设检验。对20个句模多元化动词获取结果的初步评价表明,该技术已经达到了目前国际上同类研究相应水平的精确率和召回率;并且,所得知识库在一个PCFG句法分析器上的简单应用体现了次范畴化信息在自然语言处理领域有着可观的潜在价值。 展开更多
关键词 汉语动词 谓词 次范畴化 次范畴化框架
下载PDF
非精确概念的机器学习与应用 被引量:1
5
作者 韩习武 赵铁军 《哈尔滨工业大学学报》 EI CAS CSCD 北大核心 2006年第10期1736-1739,共4页
提出并描述非精确概念的机器学习问题,定义非精确概念学习的一般任务模式,给出符合人类学习习惯的解决方案.结合具体例子说明非精确概念的学习与应用的过程,总结非精确概念学习同时具有归纳学习和统计学习的、优势及很强的鲁棒性,其缺... 提出并描述非精确概念的机器学习问题,定义非精确概念学习的一般任务模式,给出符合人类学习习惯的解决方案.结合具体例子说明非精确概念的学习与应用的过程,总结非精确概念学习同时具有归纳学习和统计学习的、优势及很强的鲁棒性,其缺点是计算量大,需要维扩一个很大的目标函数假设集合及没能充分考虑领域知识.并指出本文学习方法的可能应用领域. 展开更多
关键词 非精确概念 机器学习 任务模式
下载PDF
基于扩展Viterbi路径的概率Earley算法 被引量:1
6
作者 韩习武 Roland Hausser 《计算机科学》 CSCD 北大核心 2011年第1期207-209,共3页
概率Earley句法分析算法采用Viterbi路径构造输入序列的句法树,由于文法限制,存在空树问题。提出了扩展启始状态、省略未覆盖句首和补充未覆盖子树等方法来对Viterbi路径进行扩展,解决了绝大多数空树问题,并有效提高了Earley算法的整体... 概率Earley句法分析算法采用Viterbi路径构造输入序列的句法树,由于文法限制,存在空树问题。提出了扩展启始状态、省略未覆盖句首和补充未覆盖子树等方法来对Viterbi路径进行扩展,解决了绝大多数空树问题,并有效提高了Earley算法的整体性能。 展开更多
关键词 Viterbi路径 句法分析 概率Earley算法
下载PDF
基于次范畴化的汉语多义动词模糊聚类(英文)
7
作者 韩习武 赵铁军 《软件学报》 EI CSCD 北大核心 2006年第2期259-266,共8页
描述了应用模糊k均值方法聚类汉语多义动词的实验,共涉及到60个汉语动词,40个多义词,20个单义词.首先,自动获取每个动词的次范畴化框架的概率分布,然后,导出这些动词的模糊聚类.结果表明,纯洁度和对精确度的综合量度较好地反映了聚类性... 描述了应用模糊k均值方法聚类汉语多义动词的实验,共涉及到60个汉语动词,40个多义词,20个单义词.首先,自动获取每个动词的次范畴化框架的概率分布,然后,导出这些动词的模糊聚类.结果表明,纯洁度和对精确度的综合量度较好地反映了聚类性能,尽管动词的句法行为在一定程度上体现了深层语义,但汉语动词的句法行为不易从单一的语义层预测出来. 展开更多
关键词 汉语 多义动词 次范畴化 模糊k均值 聚类
下载PDF
基于转换句式的英语动词次范畴化获取回退
8
作者 韩习武 赵铁军 《高技术通讯》 CAS CSCD 北大核心 2006年第9期904-908,共5页
提出了一种以转换句式为回退启发信息的双重过滤的假设检验方法,从而在很大程度上改善了Korhonen英语动词SCF自动获取系统的整体性能.实验数据表明,同MLE过滤方法相比,精确率提高到91.18%,召回率没有降低,绝对F值提高3.96%,相对F值提高1... 提出了一种以转换句式为回退启发信息的双重过滤的假设检验方法,从而在很大程度上改善了Korhonen英语动词SCF自动获取系统的整体性能.实验数据表明,同MLE过滤方法相比,精确率提高到91.18%,召回率没有降低,绝对F值提高3.96%,相对F值提高13.72%;同当前最优结果相比,上述指标都有不同程度的提高.这使得英语动词次范畴化自动获取结果对于某些具体的NLP任务或进一步的人工校对来说有了更大的实用性价值. 展开更多
关键词 句式转换 次范畴化 回退 过滤
下载PDF
汉英动词次范畴化对应类型的统计分析
9
作者 韩习武 赵铁军 《计算机科学》 CSCD 北大核心 2010年第3期230-233,共4页
基于大规模句子级,对齐双语语料库进行了统计分析汉英动词次范畴化对应类型的系统性实验。首先以语言学量度为启发,应用双重最大似然检验的统计过滤方法初步估计了654种汉英次范畴化对应类型的概率分布;然后根据汉英句法特点对次范畴化... 基于大规模句子级,对齐双语语料库进行了统计分析汉英动词次范畴化对应类型的系统性实验。首先以语言学量度为启发,应用双重最大似然检验的统计过滤方法初步估计了654种汉英次范畴化对应类型的概率分布;然后根据汉英句法特点对次范畴化对应类型进行了语言学分类;最后针对每一种对应类型及其背景语料进行了基于支持向量机的语言学类别标注和统计可靠性分析。 展开更多
关键词 汉英动词次范畴化 统计分析 支持向量机
下载PDF
动词次范畴化形式描写的语义与句法
10
作者 韩习武 《语言文字应用》 CSSCI 北大核心 2008年第4期126-132,共7页
动词次范畴化现象普遍存在于自然语言的语义和句法形式之中,是计算语言学研究的关键性内容之一。恰当的动词次范畴化形式描写将有利于自然语言信息的逻辑表述、计算机自动处理以及动词词汇化知识的获取和应用。本文试从语言认知和言语... 动词次范畴化现象普遍存在于自然语言的语义和句法形式之中,是计算语言学研究的关键性内容之一。恰当的动词次范畴化形式描写将有利于自然语言信息的逻辑表述、计算机自动处理以及动词词汇化知识的获取和应用。本文试从语言认知和言语生成的角度讨论动词次范畴化形式描写中语义和句法的关系,提出属性划分和子类对应的解决方案。 展开更多
关键词 动词次范畴化 形式描写 语义属性 句法属性
下载PDF
汉英动词次范畴化对应关系自动获取
11
作者 韩习武 《计算机工程与应用》 CSCD 北大核心 2008年第6期9-13,28,共6页
动词次范畴化及其自动获取的研究已经在英、汉等很多语种里取得了较好的成果,但跨语言的次范畴化研究仍然很少,并且不成体系。描述了基于汉英双语语料库的统计分析并获取跨语言次范畴化对应关系的系统化实验。首先,根据双语词典和句法... 动词次范畴化及其自动获取的研究已经在英、汉等很多语种里取得了较好的成果,但跨语言的次范畴化研究仍然很少,并且不成体系。描述了基于汉英双语语料库的统计分析并获取跨语言次范畴化对应关系的系统化实验。首先,根据双语词典和句法相似度识别谓词可能对齐的句对;然后,应用双重最大似然检验的统计过滤方法自动获取了654种次范畴化框架对应类型。实验结果分析表明,这些对应类型具备统计和句法意义上的协调性。 展开更多
关键词 动词次范畴化 跨语言对应关系 自动获取
下载PDF
面向特定领域的汉语句法主干分析 被引量:8
12
作者 齐浩亮 杨沐昀 +2 位作者 孟遥 韩习武 赵铁军 《中文信息学报》 CSCD 北大核心 2004年第1期1-5,13,共6页
本文提出了一种面向特定领域的汉语句法主干分析方法。该方法中包括浅层句法分析、模板匹配两个关键环节 ,形成用模板表示的句法主干。在浅层句法分析中 ,本文使用了级联的隐马尔可夫模型进行了短语的归并 ;而后以已有的汉语句子模板为... 本文提出了一种面向特定领域的汉语句法主干分析方法。该方法中包括浅层句法分析、模板匹配两个关键环节 ,形成用模板表示的句法主干。在浅层句法分析中 ,本文使用了级联的隐马尔可夫模型进行了短语的归并 ;而后以已有的汉语句子模板为基础 ,进行模板匹配以达到句法主干分析的目标。在针对体育新闻领域语料的开放测试中 ,模板匹配的精确率和召回率分别达到了 98 0 4 %和 81 4 3% ,句子级的精确率和召回率分别达到了 96 97%、84 85 % 。 展开更多
关键词 人工智能 自然语言处理 浅层句法分析 句法主干分析 模板
下载PDF
面向体育领域的句子主干翻译技术研究 被引量:1
13
作者 薛永增 杨沐昀 +2 位作者 赵铁军 韩习武 齐浩亮 《中文信息学报》 CSCD 北大核心 2005年第5期24-30,共7页
为了有效翻译体育领域文本,特别是文本中的长句,本文提出了一种面向体育领域的句子主干翻译方法。该方法采用模板来表示句子主干,主要包括句法主干分析、模板转换和句子主干译文生成三个步骤。本文研究中特别针对体育领域的语言特点进... 为了有效翻译体育领域文本,特别是文本中的长句,本文提出了一种面向体育领域的句子主干翻译方法。该方法采用模板来表示句子主干,主要包括句法主干分析、模板转换和句子主干译文生成三个步骤。本文研究中特别针对体育领域的语言特点进行了模板的设计和获取;在译文生成过程中,则分别利用规则和模板,采用了短语级全译和句子级摘译相结合的混合生成策略,并引入翻译函数来处理形态变化。实验结果表明句子主干翻译方法能够获取句子的关键信息,在可懂度上优于完全翻译,其忠实度也令人满意,是处理体育领域文本的有效方法。 展开更多
关键词 人工智能 机器翻译 句子主干翻译 模板 体育领域
下载PDF
动词次范畴英汉论元对应关系获取 被引量:1
14
作者 朱聪慧 赵铁军 +1 位作者 韩习武 郑德权 《中文信息学报》 CSCD 北大核心 2010年第2期91-95,121,共6页
动词次范畴是根据句法行为对动词的进一步划分,它是由核心动词和一系列论元组成。其相关研究在英汉等多种语言方面都取得了较好的成果,但跨语言之间的研究还很少。该文提出了一种基于主动学习策略的英汉动词次范畴论元对应关系自动获取... 动词次范畴是根据句法行为对动词的进一步划分,它是由核心动词和一系列论元组成。其相关研究在英汉等多种语言方面都取得了较好的成果,但跨语言之间的研究还很少。该文提出了一种基于主动学习策略的英汉动词次范畴论元对应关系自动获取方法,这种方法可以在双语平行语料上,几乎不需要任何先验的语言学知识的情况下,自动获取英汉论元的对应关系。然后我们将这些对应关系加入了统计机器翻译系统。实验结果表明,融合了英汉动词次范畴论元对应关系的SMT系统在性能上有明显的提升,证明了自动抽取的对应关系的有效性,也为SMT提供了新的研究方向。 展开更多
关键词 人工智能 机器翻译 动词次范畴化 跨语言论元对应关系 自动获取 统计机器翻译
下载PDF
基于加权子序列核函数的次范畴论元分析
15
作者 朱聪慧 赵铁军 +1 位作者 韩习武 郑德权 《高技术通讯》 EI CAS CSCD 北大核心 2010年第2期127-132,共6页
为提高汉语动词次范畴化框架(SCFs)的分析性能,提出了一种新的次范畴论元分析方法。该方法引入了基于间隙加权子序列的核函数,以传统规则的右部作为分类类别,将规则左部作为问题输入空间,将原本规则推导的问题转化为机器学习问题。由于... 为提高汉语动词次范畴化框架(SCFs)的分析性能,提出了一种新的次范畴论元分析方法。该方法引入了基于间隙加权子序列的核函数,以传统规则的右部作为分类类别,将规则左部作为问题输入空间,将原本规则推导的问题转化为机器学习问题。由于间隙加权子序列核函数可以考虑跨距离的词之间的依赖关系,加之机器学习方法的引入,使得论元识别精度从55.16%提到了93.43%,并且极大提高了次范畴整句获取精度。 展开更多
关键词 汉语动词次范畴(SCF) 论元分析 主动学习 间隔加权子序列
下载PDF
双语词典在统计机器翻译中的应用
16
作者 王丽 韩习武 《计算机工程与应用》 CSCD 北大核心 2010年第16期135-139,共5页
在当前的基于统计的翻译方法中,双语语料库的规模、词对齐的准确率对于翻译系统的性能有很大的影响。虽然大规模语料库可以改善词语对齐的准确度,提高系统的性能,但同时会以增加系统的负载为代价,因此目前对于统计机器翻译方法的研究在... 在当前的基于统计的翻译方法中,双语语料库的规模、词对齐的准确率对于翻译系统的性能有很大的影响。虽然大规模语料库可以改善词语对齐的准确度,提高系统的性能,但同时会以增加系统的负载为代价,因此目前对于统计机器翻译方法的研究在使用大规模语料库的基础上,同时寻求其他可以提高系统性能的方法。针对以上问题,提出一种把双语词典应用在统计机器翻译中的方法,不仅优化了词对齐的准确率,而且得出质量更高的翻译结果,在一定程度上缓解了数据稀疏问题。 展开更多
关键词 统计机器翻译 双语词典 双语语料库
下载PDF
浅析英语中的否定句式
17
作者 韩习武 胡继成 邬明晶 《黑龙江工程学院学报》 CAS 2000年第3期18-20,23,共4页
从否定句式的语言功能角度,以否定成分的语义为标准,把否定句式划分为四类,并辅以例句;此外,对句子中否定成分的位置,及否定成分的句法控制范围做了系统的阐述。
关键词 否定句式 分类 否定位置 否定范围
下载PDF
再论语言的层次结构——语义层在语言研究中的地位
18
作者 韩习武 《外国语言文学》 2004年第4期26-30,共5页
 语言的层次结构一直是各语言学派首要解决的问题,本文在总结前人观点的基础上,结合当代语言学和其它同语言学相交叉的学科的发展,尝试提出以语义为中心的语言层次结构模式,并阐述了该模式的理论意义和部分应用设想。
关键词 语言研究 语言学派 语义 语言层次 论语 结构模式 理论意义 学科 层次结构 观点
原文传递
NLP领域粗糙假设空间的统计优化
19
作者 韩习武 赵铁军 《计算机与信息技术》 2005年第4期9-12,共4页
本文尝试总结出一类通过优化粗糙假设空间而学习近似目标概念的自然语言处理(NLP)问题的解决方法。自然语言的结构、意义和应用复杂多变,这使得NLP目标概念本身就不很明确,更难于从目标概念出发构造偏序假设空间。因此我们从NLP训练样... 本文尝试总结出一类通过优化粗糙假设空间而学习近似目标概念的自然语言处理(NLP)问题的解决方法。自然语言的结构、意义和应用复杂多变,这使得NLP目标概念本身就不很明确,更难于从目标概念出发构造偏序假设空间。因此我们从NLP训练样本出发,以较为简单明确的语言学知识为启发,生成例(token)无偏的粗糙假设空间H,然后以型(type)频率为偏序对H进行统计优化,直至得到可以"可能近似正确"表示目标概念的变型空间H。 展开更多
关键词 NLP 粗糙假设空间 统计优化
原文传递
汉英机器翻译中的意译和直译应用 被引量:1
20
作者 翟舒 韩习武 《外语学刊》 CSSCI 北大核心 2011年第4期113-116,共4页
汉英机器翻译的能力一直是应用语言学界探讨的焦点。本文通过对直译和意译在传统翻译理论中的界定,提出计算语言学中对直译和意译的形式化和识别的方法,并把其应用到统计机器翻译(SMT)对直译和意译句对的识别中,最后在机器翻译实验中对... 汉英机器翻译的能力一直是应用语言学界探讨的焦点。本文通过对直译和意译在传统翻译理论中的界定,提出计算语言学中对直译和意译的形式化和识别的方法,并把其应用到统计机器翻译(SMT)对直译和意译句对的识别中,最后在机器翻译实验中对直译、意译理论进行验证。 展开更多
关键词 直译 意译 统计机器翻译 应用
原文传递
上一页 1 2 下一页 到第
使用帮助 返回顶部