-
题名基于义原同现频率的汉语词义排歧方法
被引量:26
- 1
-
-
作者
杨尔弘
张国清
张永奎
-
机构
山西大学计算机科学系
上海师范大学计算中心
-
出处
《计算机研究与发展》
EI
CSCD
北大核心
2001年第7期833-838,共6页
-
基金
山西省青年基金项目 (2 0 0 0 10 17)
山西省自然科学基金项目 (9910 35 )资助
-
文摘
词义排岐是自然语言处理的重点和难点问题之一 .基于语料库的统计方法已被广泛地应用于词义排岐 .大多数的统计方法都受到数据稀疏的困扰 ,对于词义排岐而言 ,由于有大量同义词的存在 ,数据稀疏问题变得更为严重 .充分利用“知网”这个知识源的特性 ,提出了一种基于义原同现频率的词义排岐方法 ,在很大程度上克服了数据稀疏问题 .此外 ,该方法还避免了繁重的人工标注语料的过程 ,通过在一个约 10万字的语料库上获得义原同现频率矩阵 ,并以此作为词义排岐的依据 .实验表明 。
-
关键词
自然语言处理
知网
义原同现频率
汉语词义排歧
语料库
-
Keywords
natural language processing, word sense disambiguation, Hownet, primitive co occurrence data
-
分类号
TP391.12
[自动化与计算机技术—计算机应用技术]
-
-
题名一种自组织的汉语词义排歧方法
被引量:13
- 2
-
-
作者
李涓子
黄昌宁
杨尔弘
-
机构
智能技术与系统国家重点实验室
清华大学计算机科学与技术系
山西大学计算机科学系
-
出处
《中文信息学报》
CSCD
北大核心
1999年第3期1-8,共8页
-
基金
国家自然科学基金
-
文摘
长期以来,词义排歧一直被认为是自然语言处理的难题之一。本文用机器可读词典《现代汉语辞海》提供的搭配实例作为多义词的初始搭配知识,采用适当的统计和自组织方法自动扩大搭配集;为保证学习质量,在学习过程中逐渐增大上下文窗口的长度;提出使用搭配统计表的多元最大对数似然比词义排歧算法。最后,对本文提出的方法进行了实验,实验表明这种算法具有较高的正确率。
-
关键词
自然语言处理
词义排歧
自组织方法
汉语
-
Keywords
natural language processingword sense
disambigautionadaptive methodcollocation
-
分类号
TP391
[自动化与计算机技术—计算机应用技术]
-
-
题名一种基于神经网络的词义排歧方法
被引量:1
- 3
-
-
作者
张国清
张永奎
-
机构
上海师范大学计算中心
山西大学计算机科学系
-
出处
《计算机工程》
CAS
CSCD
北大核心
2001年第12期79-80,共2页
-
文摘
从神经网络的基本原理和自动词义排歧的技术入手,阐明应用神经网络技术进行汉语词义排歧研究的基本方法和步骤,并给出了实验结果和分析。
-
关键词
自然语言处理
词义排歧方法
神经网络
计算机
-
Keywords
Neural-network
Word sense disambiguation
Model
-
分类号
TP391
[自动化与计算机技术—计算机应用技术]
TP183
[自动化与计算机技术—控制理论与控制工程]
-
-
题名基于义原同现频率的汉语词义排歧系统
被引量:1
- 4
-
-
作者
刘亚清
张瑾
于纯妍
-
机构
大连海事大学计算机科学与技术学院
-
出处
《计算机技术与发展》
2006年第5期184-185,188,共3页
-
文摘
词义排歧在自然语言处理领域占有重要地位。词义排歧的精确率依赖于排歧知识的完备性。但是目前使用的基于词典的和基于语料库的词义排歧方法来获取排歧知识的效果都不令人满意。文中借助《知网》,以义原同现频率矩阵作为排歧知识,在其基础上设计并实现了一个基于义原同现频率的汉语词义排歧系统,大大地提高词义排歧的精确率。
-
关键词
自然语言处理
词义排歧
义原
-
Keywords
natural Larguage processing
word sense disambiguation
primitive
-
分类号
TP391.12
[自动化与计算机技术—计算机应用技术]
-
-
题名基于改进的Lesk算法的词义排歧算法
被引量:4
- 5
-
-
作者
王永生
-
机构
同济大学出国培训学院
-
出处
《微型机与应用》
2013年第24期69-71,75,共4页
-
基金
教育部人文社会科学研究基金青年项目(07JC740009)
-
文摘
英文中的一词多义现象非常普遍,这给英文的词义排歧带来了极大的困难。针对这种情况,提出了一种基于改进的Lesk算法的词义排歧算法,即以语义词典WordNet为基础,借助CBC算法扩充目标词的相似词集合,通过改进的Lesk算法进行词义排歧。算法以英文Senseval-2任务作为测试目标,通过对目标词的义项进行筛选,去除其中一些不常用的义项,实验结果表明,总体排歧正确率达到58.4%。
-
关键词
词义排歧
Lesk
算法
WORD
NET
-
Keywords
word sense disambiguation
Lesk algorithm
WordNet
-
分类号
TP391
[自动化与计算机技术—计算机应用技术]
-
-
题名用于词义排歧的语义剪枝方法研究
被引量:1
- 6
-
-
作者
辛日华
-
机构
呼伦贝尔学院计算机科学与技术学院
-
出处
《控制工程》
CSCD
北大核心
2013年第5期887-890,共4页
-
基金
内蒙古自然科学基金资助(2009MS0106)
内蒙古自然科学基金资助(2013MS0102)
-
文摘
词义排歧方法的研究在自然语言处理领域具有重要的理论和实践意义。研究了一种基于知网的语义剪枝算法,来解决自然语言处理过程中的词义排歧问题。其目的是通过语义剪枝系统尽可能地减少歧义词在上下文中错误的或最不可能的义项。语义剪枝以后,形成词和其可能义项的一个列表,尽量将一个词真正正确的义项保留下来。为了对语义剪枝算法进行评价,开发了一个手工标注交互环境,并使用了召回率和简化率2个指标。对窗口的尺寸和分析单元的选取对召回率和简化率的影响进行了研究。
-
关键词
词义排歧
自然语言处理
知网
语义剪枝
-
Keywords
word sense disambiguation (WSD)
natural language processing (NLP)
HowNet
sense pruning
-
分类号
TP273
[自动化与计算机技术—检测技术与自动化装置]
-
-
题名词义排歧方法研究
被引量:10
- 7
-
-
作者
冯志伟
-
机构
教育部语言文字应用研究所
-
出处
《术语标准化与信息技术》
2004年第1期31-37,共7页
-
文摘
本文全面总结了40多年来在词义排歧方面的研究成果,分别讨论和比较各种词义排歧的方法:选择最常见义项的方法、利用词类进行词义排歧的方法、基于选择限制的方法、鲁棒的词义排歧方法、有指导的学习方法、自力更生的词义排歧方法、无指导的词义排歧方法、基于词典的词义排歧方法等。这些方法对于自然语言的计算机处理都是非常重要的。
-
关键词
词义排歧
自然语言处理
机器翻译
多义词
语境
-
Keywords
natural language processing, word sense disambiguation WSD, selectional restriction, supervised learning approach, unsupervised approach
-
分类号
H085
[语言文字—语言学]
-
-
题名基于改进的VSM的词义排歧策略
- 8
-
-
作者
赵晨光
蔡东风
-
机构
沈阳航空工业学院电子信息工程学院
沈阳航空工业学院自然语言处理实验室
-
出处
《计算机应用》
CSCD
北大核心
2010年第6期1671-1672,1693,共3页
-
文摘
为了提高词义排歧的准确率,提出了一种基于改进的向量空间模型(VSM)的词义排歧策略,该模型在提取特征向量的基础上,考虑了语法、词形、语义等因素,计算语境相似度,并引入搭配约束,改进了算法的效果,在开放测试环境下,词义标注正确率可达到80%以上。实验结果表明,该方法对语境信息的描述更加全面,有利于进一步的语义分析。
-
关键词
向量空间模型
词义排歧
语境相似度
特征向量
词语搭配
-
Keywords
Vector Space Model (VSM)
word disambiguation
context similarity
character vector
word collocation
-
分类号
TP39
[自动化与计算机技术—计算机应用技术]
-
-
题名改进的基于义原同现频率的汉语词义排歧方法
- 9
-
-
作者
刘亚清
于纯妍
张瑾
-
机构
大连海事大学计算机科学与技术学院
-
出处
《计算机工程与科学》
CSCD
2006年第12期136-138,共3页
-
文摘
针对传统的基于义原同现频率的汉语词义排歧方法存在“盲目性”的不足,本文根据《知网》中对概念定义的描述,分别计算多义词的每个义项与特征词的第一独立义原、其他独立义原、关系义原、符号义原之间的相关系数;最后通过比较多义词的每个义项与特征词之间的相关系数来决定多义词的义项。经过实验验证,该方法进一步提高了词义排歧的效果。
-
关键词
义原
相关系数
词义排歧
-
Keywords
primitive
relation-modulus
word sense disambiguation
-
分类号
TP391
[自动化与计算机技术—计算机应用技术]
-
-
题名词义排歧的一种语言模型
被引量:16
- 10
-
-
作者
黄昌宁
李涓子
-
机构
微软中国研究院
清华大学智能技术与系统国家实验室
-
出处
《语言文字应用》
CSSCI
北大核心
2000年第3期85-90,共6页
-
基金
国家自然科学重点基金资助项目!项目号 :6 94 330 10
-
文摘
《同义词词林》(下简称《词林》)中每个同义词集对应于一个唯一的义类代码。本文的基本假设是 :当这些词在文本中出现时 ,与它们前后同现的那些实词在统计意义上是相似的。初步实验表明 ,尽管根据分布的聚类过程与《词林》编者划分同义词集的机理完全不同 ,对词语进行聚类的结果却和《词林》语义类的平均一致率高达 80 %以上。本研究的意义在于 ,提出一种对语言学家凭语感对词的分类进行定量分析的方法 ,并且为计算机自动词义标注时使用语言学知识奠定了基础。
-
关键词
词义排歧
语言模型
-
Keywords
word sense disambiguation
a language model
-
分类号
H085.6
[语言文字—语言学]
-
-
题名基于核模糊C均值聚类算法的词义排歧研究
- 11
-
-
作者
任恺
-
机构
中南民族大学计算机科学学院
-
出处
《电脑知识与技术》
2015年第12期1-3,共3页
-
基金
本文是中南民族大学中央科研基本业务费项目(编号:CZQ14012)及申南民族大学本科教学质量工程项目(编号:JYX13017)阶段性研究成果之一
-
文摘
该文建立了一个无监督的词义排歧系统,并将它应用于生物医学领域的语料中。该系统使用未进行人工标注的语料进行机器学习,学习过程只需预先定义标准词义的数量,不需要其他人工干预。该系统使用了一种通常使用于图像识别领域的基于核的模糊C均值算法。该文针对文本应用改进该算法并将其应用在生物医学文本的词义排歧领域,并取得了较好的效果。
-
关键词
词义排歧
核模糊
C均值
聚类
无监督
-
分类号
TP18
[自动化与计算机技术—控制理论与控制工程]
-
-
题名汉语词义排歧的另一种方法
被引量:1
- 12
-
-
作者
张瑾
刘亚清
于纯妍
-
机构
大连海事大学计算机科学与技术学院
-
出处
《小型微型计算机系统》
CSCD
北大核心
2006年第4期724-726,共3页
-
文摘
针对传统的基于义原同现频率的汉语词义排歧方法存在“盲目性”的不足,笔者根据《知网》中对概念定义的描述,分别计算多义词的每个义项与特征词的第一独立义原、其他独立义原、关系义原、符号义原之间的相关系数;最后通过比较多义词的每个义项与特征词之间的相关系数来决定多义词的义项.经过实验验证,该方法进一步提高了词义排歧的效果.
-
关键词
义原
相关系数
词义排歧
-
Keywords
primitive
relation-modulus
word sense disambiguation
-
分类号
TP391
[自动化与计算机技术—计算机应用技术]
-
-
题名常识推理在机器翻译词义排歧中的应用
被引量:1
- 13
-
-
作者
段绮丽
-
机构
四川大学计算机学院
-
出处
《中央民族大学学报(自然科学版)》
2004年第2期119-122,共4页
-
文摘
本文针对词义排歧提出了一种利用语言常识进行逻辑推理以筛选出合理词义的形式化标准和方法,将人们在翻译过程中排歧时所进行的逻辑推理归结为一种机械的集合运算,使之易于机器操作.并在此基础上,提出一种利用义项多元组引入词义的语境相关限制信息、以改进现有电子词典使其更加有利于排歧的方案,从方向上指明了这种词典知识获取的途径.
-
关键词
常识排歧
义项义素集
义项多元组
语境相关元
机器翻译
词义排歧
电子词典
知识获取
-
Keywords
Disambiguation on basis of general knowledge
semanteme set of word meaning item
multi-place sequence of word meaning item
context-related element
-
分类号
TP181
[自动化与计算机技术—控制理论与控制工程]
H085
[语言文字—语言学]
-
-
题名维语句法分析器中的词义排歧问题的研究
被引量:11
- 14
-
-
作者
玉素甫.艾白都拉
-
机构
新疆师范大学计算机科学系
-
出处
《计算机应用与软件》
CSCD
北大核心
2002年第4期59-62,共4页
-
文摘
本文论述了现代维语短语自动划分标注的基本处理算法、排歧处理、词义排歧中的搭配、现代维语词义排歧算法的语言学依据、现代维语词义排歧算法的实现。通过典型的例子,说明了分析器中存在的问题可以用短语划分标注和词义排歧相结合的方法并扩展到句义排歧方法来解决。
-
关键词
句法分析
维语句法分析器
词义排歧
自然语言处理
计算机
-
Keywords
Uygur language Syntax analysis Removal of ambiguities
-
分类号
TP391
[自动化与计算机技术—计算机应用技术]
-
-
题名一种改进的词义排歧算法
- 15
-
-
作者
郭志兵
黄广君
卢朝华
-
机构
河南科技大学电子信息工程学院
-
出处
《计算机工程与应用》
CSCD
北大核心
2010年第19期148-150,153,共4页
-
基金
教育部科学技术重点资助项目(No.03081)~~
-
文摘
针对传统基于义原同现频率的汉语词义排歧算法的"盲目性",提出一种"双距离"词义排歧算法,即在计算待排歧词各义项与特征词之间的相关系数时,考虑两个距离因素:特征词与待排歧词之间的空间距离;最近选择该义项的同形歧词与该待排歧词之间的空间距离。实验表明,改进的算法是有效的。
-
关键词
义原
相关系数
词义排歧
-
Keywords
primitive
relation-modulus
word sense disambiguation
-
分类号
TP391
[自动化与计算机技术—计算机应用技术]
-
-
题名基于规则的多义疑问词“怎么”的词义排歧模型研究
- 16
-
-
作者
牛长伟
程邦雄
-
机构
中南财经政法大学国际教育学院
华中科技大学中国语言研究所
-
出处
《中文信息学报》
CSCD
北大核心
2019年第6期12-17,34,共7页
-
基金
中南财经政法大学中央高校基本科研业务类专项资金(2722019JCT043)
中南财经政法大学振兴工程科研基金(31721811401、31721911401)
湖北省社会科学基金(2016026)
-
文摘
在自然语言处理中,多义疑问词的词义识别尚存改进空间。以"怎么"为例,其可表全称解读(任指)、存在解读(虚指)和疑问解读(询问状况、性状、方式和原因)。目前主流机器翻译系统在处理"怎么"的识别情况上仍需改进。该文从词义排歧的角度出发,尝试总结"怎么"的三类解读所处的句法环境的特征,确立复杂句法环境中其语义表现,进而构建一个基于规则的词义排歧模型,制定词义排歧决策表,为提高机器对该类词的识别率提供一种思路。最后,通过实验验证该决策表,并对其改进。
-
关键词
怎么
句法环境
词义排歧
语义解读
-
Keywords
zenme
syntactic contexts
word sense disambiguation
semantic interpretation
-
分类号
TP391
[自动化与计算机技术—计算机应用技术]
-
-
题名一种基于无指导的词义排歧方法
- 17
-
-
作者
张宝剑
-
机构
河南职技师院计算机科学系
-
出处
《河南职业技术师范学院学报》
2002年第1期53-54,57,共3页
-
文摘
介绍了一种利用《同义词词林》和训练语料生成义类代码同现频率矩阵 ,以此作为资源进行真实语料中多义词的词义排歧。由于该方法采用无指导的学习方法 ,可以免除人工标注的开支 。
-
关键词
词义排歧
义类代码
同义词词林
同现频率矩阵
无指导学习方法
计算机自然语言处理
人工智能
-
Keywords
word sense, disambignation, word sense code, co-ocearrence natrix
-
分类号
TP301.2
[自动化与计算机技术—计算机系统结构]
TP18
[自动化与计算机技术—控制理论与控制工程]
-
-
题名一种基于贝叶斯分类与机读词典的多义词排歧方法
被引量:5
- 18
-
-
作者
谈文蓉
符红光
刘莉
杨宪泽
-
机构
西南民族大学计算机科学与技术学院
中国科学院成都计算机应用研究所
-
出处
《计算机应用》
CSCD
北大核心
2006年第6期1389-1391,1395,共4页
-
基金
四川省重点科技攻关项目(05SG022-016)
-
文摘
一词多义是自然语言中普遍存在的现象,词义排歧的成功率是衡量机器翻译、信息检索、文本分类等自然语言处理软件性能的重要指标。提出了一种基于贝叶斯分类与机读词典的多义词排歧方法,通过小规模语料库的训练和歧义词在机读词典中的语义定义来完成歧义的消除。实验表明:基于贝叶斯分类与机读词典的多义词排歧算法在标注语料库规模受限的情况下,能取得较高的排歧准确率。
-
关键词
词义排歧
语料库
机读词典
自然语言处理
-
Keywords
word sense disambiguation
corpus
machine readable dictionary
natural language processing
-
分类号
TP181
[自动化与计算机技术—控制理论与控制工程]
-
-
题名汉英双语平行语料库的词义标注
被引量:4
- 19
-
-
作者
刘冬明
杨尔弘
方莹
-
机构
中北大学计算机科学与技术系
山西大学计算机与信息技术学院
-
出处
《中文信息学报》
CSCD
北大核心
2005年第6期50-56,共7页
-
文摘
本文充分利用当前HowNet资源中概念的可计算性和句子对齐的汉英双语平行语料库信息,将词义排歧的问题转化为两种语言相对应句子词义组合的相似度计算问题,进而利用动态规划法的思想设计出一种在一定的时间复杂度内,有效的标出多义词义项的算法。该方法从以前对每个多义词进行排歧时只考察其上下文环境和对应信息,改变到对句子中所有的词同时考察上下文环境,这样就可以站在句子高度来进行词义标注,最终取得了满意的实验结果。
-
关键词
人工智能
自然语言处理
词义排歧
HOWNET
双语平行语料库
-
Keywords
artificial intelligence
natural language processing
word sense disambiguation
HowNet
parallel corpora
-
分类号
TP391
[自动化与计算机技术—计算机应用技术]
-
-
题名一个汉语词义自动标注系统的设计与实现
被引量:5
- 20
-
-
作者
葛瑞芳
李涓子
-
机构
清华大学计算机科学与技术系
清华大学电子工程系
-
出处
《计算机工程与应用》
CSCD
北大核心
2001年第17期170-173,共4页
-
基金
国家重点自然科学基金项目--语料库语言学研究的理论
方法和工具
-
文摘
词义排歧在自然语言处理领域占有重要地位。词义排歧的精确率依赖于排歧知识的完备性。但是目前使用基于词典的和基于语料库的词义排歧方法来获取排歧知识的效果都不令人满意。文章将介绍了一个汉语词义自动标注系统,该系统实现了基于语料库的无指导的词义排歧模型,比较成功地解决了排歧知识的获取瓶颈问题。文章将给出系统的总体设计和具体实现,并给出系统测试结果。
-
关键词
自然语言处理
词义排歧
汉语词义
自动标准系统
设计
-
Keywords
: Natural Language Processing,word sense disambiguation,disambiguation knowledge
-
分类号
TP391.12
[自动化与计算机技术—计算机应用技术]
-