期刊文献+
共找到42篇文章
< 1 2 3 >
每页显示 20 50 100
Word sense disambiguation using semantic relatedness measurement 被引量:7
1
作者 YANG Che-Yu 《Journal of Zhejiang University-Science A(Applied Physics & Engineering)》 SCIE EI CAS CSCD 2006年第10期1609-1625,共17页
All human languages have words that can mean different things in different contexts, such words with multiple meanings are potentially “ambiguous”. The process of “deciding which of several meanings of a term is in... All human languages have words that can mean different things in different contexts, such words with multiple meanings are potentially “ambiguous”. The process of “deciding which of several meanings of a term is intended in a given context” is known as “word sense disambiguation (WSD)”. This paper presents a method of WSD that assigns a target word the sense that is most related to the senses of its neighbor words. We explore the use of measures of relatedness between word senses based on a novel hybrid approach. First, we investigate how to “literally” and “regularly” express a “concept”. We apply set algebra to WordNet’s synsets cooperating with WordNet’s word ontology. In this way we establish regular rules for constructing various representations (lexical notations) of a concept using Boolean operators and word forms in various synset(s) defined in WordNet. Then we establish a formal mechanism for quantifying and estimating the semantic relatedness between concepts—we facilitate “concept distribution statistics” to determine the degree of semantic relatedness between two lexically expressed con- cepts. The experimental results showed good performance on Semcor, a subset of Brown corpus. We observe that measures of semantic relatedness are useful sources of information for WSD. 展开更多
关键词 word sense disambiguation (WSD) Semantic relatedness wordNET natural language processing
下载PDF
WORD SENSE DISAMBIGUATION BASED ON IMPROVED BAYESIAN CLASSIFIERS 被引量:1
2
作者 Liu Ting Lu Zhimao Li Sheng 《Journal of Electronics(China)》 2006年第3期394-398,共5页
Word Sense Disambiguation (WSD) is to decide the sense of an ambiguous word on particular context. Most of current studies on WSD only use several ambiguous words as test samples, thus leads to some limitation in prac... Word Sense Disambiguation (WSD) is to decide the sense of an ambiguous word on particular context. Most of current studies on WSD only use several ambiguous words as test samples, thus leads to some limitation in practical application. In this paper, we perform WSD study based on large scale real-world corpus using two unsupervised learning algorithms based on ±n-improved Bayesian model and Dependency Grammar (DG)-improved Bayesian model. ±n-improved classifiers reduce the window size of context of ambiguous words with close-distance feature extraction method, and decrease the jamming of useless features, thus obviously improve the accuracy, reaching 83.18% (in open test). DG-improved classifier can more effectively conquer the noise effect existing in Naive-Bayesian classifier. Experimental results show that this approach does better on Chinese WSD, and the open test achieved an accuracy of 86.27%. 展开更多
关键词 word sense disambiguation (WSD) natural language processing (NLP) Unsupervised learning algorithm Dependency Grammar (DG) Bayesian classifier
下载PDF
Word Sense Disambiguation in Information Retrieval
3
作者 Francis de la C. Fernández REYES Exiquio C. Pérez LEYVA Rogelio Lau FERNáNDEZ 《Intelligent Information Management》 2009年第2期122-127,共6页
The natural language processing has a set of phases that evolves from lexical text analysis to the pragmatic one in which the author’s intentions are shown. The ambiguity problem appears in all of these tasks. Previo... The natural language processing has a set of phases that evolves from lexical text analysis to the pragmatic one in which the author’s intentions are shown. The ambiguity problem appears in all of these tasks. Previous works tries to do word sense disambiguation, the process of assign a sense to a word inside a specific context, creating algorithms under a supervised or unsupervised approach, which means that those algorithms use or not an external lexical resource. This paper presents an approximated approach that combines not supervised algorithms by the use of a classifiers set, the result will be a learning algorithm based on unsupervised methods for word sense disambiguation process. It begins with an introduction to word sense disambiguation concepts and then analyzes some unsupervised algorithms in order to extract the best of them, and combines them under a supervised approach making use of some classifiers. 展开更多
关键词 disambiguation ALGORITHMS natural language processing word sense disambiguation
下载PDF
一种基于PageRank算法和知网的词义消歧方法 被引量:4
4
作者 李永亮 黄曙光 鲍蕾 《计算机应用与软件》 CSCD 2011年第5期213-215,共3页
简要介绍了PageRank算法的核心思想,阐述了知网知识库在词义消歧中的作用,并提出将两者结合起来进行词义消歧的办法。对比了传统统计的消歧方法和该方法的优缺点,重点解释了如何将该算法运行到语义网络中去。介绍了使用知网义原概念和... 简要介绍了PageRank算法的核心思想,阐述了知网知识库在词义消歧中的作用,并提出将两者结合起来进行词义消歧的办法。对比了传统统计的消歧方法和该方法的优缺点,重点解释了如何将该算法运行到语义网络中去。介绍了使用知网义原概念和联系进行构图的方法,并对算法实现思想做了详细说明,最后通过一个实例简要概括了基于该算法和知网词义消歧的方法,并给出了少量测试数据,提出了研究中存在的困难和下一步的研究重点。 展开更多
关键词 词义消歧 自然语言处理 pagerank 知网
下载PDF
Improving Entity Linking in Chinese Domain by Sense Embedding Based on Graph Clustering 被引量:1
5
作者 张照博 钟芷漫 +1 位作者 袁平鹏 金海 《Journal of Computer Science & Technology》 SCIE EI CSCD 2023年第1期196-210,共15页
Entity linking refers to linking a string in a text to corresponding entities in a knowledge base through candidate entity generation and candidate entity ranking.It is of great significance to some NLP(natural langua... Entity linking refers to linking a string in a text to corresponding entities in a knowledge base through candidate entity generation and candidate entity ranking.It is of great significance to some NLP(natural language processing)tasks,such as question answering.Unlike English entity linking,Chinese entity linking requires more consideration due to the lack of spacing and capitalization in text sequences and the ambiguity of characters and words,which is more evident in certain scenarios.In Chinese domains,such as industry,the generated candidate entities are usually composed of long strings and are heavily nested.In addition,the meanings of the words that make up industrial entities are sometimes ambiguous.Their semantic space is a subspace of the general word embedding space,and thus each entity word needs to get its exact meanings.Therefore,we propose two schemes to achieve better Chinese entity linking.First,we implement an ngram based candidate entity generation method to increase the recall rate and reduce the nesting noise.Then,we enhance the corresponding candidate entity ranking mechanism by introducing sense embedding.Considering the contradiction between the ambiguity of word vectors and the single sense of the industrial domain,we design a sense embedding model based on graph clustering,which adopts an unsupervised approach for word sense induction and learns sense representation in conjunction with context.We test the embedding quality of our approach on classical datasets and demonstrate its disambiguation ability in general scenarios.We confirm that our method can better learn candidate entities’fundamental laws in the industrial domain and achieve better performance on entity linking through experiments. 展开更多
关键词 natural language processing(NLP) domain entity linking computational linguistics word sense disambiguation knowledge graph
原文传递
基于对数模型的词义自动消歧 被引量:13
6
作者 朱靖波 李珩 +1 位作者 张跃 姚天顺 《软件学报》 EI CSCD 北大核心 2001年第9期1405-1412,共8页
提出了一种对数模型 (logarithm model,简称 L M) ,构造了一个词义自动消歧系统 LM-WSD(word sensedisambiguation based on logarithm model) .在词义自动消歧实验中 ,构造了 4种计算模型进行词义消歧 ,根据 4个计算模型的消歧结果 ,... 提出了一种对数模型 (logarithm model,简称 L M) ,构造了一个词义自动消歧系统 LM-WSD(word sensedisambiguation based on logarithm model) .在词义自动消歧实验中 ,构造了 4种计算模型进行词义消歧 ,根据 4个计算模型的消歧结果 ,分析了高频率词义、指示词、特定领域、固定搭配和固定用法信息对名词和动词词义消歧的影响 .目前 ,该词义自动消歧系统 L M-WSD已经应用于基于词层的英汉机器翻译系统 (汽车配件专业领域 )中 ,有效地提高了翻译性能 . 展开更多
关键词 词义自动消歧 机器翻译 对数模型 自然语言处理 计算机
下载PDF
基于义原同现频率的汉语词义排歧方法 被引量:26
7
作者 杨尔弘 张国清 张永奎 《计算机研究与发展》 EI CSCD 北大核心 2001年第7期833-838,共6页
词义排岐是自然语言处理的重点和难点问题之一 .基于语料库的统计方法已被广泛地应用于词义排岐 .大多数的统计方法都受到数据稀疏的困扰 ,对于词义排岐而言 ,由于有大量同义词的存在 ,数据稀疏问题变得更为严重 .充分利用“知网”这个... 词义排岐是自然语言处理的重点和难点问题之一 .基于语料库的统计方法已被广泛地应用于词义排岐 .大多数的统计方法都受到数据稀疏的困扰 ,对于词义排岐而言 ,由于有大量同义词的存在 ,数据稀疏问题变得更为严重 .充分利用“知网”这个知识源的特性 ,提出了一种基于义原同现频率的词义排岐方法 ,在很大程度上克服了数据稀疏问题 .此外 ,该方法还避免了繁重的人工标注语料的过程 ,通过在一个约 10万字的语料库上获得义原同现频率矩阵 ,并以此作为词义排岐的依据 .实验表明 。 展开更多
关键词 自然语言处理 知网 义原同现频率 汉语词义排歧 语料库
下载PDF
基于依存分析改进贝叶斯模型的词义消歧 被引量:12
8
作者 卢志茂 刘挺 +1 位作者 张刚 李生 《高技术通讯》 EI CAS CSCD 2003年第5期1-7,共7页
词义消歧一直是自然语言处理领域的关键问题和难点之一。目前进行的很多词义消歧研究多采用几个多义词作为实验测试对象,在实际应用方面存在着局限性。本文对大规模真实文本进行了词义消歧研究,采用了基于依存分析改进贝叶斯分类模型的... 词义消歧一直是自然语言处理领域的关键问题和难点之一。目前进行的很多词义消歧研究多采用几个多义词作为实验测试对象,在实际应用方面存在着局限性。本文对大规模真实文本进行了词义消歧研究,采用了基于依存分析改进贝叶斯分类模型的有指导词义消歧方法。该模型充分利用依存句法分析,从句子的内部结构,寻找词语之间支配与被支配的关系,借以确定能够对词语语义构成内在限制的上下文,有效地克服了单纯贝叶斯分类器中无关上下文造成的噪声影响。本实验的开放测试正确率可以达到91.89%,封闭实验正确率可达99.4%,验证了改进模型的有效性。 展开更多
关键词 依存分析 贝叶斯模型 词义消歧 自然语言处理 语料库 统计分析 信息检索 贝叶斯分类器
下载PDF
统计词义消歧的研究进展 被引量:28
9
作者 卢志茂 刘挺 李生 《电子学报》 EI CAS CSCD 北大核心 2006年第2期333-343,共11页
本文参考大量的文献资料,分析了当前国内外统计词义消歧研究中采用的多种方法和技术,指出了统计词义消歧研究的关键问题,并围绕关键问题阐述了统计词义消歧的研究进展,探讨了研究中存在的问题和未来研究的重点.
关键词 统计词义消歧 自然语言处理 综述
下载PDF
从搭配知识获取最优种子的词义消歧方法 被引量:13
10
作者 全昌勤 何婷婷 +1 位作者 姬东鸿 刘辉 《中文信息学报》 CSCD 北大核心 2005年第1期30-35,共6页
基于统计的词义消歧模型的一个关键问题是如何自动从语料库中获取指示词 ,虽然通过学习初始搭配实例能够在语料库中获取更多的搭配知识 ,但人工获取质量较好的初始搭配是比较困难的 ,并且无法保证有效的扩大搭配知识。针对该问题 ,提出... 基于统计的词义消歧模型的一个关键问题是如何自动从语料库中获取指示词 ,虽然通过学习初始搭配实例能够在语料库中获取更多的搭配知识 ,但人工获取质量较好的初始搭配是比较困难的 ,并且无法保证有效的扩大搭配知识。针对该问题 ,提出了通过机器学习初始搭配实例获取最优种子 ,再由最优种子扩增更多指示词 ,最后利用这些指示词实现具有多个义项的多义词消歧。采用该方法对 8个多义词进行消歧的测试实验中取得了 87 7%的平均正确率。 展开更多
关键词 人工智能 自然语言处理 自然语言处理 词义消歧 搭配 种子优选
下载PDF
基于多分类器决策的词义消歧方法 被引量:8
11
作者 全昌勤 何婷婷 +1 位作者 姬东鸿 余绍文 《计算机研究与发展》 EI CSCD 北大核心 2006年第5期933-939,共7页
词义消歧问题可以形式化为典型的分类问题.通过学习少量带有词义标注的语料构造多个消歧分量分类器,并利用未标语料动态地对这些分类器进行更新,根据最终分量分类器分别对多义词义项的判定结果,组合决策多义词的义项.该方法无需手工构... 词义消歧问题可以形式化为典型的分类问题.通过学习少量带有词义标注的语料构造多个消歧分量分类器,并利用未标语料动态地对这些分类器进行更新,根据最终分量分类器分别对多义词义项的判定结果,组合决策多义词的义项.该方法无需手工构造大规模具有词义标注的语料库,并且具有较高的消歧准确率. 展开更多
关键词 自然语言处理 词义消歧 分量分类器 ADABOOST
下载PDF
基于词典属性特征的粗粒度词义消歧 被引量:10
12
作者 吴云芳 金澎 郭涛 《中文信息学报》 CSCD 北大核心 2007年第2期3-8,共6页
本文依据《现代汉语语法信息词典》中对词语多义的属性特征描述,对《人民日报》语料中155个词语共4996个同形实例进行了粗粒度词义自动消歧实验,同时用贝叶斯算法进行了比较测试。基于词典属性特征的消歧方法在同形层面上准确率达到90%... 本文依据《现代汉语语法信息词典》中对词语多义的属性特征描述,对《人民日报》语料中155个词语共4996个同形实例进行了粗粒度词义自动消歧实验,同时用贝叶斯算法进行了比较测试。基于词典属性特征的消歧方法在同形层面上准确率达到90%,但召回率偏低。其优点在于两个方面:1)不受词义标注语料库规模的影响;2)对特定词语意义的消歧准确率可达到100%。本文也讨论了适用于不同词类的消歧特征。 展开更多
关键词 人工智能 自然语言处理 特征 词义 词义消歧 贝叶斯分类法
下载PDF
无监督词义消歧研究 被引量:17
13
作者 王瑞琴 孔繁胜 《软件学报》 EI CSCD 北大核心 2009年第8期2138-2152,共15页
研究的目的是对现有的无监督词义消歧技术进行总结,以期为进一步的研究指明方向.首先,介绍了无监督词义消歧研究的意义.然后,重点总结分析了国内外各类无监督词义消歧研究中的各项关键技术,包括使用的数据源、采用的消歧方法、评价体系... 研究的目的是对现有的无监督词义消歧技术进行总结,以期为进一步的研究指明方向.首先,介绍了无监督词义消歧研究的意义.然后,重点总结分析了国内外各类无监督词义消歧研究中的各项关键技术,包括使用的数据源、采用的消歧方法、评价体系以及达到的消歧效果等方面.最后,对14个较有特色的无监督词义消歧方法进行了总结,并指出无监督词义消歧的现有研究成果和可能的发展方向. 展开更多
关键词 词义消歧 无监督词义消歧 自然语言处理 语义理解
下载PDF
一种基于贝叶斯分类与机读词典的多义词排歧方法 被引量:5
14
作者 谈文蓉 符红光 +1 位作者 刘莉 杨宪泽 《计算机应用》 CSCD 北大核心 2006年第6期1389-1391,1395,共4页
一词多义是自然语言中普遍存在的现象,词义排歧的成功率是衡量机器翻译、信息检索、文本分类等自然语言处理软件性能的重要指标。提出了一种基于贝叶斯分类与机读词典的多义词排歧方法,通过小规模语料库的训练和歧义词在机读词典中的语... 一词多义是自然语言中普遍存在的现象,词义排歧的成功率是衡量机器翻译、信息检索、文本分类等自然语言处理软件性能的重要指标。提出了一种基于贝叶斯分类与机读词典的多义词排歧方法,通过小规模语料库的训练和歧义词在机读词典中的语义定义来完成歧义的消除。实验表明:基于贝叶斯分类与机读词典的多义词排歧算法在标注语料库规模受限的情况下,能取得较高的排歧准确率。 展开更多
关键词 词义排歧 语料库 机读词典 自然语言处理
下载PDF
基于词典信息的先秦汉语全文词义标注方法研究 被引量:5
15
作者 张颖杰 李斌 +1 位作者 陈家骏 陈小荷 《中文信息学报》 CSCD 北大核心 2012年第3期65-71,103,共8页
词义消歧是自然语言处理中的一项基础任务,古汉语信息处理也急需深层次的语义标注工作。该文针对先秦古汉语这一特殊的语言材料,在训练语料和语义资源匮乏的条件下,采用《汉语大词典2.0》作为知识来源,将其词条释义作为义类,每个义项的... 词义消歧是自然语言处理中的一项基础任务,古汉语信息处理也急需深层次的语义标注工作。该文针对先秦古汉语这一特殊的语言材料,在训练语料和语义资源匮乏的条件下,采用《汉语大词典2.0》作为知识来源,将其词条释义作为义类,每个义项的例句作为训练语料,使用基于支持向量机(SVM)的半指导方法对《左传》进行全文的词义标注。按照频度不同、义项数量不同的原则,我们随机选取了22个词进行了人工检查,平均正确率达到67%。该方法可以广泛用于缺乏训练语料的古汉语义项标注工作,能够在古汉语全文词义标注的起步阶段提供初始结果,为人工标注词语义项提供良好的数据底本,补正传统词典释义不全的问题,进一步丰富汉语史发展研究资料。 展开更多
关键词 词义消歧 义项标注 古汉语 自然语言处理
下载PDF
一种基于词矢量的汉语语义量化模型 被引量:7
16
作者 陈清才 王晓龙 《计算机研究与发展》 EI CSCD 北大核心 2001年第2期207-212,共6页
通过建立基于词矢量的汉语语义量化模型来解决语义信息的自动获取及量化问题 ,描述了模型的建立方法及其在汉语词义排歧中的应用 ,最后通过构造伪词的方法对模型的语义辨识能力进行了评测 .实验表明该语义量化模型具有很好的语义表示能... 通过建立基于词矢量的汉语语义量化模型来解决语义信息的自动获取及量化问题 ,描述了模型的建立方法及其在汉语词义排歧中的应用 ,最后通过构造伪词的方法对模型的语义辨识能力进行了评测 .实验表明该语义量化模型具有很好的语义表示能力 ,并且由于模型的建立是通过对大规模生语料库的统计来完成的 ,避免了人工对词语语义进行量化时所需的庞大工作量 。 展开更多
关键词 自然语言处理 词矢量 汉语语义量化模型 语料库 人工智能
下载PDF
一个汉语词义自动标注系统的设计与实现 被引量:5
17
作者 葛瑞芳 李涓子 《计算机工程与应用》 CSCD 北大核心 2001年第17期170-173,共4页
词义排歧在自然语言处理领域占有重要地位。词义排歧的精确率依赖于排歧知识的完备性。但是目前使用基于词典的和基于语料库的词义排歧方法来获取排歧知识的效果都不令人满意。文章将介绍了一个汉语词义自动标注系统,该系统实现了基于... 词义排歧在自然语言处理领域占有重要地位。词义排歧的精确率依赖于排歧知识的完备性。但是目前使用基于词典的和基于语料库的词义排歧方法来获取排歧知识的效果都不令人满意。文章将介绍了一个汉语词义自动标注系统,该系统实现了基于语料库的无指导的词义排歧模型,比较成功地解决了排歧知识的获取瓶颈问题。文章将给出系统的总体设计和具体实现,并给出系统测试结果。 展开更多
关键词 自然语言处理 词义排歧 汉语词义 自动标准系统 设计
下载PDF
基于信息增益改进贝叶斯模型的汉语词义消歧 被引量:8
18
作者 范冬梅 卢志茂 +1 位作者 张汝波 潘树燊 《电子与信息学报》 EI CSCD 北大核心 2008年第12期2926-2929,共4页
词义消歧一直是自然语言处理领域的关键问题和难点之一。通常把词义消歧作为模式分类问题进行研究,其中特征选择是一个重要的环节。该文根据贝叶斯假设提出基于信息增益的特征选择方法,并以此改进贝叶斯模型。通过信息增益计算,挖掘上... 词义消歧一直是自然语言处理领域的关键问题和难点之一。通常把词义消歧作为模式分类问题进行研究,其中特征选择是一个重要的环节。该文根据贝叶斯假设提出基于信息增益的特征选择方法,并以此改进贝叶斯模型。通过信息增益计算,挖掘上下文中词语的位置信息,提高贝叶斯模型知识获取的效率,从而改善词义分类效果。该文在8个歧义词上进行了实验,结果发现改进后的贝叶斯模型在消歧正确率上比改进前平均提高了3.5个百分点,改进幅度较大,效果突出,证明了该方法的有效性。 展开更多
关键词 词义消歧 自然语言处理 信息增益 贝叶斯模型
下载PDF
基于连接文法的双语E-Chunk获取方法 被引量:3
19
作者 吕学强 陈文亮 姚天顺 《东北大学学报(自然科学版)》 EI CAS CSCD 北大核心 2002年第9期829-832,共4页
提出了一种面向机器翻译领域的扩展Chunk概念·E Chunk是在Chunk概念基础上基于语义惟一性的一种扩展形式 ,其具体形态表现为具有无歧义性、复现性、可嵌套性、内部结构句法自足性的无歧义机器可翻译单元·讨论了使用连接文法... 提出了一种面向机器翻译领域的扩展Chunk概念·E Chunk是在Chunk概念基础上基于语义惟一性的一种扩展形式 ,其具体形态表现为具有无歧义性、复现性、可嵌套性、内部结构句法自足性的无歧义机器可翻译单元·讨论了使用连接文法的连接因子进行英语E Chunk的识别技术和双语E Chunk获取方法·双语E Chunk库的建立必将为基于Chunk的机器翻译技术提供极大的支持· 展开更多
关键词 连接文法 E-Chunk 获取方法 自然语言处理 连接因子 双语对齐 词义消歧 机器翻译
下载PDF
汉英双语平行语料库的词义标注 被引量:4
20
作者 刘冬明 杨尔弘 方莹 《中文信息学报》 CSCD 北大核心 2005年第6期50-56,共7页
本文充分利用当前HowNet资源中概念的可计算性和句子对齐的汉英双语平行语料库信息,将词义排歧的问题转化为两种语言相对应句子词义组合的相似度计算问题,进而利用动态规划法的思想设计出一种在一定的时间复杂度内,有效的标出多义词义... 本文充分利用当前HowNet资源中概念的可计算性和句子对齐的汉英双语平行语料库信息,将词义排歧的问题转化为两种语言相对应句子词义组合的相似度计算问题,进而利用动态规划法的思想设计出一种在一定的时间复杂度内,有效的标出多义词义项的算法。该方法从以前对每个多义词进行排歧时只考察其上下文环境和对应信息,改变到对句子中所有的词同时考察上下文环境,这样就可以站在句子高度来进行词义标注,最终取得了满意的实验结果。 展开更多
关键词 人工智能 自然语言处理 词义排歧 HOWNET 双语平行语料库
下载PDF
上一页 1 2 3 下一页 到第
使用帮助 返回顶部