期刊文献+
共找到8篇文章
< 1 >
每页显示 20 50 100
基于组合词和同义词集的关键词提取算法 被引量:18
1
作者 蒋昌金 彭宏 +2 位作者 陈建超 马千里 严桂夺 《计算机应用研究》 CSCD 北大核心 2010年第8期2853-2856,共4页
为了提高关键词的提取准确率,在对现有关键词抽取方法进行研究的基础之上,针对影响关键词提取准确率的分词技术、同义词现象等难点,提出了一种基于组合词和同义词集的关键词提取算法。该算法首先利用组合词识别算法极大地改进分词效果,... 为了提高关键词的提取准确率,在对现有关键词抽取方法进行研究的基础之上,针对影响关键词提取准确率的分词技术、同义词现象等难点,提出了一种基于组合词和同义词集的关键词提取算法。该算法首先利用组合词识别算法极大地改进分词效果,能识别网页上绝大多数的新词、未登录词,为提高关键词自动抽取准确率奠定了坚实的基础;同时利用构造的同义词集,合并同义词的词频,避免了同义词在输出结果中同现;利用综合评分公式,充分考虑候选关键词的位置、长度、词性等特性。实验数据表明,该方法有较高的提取准确率。 展开更多
关键词 组合词 同义词集 中文网页 关键词提取
下载PDF
基于特征词关联性的同义词集挖掘算法 被引量:10
2
作者 陈建超 郑启伦 +1 位作者 李庆阳 严桂夺 《计算机应用研究》 CSCD 北大核心 2009年第7期2517-2519,2532,共4页
一词多义和多词同义是语言中广泛存在的现象,它给自然语言处理带来了很多困难,解决这个难题的有效办法是建立包含上下文信息的同义词集。深入分析了概念、词汇和特征词三者的内在关系,并在此基础上提出了一种基于同义词汇的特征词的关联... 一词多义和多词同义是语言中广泛存在的现象,它给自然语言处理带来了很多困难,解决这个难题的有效办法是建立包含上下文信息的同义词集。深入分析了概念、词汇和特征词三者的内在关系,并在此基础上提出了一种基于同义词汇的特征词的关联性,从文本中挖掘同义词集的算法。根据特征词之间存在关联性的特点,算法以成熟的关联规则挖掘算法作为基础,获得了明显优于同类算法的实验效果。算法获得的同义词集附带上下文信息,可有效解决文本中词汇的多义性和同义性问题。 展开更多
关键词 自然语言处理 同义词集 特征词 概念
下载PDF
基于图的同义词集自动获取方法 被引量:13
3
作者 吴云芳 石静 金澎 《计算机研究与发展》 EI CSCD 北大核心 2011年第4期610-616,共7页
同义词集是重要的语言基础知识,基于大规模语料库的同义词集自动获取是自然语言处理领域的一项基础性研究课题.从大规模语料中自动获取有并列结构关联的词语对,据此形成图,采用Newman算法对图进行划分而自动聚类相似词语.着重研究在New... 同义词集是重要的语言基础知识,基于大规模语料库的同义词集自动获取是自然语言处理领域的一项基础性研究课题.从大规模语料中自动获取有并列结构关联的词语对,据此形成图,采用Newman算法对图进行划分而自动聚类相似词语.着重研究在Newman算法的基础上,充分挖掘和利用并列结构的特性和汉语的构词特点,采用6种方法对图中边的权值加以改进从而提升效果:分割语料、去除低频边、加重双向边、加重团、加重相同后字、惩罚音节不等.同义词集自动获取的准确率从初始的23.28%提升至53.12%,准确率提高了约30个百分点. 展开更多
关键词 相似词 同义词集 图模型 并列结构 Newman算法 边权值
下载PDF
基于专利搜索日志的同义词挖掘 被引量:1
4
作者 王颖 都云程 +1 位作者 卢献华 吕学强 《计算机工程与设计》 CSCD 北大核心 2013年第3期1029-1033,共5页
针对专利搜索日志中同义词出现的特点,改进了词共现相似度算法,提出了一种基于专利搜索日志的同义词挖掘方法。利用专利搜索日志中同义词出现的规律挖掘同义词集的结构模板,根据这些模板抽取出候选同义词集,利用改进的词共现方法计算词... 针对专利搜索日志中同义词出现的特点,改进了词共现相似度算法,提出了一种基于专利搜索日志的同义词挖掘方法。利用专利搜索日志中同义词出现的规律挖掘同义词集的结构模板,根据这些模板抽取出候选同义词集,利用改进的词共现方法计算词汇相似度。对称共现的词对正确率达到85.66%,召回率达到78.98%,F值0.82。该方法可用于专利搜索引擎中提高专利检索的效率。 展开更多
关键词 专利搜索日志 同义词挖掘 结构模板 候选同义词集 词共现相似度
下载PDF
基于字符特征与同义词替换结合的文本隐写方法 被引量:3
5
作者 高全胜 王开西 《青岛大学学报(自然科学版)》 CAS 2018年第2期63-66,74,共5页
同义词替换等修改式隐写算法需要修改原始文本,容易因用词上下文不匹配而被识别,生成法等无载体隐写因受限于自然语言理解技术还无法完全实现语句上下文通顺。从均衡安全性和可用性的角度出发,在传统同义词替换方法的基础上,提出一种利... 同义词替换等修改式隐写算法需要修改原始文本,容易因用词上下文不匹配而被识别,生成法等无载体隐写因受限于自然语言理解技术还无法完全实现语句上下文通顺。从均衡安全性和可用性的角度出发,在传统同义词替换方法的基础上,提出一种利用字符基本特征与同义词替换相结合的文本隐藏方法,将秘密信息的二进制位用字符特征表示,把秘密信息的位置信息通过同义词替换标识。实验结果表明,该方法具有较好的可实现性,同时通过对字符特征的选择和改变可有效实现隐写安全性,并具有灵活性且在隐蔽性方面有一定的改进,可以与即时通信结合,设计的对话拥有较大的隐藏容量。 展开更多
关键词 隐写术 自然语言处理 同义词集编码 同义词替换
下载PDF
同义词挖掘及表示研究
6
作者 姚冬磊 赵晓鹏 卫耀伟 《福建电脑》 2010年第3期44-44,56,共2页
针对同义词进行查询扩展的计算复杂、不准确问题,提出一种同义词挖掘算法:每个概念用上下文特征词表示,利用完全加权关联规则挖取这些记录中频繁项作为同义词集的特征词,包含这些频繁项的概念构成同义词集,并对任意两个同义词相似度进... 针对同义词进行查询扩展的计算复杂、不准确问题,提出一种同义词挖掘算法:每个概念用上下文特征词表示,利用完全加权关联规则挖取这些记录中频繁项作为同义词集的特征词,包含这些频繁项的概念构成同义词集,并对任意两个同义词相似度进行计算。最后将获取的量化的同义词应用到贝叶斯网络检索模型中,实验表明该算法优于其它扩展算法。 展开更多
关键词 同义词集 上下文 相似度 本体构建
下载PDF
基于核心概念集的多语言Ontology 被引量:2
7
作者 姚文琳 王存刚 +2 位作者 任丽婕 仇利克 郜振霞 《计算机应用研究》 CSCD 北大核心 2006年第4期28-31,共4页
随着W eb资源的日益丰富,人们需要跨语言的知识共享和信息检索。一个多语言Ontology可以用来刻画不同语言相关领域的知识,克服不同文化和不同语言带来的障碍。对现有的构建多语言Ontology方法进行分析和比较,提出一种基于核心概念集的... 随着W eb资源的日益丰富,人们需要跨语言的知识共享和信息检索。一个多语言Ontology可以用来刻画不同语言相关领域的知识,克服不同文化和不同语言带来的障碍。对现有的构建多语言Ontology方法进行分析和比较,提出一种基于核心概念集的多语言Ontology的构建方法,用一个独立于特定语言的Ontology以及来自不同自然语言的定义和词汇的同义词集来描述相关领域的概念。用该方法构建的Ontology具有良好的扩展能力、表达能力和推理能力,特别适合分布式环境下大型Ontology的创建。 展开更多
关键词 核心概念 多语言Ontology 同义词集
下载PDF
基于Word2Vec的WordNet词语相似度计算研究 被引量:6
8
作者 陈丹华 王艳娜 +3 位作者 周子力 赵晓函 李天宇 王凯莉 《计算机工程与应用》 CSCD 北大核心 2022年第3期222-229,共8页
当前大部分WordNet词语相似度计算方法由于未充分考虑词语的语义信息和位置关系,导致相似度的准确率降低。为解决上述问题,提出了一种使用词向量模型Word2Vec计算WordNet词语相似度的新方法。在构建WordNet数据集时提出一种新形式,不再... 当前大部分WordNet词语相似度计算方法由于未充分考虑词语的语义信息和位置关系,导致相似度的准确率降低。为解决上述问题,提出了一种使用词向量模型Word2Vec计算WordNet词语相似度的新方法。在构建WordNet数据集时提出一种新形式,不再使用传统的文本语料库,同时提出信息位置排列方法对数据集加以处理。利用Word2Vec模型训练WordNet数据集后得到向量表示。在公开的R&G-65、M&C-30和MED38词语相似度测评集上完成了词语相似度计算任务,从多个角度进行了Pearson相关系数对比实验。结果显示该文计算的相似度值与人工判定值计算取得的Pearson相关系数指标得到了显著提升。 展开更多
关键词 词语相似度 WORDNET Word2Vec 同义词集标号
下载PDF
上一页 1 下一页 到第
使用帮助 返回顶部