期刊文献+
共找到10篇文章
< 1 >
每页显示 20 50 100
利用词汇分布相似度的中文词汇语义倾向性计算 被引量:1
1
作者 赵煜 蔡皖东 +1 位作者 樊娜 李慧贤 《西安交通大学学报》 EI CAS CSCD 北大核心 2009年第6期33-37,共5页
针对现有中文词汇语义倾向性计算方法存在较少考虑深层语义影响因素的问题,提出了一种利用词汇分布相似度的中文语义倾向性计算方法.该方法分2个步骤完成:①利用依存句法分析和统计工具获取词汇在语料库中的分布相似度,并综合知网(HowN... 针对现有中文词汇语义倾向性计算方法存在较少考虑深层语义影响因素的问题,提出了一种利用词汇分布相似度的中文语义倾向性计算方法.该方法分2个步骤完成:①利用依存句法分析和统计工具获取词汇在语料库中的分布相似度,并综合知网(HowNet)和汉语连词特征信息优化语料库统计结果,计算中文词汇间的语义相似度;②采用无向带权图划分的聚类方法来实现中文词汇语义倾向推断.由于获取最优聚类结果是一个NP难问题,所以采用贪心算法求解近似最优值.通过在自建的语料库上进行测试,并与利用语料库统计信息、利用HowNet等2个词汇语义倾向性计算系统进行比较,结果是所提方法的准确率达到了80%,表明在提高中文词汇语义倾向性计算的准确性方面是可行、有效的. 展开更多
关键词 中文信息处理 词汇分布相似度 语义倾向 依存句法分析 知网
下载PDF
基于语义分布相似度的主题模型 被引量:2
2
作者 居亚亚 杨璐 严建峰 《计算机应用研究》 CSCD 北大核心 2019年第12期3553-3557,共5页
潜在狄利克雷分布(LDA)以词袋(bag of words,BOW)模型为基础,简化了建模的复杂度,但使得主题的语义连贯性较差,文档表征能力不强。为解决此问题,提出了一种基于语义分布相似度的主题模型。该模型在EM(expectation maximization)算法框架... 潜在狄利克雷分布(LDA)以词袋(bag of words,BOW)模型为基础,简化了建模的复杂度,但使得主题的语义连贯性较差,文档表征能力不强。为解决此问题,提出了一种基于语义分布相似度的主题模型。该模型在EM(expectation maximization)算法框架下,使用GPU(generalized Pólya urn)模型加入单词-单词和文档-主题语义分布相似度来引导主题建模,从语义关联层面上削弱了词袋假设对主题产生的影响。在四个公开数据集上的实验表明,基于语义分布相似度的主题模型在主题语义连贯性、文本分类准确率方面相对于目前流行的主题建模算法表现得更加优越,同时该模型提高了收敛速度和模型精度。 展开更多
关键词 潜在狄利克雷分布 语义分布相似度 主题模型 GPU模型
下载PDF
属性分布相似度吸引子传播聚类算法研究
3
作者 王依章 王丽敏 韩旭明 《长春工业大学学报》 CAS 2014年第3期271-274,共4页
传统吸引子传播聚类算法对数据类型敏感,文中提出一种改进的吸引子传播聚类算法,将JACCARD系数引入对象间属性分布相似度,并与吸引子传播聚类算法结合。仿真实验结果表明,该算法收敛速度快,聚类精度高,明显提高高维稀疏数据的聚类性能。
关键词 吸引子传播聚类算法 JACCARD系数 属性分布相似度
下载PDF
基于例子的基本名词短语识别中词语分布相似度的研究 被引量:1
4
作者 赵军 黄昌宁 《模式识别与人工智能》 EI CSCD 北大核心 1998年第2期140-146,共7页
本文提出一种基于例子的基本名词短语的识别模型,并着重讨论了其中的词语相似度度量方法:首先根据词语在限定距离内的同现关系计算词语的关联度,然后利用关联词语和关联度建立词语的语境向量,并基于"相似语境中出现的词语相似"... 本文提出一种基于例子的基本名词短语的识别模型,并着重讨论了其中的词语相似度度量方法:首先根据词语在限定距离内的同现关系计算词语的关联度,然后利用关联词语和关联度建立词语的语境向量,并基于"相似语境中出现的词语相似"的假设,用词语出现的语境相似度来度量词语分布相似度.实验结果表明,这种基于分布的词语相似度度量方法是基于义类词典的相似度度量方法的重要补充. 展开更多
关键词 自然语言处理 名词短语识别 词语分布相似度
原文传递
基于分布的词汇级语义相关度计算综述
5
作者 孙叔琦 杨沐昀 《智能计算机与应用》 2014年第5期53-57,共5页
在数字化智能信息处理领域,词汇级语言对象在语义上的相关关系可以为多种研究问题提供有效的特征线索。语义相关度计算是语义相关关系的量化手段,而基于分布相似度的计算方法是一类最典型的方法。这类方法将语言对象被转化为语义空间上... 在数字化智能信息处理领域,词汇级语言对象在语义上的相关关系可以为多种研究问题提供有效的特征线索。语义相关度计算是语义相关关系的量化手段,而基于分布相似度的计算方法是一类最典型的方法。这类方法将语言对象被转化为语义空间上的一个分布,通过分布的相似性评估对应语言对象的语义相关度。本文详细介绍了基于上下文分布、基于知识资源元素分布两种形式的代表性方法,并从基础资源的规模、质量、可扩展性三个角度,对这些方法进行了总结。 展开更多
关键词 语义相关 词汇级 知识资源 分布相似度
下载PDF
基于多目标PSO混合优化的虚拟样本生成 被引量:1
6
作者 王丹丹 汤健 +1 位作者 夏恒 乔俊飞 《自动化学报》 EI CAS CSCD 北大核心 2024年第4期790-811,共22页
受限于检测技术难度、高时间与经济成本等原因,难测参数的软测量模型建模样本存在数量少、分布稀疏与不平衡等问题,严重制约了数据驱动模型的泛化性能.针对以上问题,提出一种基于多目标粒子群优化(Multi-objective particle swarm optim... 受限于检测技术难度、高时间与经济成本等原因,难测参数的软测量模型建模样本存在数量少、分布稀疏与不平衡等问题,严重制约了数据驱动模型的泛化性能.针对以上问题,提出一种基于多目标粒子群优化(Multi-objective particle swarm optimization, MOPSO)混合优化的虚拟样本生成(Virtual sample generation, VSG)方法.首先,设计综合学习粒子群优化算法的种群表征机制,使其能够同时编码用于连续变量和离散变量;然后,定义具有多阶段多目标特性的综合学习粒子群优化算法适应度函数,使其能够在确保模型泛化性能的同时最小化虚拟样本数量;最后,提出面向虚拟样本生成的多目标混合优化任务以改进综合学习粒子群优化算法,使其能够适应虚拟样本优选过程的变维特性并提高收敛速度.同时,首次借鉴度量学习提出用于评价虚拟样本质量的综合评价指标和分布相似指标.利用基准数据集和真实工业数据集验证了所提方法的有效性和优越性. 展开更多
关键词 小样本建模 虚拟样本生成 混合优化 多目标粒子群优化 分布相似度
下载PDF
基于大规模语料库的汉语词相似计算 被引量:2
7
作者 买志玉 金澎 曾赛 《中原工学院学报》 CAS 2010年第3期45-50,共6页
针对词语相似度这一问题,在大规模语料库上,通过分布相似对汉语词相似进行了研究.实现了一个词相似计算平台,可灵活组合各种计算词相似算法,新增加语料库可以被增量式用于计算;对比研究了基于距离的度量和基于概率的度量2类算法的性能,... 针对词语相似度这一问题,在大规模语料库上,通过分布相似对汉语词相似进行了研究.实现了一个词相似计算平台,可灵活组合各种计算词相似算法,新增加语料库可以被增量式用于计算;对比研究了基于距离的度量和基于概率的度量2类算法的性能,通过和人工创建的黄金标准进行比较,基于概率的度量算法要优于基于距离的度量算法. 展开更多
关键词 自然语言处理 相似 分布相似度
下载PDF
Lamb波高斯混合模型螺栓松动损伤检测 被引量:6
8
作者 王刚 肖黎 屈文忠 《机械科学与技术》 CSCD 北大核心 2020年第4期493-500,共8页
螺栓连接广泛应用于多种领域,及时发现螺栓松动的位置是结构健康监测的重要课题之一。利用粘贴在铝板上的压电阵列采集Lamb波信号,提取特征参数集建立高斯混合模型。通过采集监测区域内螺栓连接结构的各种松动工况的数据建立完备的基准... 螺栓连接广泛应用于多种领域,及时发现螺栓松动的位置是结构健康监测的重要课题之一。利用粘贴在铝板上的压电阵列采集Lamb波信号,提取特征参数集建立高斯混合模型。通过采集监测区域内螺栓连接结构的各种松动工况的数据建立完备的基准数据库,更新实时数据建立动态高斯混合模型,基于高斯混合模型之间概率密度分布之间的相似度最大准则,判断监测区域的各个螺栓松动情况。实验结果表明,螺栓松紧状态一致的测试样本与训练样本之间的高斯混合模型概率分布相似度值达到0.99以上,明显高于工况不匹配的相似度,该方法可有效判断监测区域每个螺栓的松紧状态。 展开更多
关键词 螺栓松动 结构健康监测 LAMB波 高斯混合模型 概率分布相似度
下载PDF
一种面向医学短文本的自适应聚类方法 被引量:3
9
作者 栗伟 许洪涛 +1 位作者 赵大哲 刘积仁 《东北大学学报(自然科学版)》 EI CAS CSCD 北大核心 2015年第1期19-23,共5页
针对电子病历中疾病诊断文本同义词识别和命名标准化问题,提出了一种自适应的文本聚类方法.首先提出了一种新的基于集合的文本相似性度量算法;然后采用基于相似度分布的文本聚类算法实现同义文本识别,该算法能够自动确定类簇个数;最后... 针对电子病历中疾病诊断文本同义词识别和命名标准化问题,提出了一种自适应的文本聚类方法.首先提出了一种新的基于集合的文本相似性度量算法;然后采用基于相似度分布的文本聚类算法实现同义文本识别,该算法能够自动确定类簇个数;最后采用基于序列模式的中心概念提取算法实现了疾病命名的标准化,同时对聚类簇进行合并和优化,进一步提升了聚类的准确性.测试结果表明,所述方法具有较高的准确率和聚类效率,在病历文本的预处理、分类和分析中具有广泛意义. 展开更多
关键词 聚类分析 相似 频繁序列模式 电子病历 相似分布
下载PDF
文本分类中基于类别数据分布特性的噪声处理方法 被引量:2
10
作者 李湘东 巴志超 黄莉 《现代图书情报技术》 CSSCI 北大核心 2014年第11期66-72,共7页
【目的】为减少语料库中训练样本构建时因噪声样本对分类性能的影响,提出一种基于训练样本中类别数据分布特性的文本分类噪声处理方法。【方法】通过定义训练样本中各类别的聚类密度来表征类别下文档间的相似程度,并对文档对相似度分布... 【目的】为减少语料库中训练样本构建时因噪声样本对分类性能的影响,提出一种基于训练样本中类别数据分布特性的文本分类噪声处理方法。【方法】通过定义训练样本中各类别的聚类密度来表征类别下文档间的相似程度,并对文档对相似度分布进行正态归一化处理;采用近似置信区间估计以及统计相结合的方法获取含有噪声样本的文档对;基于分布的相对熵和类别聚类密度实现对噪声样本识别的正确性验证。【结果】利用该方法在公开及自建语料库中进行测试,与噪声样本处理前相比,分类性能平均提高1.21%至4.83%。【局限】样本丰富度有待进一步扩展,在多领域、多类型数据环境下对该噪声处理方法进行更全面的实验。【结论】实验结果表明该方法是有效、可行的,能够有效挖掘训练样本中的噪声样本,且可一次处理批量检测,不必事先判断各个噪声样本后再进行检测。 展开更多
关键词 训练样本 相似分布 文本分类 聚类密 噪声处理
原文传递
上一页 1 下一页 到第
使用帮助 返回顶部