期刊文献+
共找到18篇文章
< 1 >
每页显示 20 50 100
基于短文本相似度分析的测试用例自动批改研究 被引量:1
1
作者 赵聚雪 《电脑编程技巧与维护》 2023年第12期127-129,共3页
高职教育是以能力获取为主的教育,其实践结果相对复杂,实践评价的对象可能是项目、作品等。针对教学中存在的评阅时间长、评价反馈慢等问题,借助人工智能的短文本相似度分析技术探索软件测试用例的自动批改,并利用百度AI进行实证研究,... 高职教育是以能力获取为主的教育,其实践结果相对复杂,实践评价的对象可能是项目、作品等。针对教学中存在的评阅时间长、评价反馈慢等问题,借助人工智能的短文本相似度分析技术探索软件测试用例的自动批改,并利用百度AI进行实证研究,对人工智能在以能力获取为目标的高职教学中的应用进行了有益探索。 展开更多
关键词 人工智能 短文本相似度 高职教育 测试用例
下载PDF
融合词性位置特征的多任务汉老双语短文本相似度计算方法
2
作者 李炫达 周兰江 张建安 《中文信息学报》 CSCD 北大核心 2023年第4期18-27,33,共11页
老挝语属于低资源语言,在有限的语料中获取更多的语义信息可以有效解决汉语和老挝语短文本相似度计算不准确的问题。多任务学习是有效获取语义信息的一种方法,该文对汉语和老挝语短文本特点进行研究后,提出一种融合词性位置特征的多任... 老挝语属于低资源语言,在有限的语料中获取更多的语义信息可以有效解决汉语和老挝语短文本相似度计算不准确的问题。多任务学习是有效获取语义信息的一种方法,该文对汉语和老挝语短文本特点进行研究后,提出一种融合词性位置特征的多任务汉老双语短文本相似度计算方法:首先,通过词性位置特征权重和TF-IDF权重加权表征双语短文本的同时,使用改进后的TextRank算法获取双语短文本的核心句;然后,通过带有自注意力机制的双向长短时记忆网络分别计算双语短文本的相似度与双语短文本对应核心句的相似度;最后,使用多任务学习方法,将双语短文本的核心句相似度计算作为辅助任务,获取更多的语义信息进行共享以提升汉老双语短文本相似度计算模型的性能。实验结果表明,该文提出的方法在有限的训练语料下取得了更好的效果,F_(1)值达76.16%。 展开更多
关键词 汉语-老挝语 词性位置特征 多任务学习 短文本相似度计算
下载PDF
基于词项语义映射的短文本相似度算法 被引量:11
3
作者 黄贤英 张金鹏 +1 位作者 刘英涛 赵明军 《计算机工程与设计》 北大核心 2015年第6期1514-1518,1534,共6页
针对HowNet语义词典对词项收录数量的有限性在一定程度上制约文本相似度运算准确性的问题,提出一种词项语义维度映射的方法。从词项词性的角度出发,按词性对短文本中词项进行切分,按词性特征对短文本之间进行词项归并,构建词性向量,依... 针对HowNet语义词典对词项收录数量的有限性在一定程度上制约文本相似度运算准确性的问题,提出一种词项语义维度映射的方法。从词项词性的角度出发,按词性对短文本中词项进行切分,按词性特征对短文本之间进行词项归并,构建词性向量,依据词频和HowNet语义词典,词项完成词性向量中权值映射,将短文本之间相似度运算转换为词性向量之间相似度运算。将该算法运用于信箱测试数据集,实验结果表明,该算法提高了文本相似度运算的准确率和相似度平均值。 展开更多
关键词 How Net语义词典 词性向量 语义维映射 词项词频 短文本相似度算法
下载PDF
短文本相似度研究及其在微博话题检测中的应用 被引量:11
4
作者 黄贤英 陈红阳 刘英涛 《计算机工程与设计》 北大核心 2015年第11期3128-3133,共6页
针对微博短文本特征稀疏导致文本相似性度量不精确的问题,提出一种基于多视角的微博短文本相似度算法。根据词形相同与词义相近寻找微博短文本中的公共块,以公共块所含词项总数与公共块之间的组合顺序,构建基于公共块序列的语义相似度;... 针对微博短文本特征稀疏导致文本相似性度量不精确的问题,提出一种基于多视角的微博短文本相似度算法。根据词形相同与词义相近寻找微博短文本中的公共块,以公共块所含词项总数与公共块之间的组合顺序,构建基于公共块序列的语义相似度;利用微博短文本发布时间、转发与评论等信息来修正该语义相似度,形成新的微博短文本相似度算法,度量微博短文本之间的相似性;将新的微博短文本相似度算法融入Single-Pass聚类算法中以检测微博话题。实验结果表明,将该算法应用于微博话题检测时,能够有效降低话题检测的平均漏检率与误检率等,提高了话题检测的质量。 展开更多
关键词 微博短文本相似度 微博话题检测 结构化信息 公共块序列 语义相似
下载PDF
结合词性的短文本相似度算法及其在文本分类中的应用 被引量:11
5
作者 黄贤英 李沁东 刘英涛 《电讯技术》 北大核心 2017年第1期78-82,共5页
针对基于语义的短文本相似度计算方法在短文本分类中准确率较低这一问题,提出了结合词性的短文本相似度算法(GCSSA)。该方法在基于hownet("知网")语义的短文本相似度计算方法的基础上,结合类别特征词并添加关键词词性分析,对... 针对基于语义的短文本相似度计算方法在短文本分类中准确率较低这一问题,提出了结合词性的短文本相似度算法(GCSSA)。该方法在基于hownet("知网")语义的短文本相似度计算方法的基础上,结合类别特征词并添加关键词词性分析,对类别特征词和其他关键词的词性信息给定不同关键词以不同的权值系数,以此区别各种贡献度词项在短文本相似度计算中的重要程度。实验表明,该算法进行文本相似度计算后应用于短文本分类中较基于hownet的短文本分类算法在准确率宏平均和微平均上提升4%左右,有效提高了短文本分类的准确性。 展开更多
关键词 短文本分类 短文本相似度 词性 hownet语义 分类准确率
下载PDF
基于LDA的多特征融合的短文本相似度计算 被引量:8
6
作者 张小川 余林峰 张宜浩 《计算机科学》 CSCD 北大核心 2018年第9期266-270,共5页
近年来,LDA(Latent Dirichlet Allocation)主题模型通过挖掘文本的潜在语义主题进行文本表示,为短文本的相似度计算提供了新思路。针对短文本特征稀疏,应用LDA主题模型易导致文本相似度计算结果缺乏准确性的问题,提出了基于LDA的多特征... 近年来,LDA(Latent Dirichlet Allocation)主题模型通过挖掘文本的潜在语义主题进行文本表示,为短文本的相似度计算提供了新思路。针对短文本特征稀疏,应用LDA主题模型易导致文本相似度计算结果缺乏准确性的问题,提出了基于LDA的多特征融合的短文本相似度算法。该方法融合了主题相似度因子ST(Similarity Topic)和词语共现度因子CW(Co-occurrence Words),建立了联合相似度模型以规约不同ST区间下CW对ST产生的约束或补充条件,并最终权衡了准确性更高的相似度结果。对改进后的算法进行文本聚类实验,结果表明改进后的算法在F度量值上取得了一定程度的提升。 展开更多
关键词 LDA 主题模型 短文本相似度 主题相似 词语共现
下载PDF
多重检验加权融合的短文本相似度计算方法 被引量:11
7
作者 石彩霞 李书琴 刘斌 《计算机工程》 CAS CSCD 北大核心 2021年第2期95-102,共8页
传统相似度计算方法仅考虑文本结构特征或语义信息,从而导致准确率较低。结合短文本特征稀疏的特性,提出一种多重检验加权融合的短文本相似度计算方法 MCWFS。使用基于改进编辑距离、考虑词频、基于Word2vec与LSTM的3种方法分别计算相似... 传统相似度计算方法仅考虑文本结构特征或语义信息,从而导致准确率较低。结合短文本特征稀疏的特性,提出一种多重检验加权融合的短文本相似度计算方法 MCWFS。使用基于改进编辑距离、考虑词频、基于Word2vec与LSTM的3种方法分别计算相似度,对满足多重检验标准的文本进行加权因子线性融合,以避免因一种相似度值过大或过小导致加权相似度值异常的问题。在此基础上,通过加权融合计算短文本相似度,使得计算结果更加准确合理。实验结果表明,相比层层检验和无检验融合方法,MCWFS方法的平均准确率分别提高16.01%和7.39%,且其F1值可达70.21%。 展开更多
关键词 短文本相似度 多重检验加权融合 编辑距离 语义信息 词频
下载PDF
基于混合策略的中文短文本相似度计算 被引量:8
8
作者 宋冬云 郑瑾 张祖平 《计算机工程与应用》 CSCD 北大核心 2018年第12期116-120,205,共6页
为提高中文短文本相似度计算的准确率,提出一种新的基于混合策略的中文短文本相似度计算方法。首先,根据词语的语义距离,利用层次聚类,构建短文本聚类二叉树,改进传统的向量空间模型(VSM),计算关键词加权的文本相似度。然后,通过提取句... 为提高中文短文本相似度计算的准确率,提出一种新的基于混合策略的中文短文本相似度计算方法。首先,根据词语的语义距离,利用层次聚类,构建短文本聚类二叉树,改进传统的向量空间模型(VSM),计算关键词加权的文本相似度。然后,通过提取句子的主干成分对传统的基于语法语义模型的方法进行改进,得到文本主干的语义相似度;最后,对两种相似度进行加权,计算最终的文本相似度。实验结果表明,提出的方法在短文本相似度计算方面准确性更高,更加适合人们的主观判断。 展开更多
关键词 短文本相似度 关键词权重 层次聚类 二叉树 主干成分
下载PDF
结合语义和结构的短文本相似度计算 被引量:4
9
作者 倪高伟 李涛 刘峥 《计算机技术与发展》 2018年第8期104-108,113,共6页
短文本相似度不仅包括语义相似度,还包括语法相似度。目前在短文本相似度度量算法中,大多只分析短文本语义层次的相似性,往往忽略了短文本的语法结构对短文本相似度的重要影响,导致无法捕获大量的文本语义信息,同时在短文本分类任务中... 短文本相似度不仅包括语义相似度,还包括语法相似度。目前在短文本相似度度量算法中,大多只分析短文本语义层次的相似性,往往忽略了短文本的语法结构对短文本相似度的重要影响,导致无法捕获大量的文本语义信息,同时在短文本分类任务中召回率不够理想。通过分析短文本的特征,将EMD(earth mover’s distance)求解线性规划中运输问题的最优解应用于度量两个短文本的相似度,用Word2Vec度量两个单词的语义相似性,提出了词序位置相似度的概念,即在计算短文本相似度的同时考虑语句词组顺序对相似度的贡献。实验结果表明,在捕获大量文本语义信息的基础上,将算法应用于k近邻(k-nearest neighbor,KNN)文本分类中,有较好的准确率和召回率。 展开更多
关键词 EMD Word2Vec 短文本相似度计算 语义相似 词序结构
下载PDF
融合注意力及句法的短文本相似度计算方法 被引量:3
10
作者 蔚佳璇 张起贵 《计算机工程与设计》 北大核心 2022年第11期3127-3134,共8页
针对短文本相似度计算中无法充分利用文本中不同部分的不同重要性且较少考虑句法信息而导致准确率较低的问题,提出一种融合注意力及句法信息的短文本相似度计算方法。通过在语义相似度部分设计混合注意力结构体系,准确提取交互信息,凸... 针对短文本相似度计算中无法充分利用文本中不同部分的不同重要性且较少考虑句法信息而导致准确率较低的问题,提出一种融合注意力及句法信息的短文本相似度计算方法。通过在语义相似度部分设计混合注意力结构体系,准确提取交互信息,凸显不同粒度的重要程度;在句法结构模块提出一种基于图的依存分析方法准确分析文本的依存关系,构建关系矩阵,计算结构相似度;对两者进行加权融合。实验结果表明,该方法获得的准确率及F1值有所提高,结果优于其它文本相似度方法。 展开更多
关键词 短文本相似度 混合注意力机制 依存句法分析 关系矩阵 加权融合
下载PDF
基于BERT的短文本相似度判别模型 被引量:4
11
作者 方子卿 陈一飞 《电脑知识与技术》 2021年第5期14-18,共5页
短文本的表示方法和特征提取方法是自然语言处理基础研究的一个重要方向,具有广泛的应用价值。本文提出了BERT_BLSTM_TCNN模型,该神经网络模型利用BERT的迁移学习,并在词向量编码阶段引入对抗训练方法,训练出包括句的语义和结构特征的... 短文本的表示方法和特征提取方法是自然语言处理基础研究的一个重要方向,具有广泛的应用价值。本文提出了BERT_BLSTM_TCNN模型,该神经网络模型利用BERT的迁移学习,并在词向量编码阶段引入对抗训练方法,训练出包括句的语义和结构特征的且泛化性能更优的句特征,并将这些特征输入BLSTM_TCNN层中进行特征抽取以完成对短文本的语义层面上的相似判定。在相关数据集上的实验结果表明:与最先进的预训练模型相比,该模型在有着不错的判定准确率的同时还有参数量小易于训练的优点。 展开更多
关键词 词向量模型 自然语言处理 短文本相似度 卷积神经网络 循环神经网络
下载PDF
面向自动问答系统的短文本相似度计算 被引量:2
12
作者 黄震 《信息技术与信息化》 2020年第11期200-201,共2页
基于文本的自动问答系统一般包含问句处理、问句匹配和答案选取三个模块,衡量系统的重要指标(包括答案选取的效率和准确性)与问句匹配模块的相关度最高,因此从一个自动问答系统落地应用的角度出发,本文在问句匹配模块中提出了一种有监... 基于文本的自动问答系统一般包含问句处理、问句匹配和答案选取三个模块,衡量系统的重要指标(包括答案选取的效率和准确性)与问句匹配模块的相关度最高,因此从一个自动问答系统落地应用的角度出发,本文在问句匹配模块中提出了一种有监督和无监督相结合的短文本相似度计算方案。实验部分设计了基于Siamese Network框架的短文本相似度计算与基于word2vec词向量的无监督计算方法对比,验证了有监督计算方法在准确率方面的优势。 展开更多
关键词 短文本相似度计算 自动问答 Siamese Network
下载PDF
基于服务相似度的移动用户近似邻居选取方法 被引量:1
13
作者 缪峰 贾华丁 熊于宁 《计算机工程》 CAS CSCD 北大核心 2018年第5期162-167,173,共7页
现有近似邻居集选取方法存在分类较粗、标签缺失等问题,在移动服务方面无法取得较好的效果。为此,提出一种有效的近似邻居集选取方法。通过改进短文本相似度计算方法,基于服务介绍内容,求出移动服务之间的相似度,根据服务相似度,改进用... 现有近似邻居集选取方法存在分类较粗、标签缺失等问题,在移动服务方面无法取得较好的效果。为此,提出一种有效的近似邻居集选取方法。通过改进短文本相似度计算方法,基于服务介绍内容,求出移动服务之间的相似度,根据服务相似度,改进用户相似度计算方法,得到用户之间非对称的有向相似度,给出分步筛选法,解决由于冷启动等原因引起的目标用户近似邻居集数量庞大的问题。实验结果表明,该方法的准确率高于关键词重叠法和余弦法。 展开更多
关键词 移动服务推荐 邻居筛选 短文本相似度 近似邻居 AP聚类
下载PDF
一种融合词项关联关系和统计信息的短文本建模方法
14
作者 马慧芳 曾宪桃 +1 位作者 李晓红 贠宁 《计算机应用与软件》 CSCD 2016年第10期28-31,56,共5页
传统文本表示方法通常基于词袋模型,而词袋模型是基于文本中词项之间是相互独立的假设。最近也提出一些通过词共现来获取词项之间关系的统计分析方法,却忽略了词项之间的隐含语义。为了解决传统文本表示方法词袋模型对文本语义的忽略问... 传统文本表示方法通常基于词袋模型,而词袋模型是基于文本中词项之间是相互独立的假设。最近也提出一些通过词共现来获取词项之间关系的统计分析方法,却忽略了词项之间的隐含语义。为了解决传统文本表示方法词袋模型对文本语义的忽略问题,提出一种融合词项关联关系和统计信息的短文本建模方法。通过词语之间的内联及外联关系耦合得到词语关联关系,充分挖掘了显示和隐含的语义信息;同时以关联关系作为初始词语相似度,迭代计算词语之间及文本之间的相似度,改善了短文本的表示。实验证明,该方法显著地提高了短文本聚类的性能。 展开更多
关键词 内联关系 外联关系 词语相似 本相似 短文本相似度
下载PDF
多属性推荐算法在企业研发服务系统中的应用 被引量:2
15
作者 田俊鹏 李晓戈 马鲜艳 《小型微型计算机系统》 CSCD 北大核心 2023年第1期8-13,共6页
为满足企业的技术服务及研发需求,各地陆续建设线上供需服务平台.线上技术供需匹配难的主要原因在于文本相似度计算的准确性以及多元数据对于成交结果的影响.为解决上述问题,本文提出一种融合多属性的供需推荐模型,针对“陕西省中小企... 为满足企业的技术服务及研发需求,各地陆续建设线上供需服务平台.线上技术供需匹配难的主要原因在于文本相似度计算的准确性以及多元数据对于成交结果的影响.为解决上述问题,本文提出一种融合多属性的供需推荐模型,针对“陕西省中小企业研发服务平台”数据进行供需推荐,其中包括论文、专利、成果、项目等多属性特征,采用基于Bert(Bidirectional Encoder Representation from Transformers)的句向量表示方法计算供需文本的相似得分,并结合熵值法确定各属性权重,对各属性数据得分加权变换后实现推荐.实验表明,所提出的相似度计算模型在真实数据集上,各项评价指标优于词向量的表示方法.结合权值矩阵的多属性推荐模型,可较好的实现企业科技研发的供需推荐. 展开更多
关键词 供需推荐 短文本相似度 多属性融合 Bert
下载PDF
基于外卖数据的社区团购选品系统研究与应用
16
作者 李瑾 刘云鹏 邱虹 《计算机应用与软件》 北大核心 2022年第11期43-48,118,共7页
新零售时代下,社区团购开创了一种全新的团购模式,正确的选品能够帮助社区团购平台提升客户留存,并且通过商品的差异化特点裂变出更多客户。通过对不同社区外卖数据的分析,找出社区对商品需求的差异性,并将外卖菜品名与常见大众菜谱进... 新零售时代下,社区团购开创了一种全新的团购模式,正确的选品能够帮助社区团购平台提升客户留存,并且通过商品的差异化特点裂变出更多客户。通过对不同社区外卖数据的分析,找出社区对商品需求的差异性,并将外卖菜品名与常见大众菜谱进行关联,同时围绕菜谱推荐,将菜谱主料与竞品单品进行关联,为不同社区的团购选品提供有价值的数据支撑。所提方法在宁波某团购平台试用一个月后,31个不同社区的平均销售额增长率为85.71%,平均有效订单数增长率为70.45%,平均总销售件数增长率为39.69%。 展开更多
关键词 社区团购 短文本相似度 选品 推荐 数据分析
下载PDF
基于粗糙集理论的中文知识问答的知识谓词分析
17
作者 韩朝 苗夺谦 任福继 《计算机科学》 CSCD 北大核心 2018年第6期183-186,共4页
在基于知识的问答系统中,问句中的知识谓词信息分析结果将会对知识元组的整体匹配效果产生影响。中文短问句中的知识谓词的信息表达方式存在着不确定性,这些不确定性的表达增加了知识谓词分析的难度。从粗糙集理论的角度,提出了一种问... 在基于知识的问答系统中,问句中的知识谓词信息分析结果将会对知识元组的整体匹配效果产生影响。中文短问句中的知识谓词的信息表达方式存在着不确定性,这些不确定性的表达增加了知识谓词分析的难度。从粗糙集理论的角度,提出了一种问句中的知识谓词的分析方法,对问句中的知识谓词的弱相关表达进行约简,使问句中与知识谓词强相关的表达词能更有效地与知识元组中的知识谓词匹配,进而提高系统对知识谓词的整体分析能力。实验结果验证了新方法的有效性。 展开更多
关键词 粗糙集 问答系统 知识问答 信息检索 短文本相似度
下载PDF
基于NLP的兴趣点数据上线系统设计与实现
18
作者 张先荣 郑贵俊 《计算机应用与软件》 北大核心 2020年第12期17-25,共9页
全面丰富的兴趣点(Point of Interest,POI)数据直接影响着地图App厂商的地理位置服务。针对传统的POI数据采集与上线方式周期长、速度慢的问题,提出一种高效的采集、上线POI数据的方式。将数据上线工作细化为:数据采集,数据格式化,数据... 全面丰富的兴趣点(Point of Interest,POI)数据直接影响着地图App厂商的地理位置服务。针对传统的POI数据采集与上线方式周期长、速度慢的问题,提出一种高效的采集、上线POI数据的方式。将数据上线工作细化为:数据采集,数据格式化,数据判重与存储。在数据采集模块上采用一种负载均衡的分布式网络爬虫采集技术,数据格式化模块用于处理数据采集模块采集出的原始数据格式不统一的问题。数据判重模块将新旧数据的名称进行相似度计算,再结合经纬度计算的距离进行判重。结合Word2Vec与Siamese-LSTM设计判重模型,准确率达93.5%。 展开更多
关键词 数据采集 数据判重 POI数据 Word2Vec Siamese-LSTM 短文本相似度
下载PDF
上一页 1 下一页 到第
使用帮助 返回顶部