期刊文献+
共找到289篇文章
< 1 2 15 >
每页显示 20 50 100
A Sentence Similarity Estimation Method Based on Improved Siamese Network 被引量:5
1
作者 Ziming Chi Bingyan Zhang 《Journal of Intelligent Learning Systems and Applications》 2018年第4期121-134,共14页
In this paper we employ an improved Siamese neural network to assess the semantic similarity between sentences. Our model implements the function of inputting two sentences to obtain the similarity score. We design ou... In this paper we employ an improved Siamese neural network to assess the semantic similarity between sentences. Our model implements the function of inputting two sentences to obtain the similarity score. We design our model based on the Siamese network using deep Long Short-Term Memory (LSTM) Network. And we add the special attention mechanism to let the model give different words different attention while modeling sentences. The fully-connected layer is proposed to measure the complex sentence representations. Our results show that the accuracy is better than the baseline in 2016. Furthermore, it is showed that the model has the ability to model the sequence order, distribute reasonable attention and extract meanings of a sentence in different dimensions. 展开更多
关键词 sentence similarity sentence Modeling similarity Measurement ATTENTION Mechanism Fully-Connected Layer DISORDER sentence DATASET
下载PDF
A New Method for Calculating Similarity between Sentences and Application on Automatic Abstracting 被引量:1
2
作者 Wenqian JI Zhoujun LI +1 位作者 Wenhan CHAO Xiaoming CHEN 《Intelligent Information Management》 2009年第1期36-42,共7页
Sentence similarity computing plays an important role in machine question-answering systems, machine-translation systems, information retrieval and automatic abstracting systems. This article firstly sums up several m... Sentence similarity computing plays an important role in machine question-answering systems, machine-translation systems, information retrieval and automatic abstracting systems. This article firstly sums up several methods for calculating similarity between sentences, and brings out a new method which takes all factors into consideration including critical words, semantic information, sentential form and sen-tence length. And on this basis, a automatic abstracting system based on LexRank algorithm is implemented. We made several improvements in both sentence weight computing and redundancy resolution. The system described in this article could deal with single or multi-document summarization both in English and Chinese. With evaluations on two corpuses, our system could produce better summaries to a certain degree. We also show that our system is quite insensitive to the noise in the data that may result from an imperfect topical clustering of documents. And in the end, existing problem and the developing trend of automatic summariza-tion technology are discussed. 展开更多
关键词 sentence similarity AUTOMATIC abstracting lexrank sentence-weight computing REDUNDANCY resolution
下载PDF
Information mining and similarity computation for semi-/un-structured sentences from the social data 被引量:1
3
作者 Peiying Zhang Xingzhe Huang Lei Zhang 《Digital Communications and Networks》 SCIE CSCD 2021年第4期518-525,共8页
In recent years,with the development of the social Internet of Things(IoT),all kinds of data accumulated on the network.These data,which contain a lot of social information and opinions.However,these data are rarely f... In recent years,with the development of the social Internet of Things(IoT),all kinds of data accumulated on the network.These data,which contain a lot of social information and opinions.However,these data are rarely fully analyzed,which is a major obstacle to the intelligent development of the social IoT.In this paper,we propose a sentence similarity analysis model to analyze the similarity in people’s opinions on hot topics in social media and news pages.Most of these data are unstructured or semi-structured sentences,so the accuracy of sentence similarity analysis largely determines the model’s performance.For the purpose of improving accuracy,we propose a novel method of sentence similarity computation to extract the syntactic and semantic information of the semi-structured and unstructured sentences.We mainly consider the subjects,predicates and objects of sentence pairs and use Stanford Parser to classify the dependency relation triples to calculate the syntactic and semantic similarity between two sentences.Finally,we verify the performance of the model with the Microsoft Research Paraphrase Corpus(MRPC),which consists of 4076 pairs of training sentences and 1725 pairs of test sentences,and most of the data came from the news of social data.Extensive simulations demonstrate that our method outperforms other state-of-the-art methods regarding the correlation coefficient and the mean deviation. 展开更多
关键词 sentence similarity computation Information mining and computation Social data Internet of things Type of sentence pairs
下载PDF
Sentence Similarity Measurement with Convolutional Neural Networks Using Semantic and Syntactic Features 被引量:1
4
作者 Shiru Zhang Zhiyao Liang Jian Lin 《Computers, Materials & Continua》 SCIE EI 2020年第5期943-957,共15页
Calculating the semantic similarity of two sentences is an extremely challenging problem.We propose a solution based on convolutional neural networks(CNN)using semantic and syntactic features of sentences.The similari... Calculating the semantic similarity of two sentences is an extremely challenging problem.We propose a solution based on convolutional neural networks(CNN)using semantic and syntactic features of sentences.The similarity score between two sentences is computed as follows.First,given a sentence,two matrices are constructed accordingly,which are called the syntax model input matrix and the semantic model input matrix;one records some syntax features,and the other records some semantic features.By experimenting with different arrangements of representing the syntactic and semantic features of the sentences in the matrices,we adopt the most effective way of constructing the matrices.Second,these two matrices are given to two neural networks,which are called the sentence model and the semantic model,respectively.The convolution process of the neural networks of the two models is carried out in multiple perspectives.The outputs of the two models are combined as a vector,which is the representation of the sentence.Third,given the representation vectors of two sentences,the similarity score of these representations is computed by a layer in the CNN.Experiment results show that our algorithm(SSCNN)surpasses the performance MPCPP,which noticeably the best recent work of using CNN for sentence similarity computation.Comparing with MPCNN,the convolution computation in SSCNN is considerably simpler.Based on the results of this work,we suggest that by further utilization of semantic and syntactic features,the performance of sentence similarity measurements has considerable potentials to be improved in the future. 展开更多
关键词 sentence similarity neural network convolutional neural networks
下载PDF
Refined Sparse Representation Based Similar Category Image Retrieval
5
作者 Xin Wang Zhilin Zhu Zhen Hua 《Computer Modeling in Engineering & Sciences》 SCIE EI 2023年第2期893-908,共16页
Given one specific image,it would be quite significant if humanity could simply retrieve all those pictures that fall into a similar category of images.However,traditional methods are inclined to achieve high-quality ... Given one specific image,it would be quite significant if humanity could simply retrieve all those pictures that fall into a similar category of images.However,traditional methods are inclined to achieve high-quality retrieval by utilizing adequate learning instances,ignoring the extraction of the image’s essential information which leads to difficulty in the retrieval of similar category images just using one reference image.Aiming to solve this problem above,we proposed in this paper one refined sparse representation based similar category image retrieval model.On the one hand,saliency detection and multi-level decomposition could contribute to taking salient and spatial information into consideration more fully in the future.On the other hand,the cross mutual sparse coding model aims to extract the image’s essential feature to the maximumextent possible.At last,we set up a database concluding a large number of multi-source images.Adequate groups of comparative experiments show that our method could contribute to retrieving similar category images effectively.Moreover,adequate groups of ablation experiments show that nearly all procedures play their roles,respectively. 展开更多
关键词 similar category image retrieval saliency detection multi-level decomposition cross mutual sparse coding
下载PDF
基于弱语义样本的对比学习句嵌入方法
6
作者 徐斌斌 严大川 +1 位作者 王建尚 王小敏 《兰州交通大学学报》 CAS 2024年第1期51-58,共8页
为了有效消除句嵌入在语义特征空间的各向异性问题,提出一种基于弱语义样本的对比学习句嵌入方法,旨在生成有效句嵌入的同时,提升模型对文本语义相似性的识别效果。首先,采用标记重复算法构建相似样本并作为遮掩语言模型的输入,预测生... 为了有效消除句嵌入在语义特征空间的各向异性问题,提出一种基于弱语义样本的对比学习句嵌入方法,旨在生成有效句嵌入的同时,提升模型对文本语义相似性的识别效果。首先,采用标记重复算法构建相似样本并作为遮掩语言模型的输入,预测生成包含弱语义关系的样本;然后,将原始样本重复输入不同失活率的转换器,抽取不同的全局语义特征;最后,通过对比学习调整特征权重值,构建句嵌入。在公开数据集上进行系列对比实验,结果表明:基于弱语义样本的句嵌入表示方法性能优于其他方法,获得77.38%的相似性评估分数,为句嵌入生成和语义相似度识别任务提供了一种有效的解决方案。 展开更多
关键词 句嵌入 对比学习 弱语义样本 文本相似性
下载PDF
基于特征知识元的专利语义引用识别方法研究——以量子计算领域为例 被引量:3
7
作者 唐晓波 吴海婷 吴佳琳 《情报理论与实践》 CSSCI 北大核心 2023年第10期86-95,共10页
[目的/意义]专利引文分析是专利分析研究的重要内容。传统专利引文分析仅分析专利文献中明确标示的物理引用专利数据,不能够准确真实反映专利之间的引用关系,难以准确揭示专利之间的技术相似度。专利语义引用识别有利于准确真实揭示专... [目的/意义]专利引文分析是专利分析研究的重要内容。传统专利引文分析仅分析专利文献中明确标示的物理引用专利数据,不能够准确真实反映专利之间的引用关系,难以准确揭示专利之间的技术相似度。专利语义引用识别有利于准确真实揭示专利间的潜在语义联系,为专利的继承与创新评价提供参考,有助于专利授权前的专利审核和专利授权后的专利评价。[方法/过程]首先,基于规则和句法分析抽取了专利的特征知识元;其次,利用Sentence-BERT和Word2Vec对专利特征知识元及专利标题摘要文本进行向量化表示;再次,根据余弦相似度计算专利的特征相似度和整体相似度,结合专利申请日期的先后顺序得到专利的语义引用专利集;最后,采用量子计算领域专利数据进行了实验研究。[结果/结论]该专利语义引用识别方法能够实现语义引用专利的有效识别,有利于评价专利的技术新颖性、创造性和实用性,为专利审核和专利价值评估工作提供支持。 展开更多
关键词 语义引用识别 特征知识元 语义相似度 sentence-BERT Word2Vec
下载PDF
基于自然语言处理的文本自动校对系统及实验结果分析 被引量:1
8
作者 王燕凤 《科学技术创新》 2023年第5期109-112,共4页
设计了一种可以用于字词查错、语法查错、语义查错的文本自动校对系统。通过构建语料库,利用二元接续关系实现字词查错;基于规则库和语法成分算法,完成语法查错;根据依存关系和句子相似度计算,实现了语义查错。从实验结果来看,本研究设... 设计了一种可以用于字词查错、语法查错、语义查错的文本自动校对系统。通过构建语料库,利用二元接续关系实现字词查错;基于规则库和语法成分算法,完成语法查错;根据依存关系和句子相似度计算,实现了语义查错。从实验结果来看,本研究设计的文本自动校对系统对错误句子的查准率在70%以上,能够快速、准确地找出文本中存在的错误,具有良好的应用前景。 展开更多
关键词 文本自动校对系统 句子相似度计算 规则库
下载PDF
从现象句和判断句看主语与话题关系
9
作者 曹德和 《北华大学学报(社会科学版)》 2023年第4期11-21,150,151,共13页
主语与话题关系问题近年来业已成为汉语语法研究的老大难。根据日本学者的研究,现象句与判断句乃是直接对应于主语与话题的两种表达类型。文章以汉语中典型的现象句与判断句为窗口,就主语与话题的同异,从认知基础、语用功能、语法特征... 主语与话题关系问题近年来业已成为汉语语法研究的老大难。根据日本学者的研究,现象句与判断句乃是直接对应于主语与话题的两种表达类型。文章以汉语中典型的现象句与判断句为窗口,就主语与话题的同异,从认知基础、语用功能、语法特征等角度作了深入考察。在此基础上,文章对主语与话题关系的三种观点作了不无必要的再检讨,指出:“同一观”忽视陈述对象已知与未知的区别,“平行观”存在方法上的缺憾,“交叉观”较为符合实际;同时指出,话题特征实由语用要求所决定,没有丝毫迹象显示话题会最终放弃动态话语调节者身份而转变为静态句法成分。文章并就析句时如何正确反映话题与主语以及其他成分关系作了再讨论。基于主语与现象句、话题与判断句只是大体对应而非完全吻合,今后的有关研究除了需要充分利用现象句与判断句的窗口作用,还需加强对焦点前置句、儿歌句、谜语句的学术探讨。 展开更多
关键词 现象句 判断句 主语与话题同异 主语与话题关系
下载PDF
基于改进TextRank的关键句提取方法 被引量:2
10
作者 陈梦彤 谷晓燕 刘甜甜 《郑州大学学报(理学版)》 CAS 北大核心 2023年第1期15-20,共6页
在进行文本挖掘时,通常根据关键词分析文本,这种方式容易忽略词语之间的关联性,影响文本挖掘的准确性。TextRank算法是提取关键词或者摘要的主要方法,该算法基于网络图考虑了句子间相似性,但是忽略了词语的特征。基于此,提出了一种改进T... 在进行文本挖掘时,通常根据关键词分析文本,这种方式容易忽略词语之间的关联性,影响文本挖掘的准确性。TextRank算法是提取关键词或者摘要的主要方法,该算法基于网络图考虑了句子间相似性,但是忽略了词语的特征。基于此,提出了一种改进TextRank算法,将相似语句合并后,考虑多种词特征进行关键句选取。首先,计算语句相似度,并且去除文中相似性较高的语句;然后,根据词频、词义、词位置对词语打分,构建有向图;最后,计算语句平均得分进行排序,选出关键句。实验结果表明,改进后的算法准确性优于其他算法,算法的时间复杂度降低,并且解决了关键词对文本描述片面和摘要烦琐的问题。 展开更多
关键词 关键句提取 改进TextRank算法 相似句合并 词特征
下载PDF
基于预训练模型的无监督剧本摘要 被引量:1
11
作者 苏琦 王红玲 王中卿 《计算机科学》 CSCD 北大核心 2023年第2期310-316,共7页
剧本是一种特殊的文本结构,以人物的对话和对场景的描述信息组成文本。无监督剧本摘要是指对篇幅很长的剧本进行压缩、提取,形成能够概括剧本信息的短文本。提出了一种基于预训练模型的无监督剧本摘要方法,首先在预训练过程中通过增加... 剧本是一种特殊的文本结构,以人物的对话和对场景的描述信息组成文本。无监督剧本摘要是指对篇幅很长的剧本进行压缩、提取,形成能够概括剧本信息的短文本。提出了一种基于预训练模型的无监督剧本摘要方法,首先在预训练过程中通过增加对文本序列处理的预训练任务,使得预训练生成的模型能够充分考虑剧本中对话的场景描述及人物说话的情感特点,然后使用该预训练模型作为训练器计算剧本中的句间相似度,结合TextRank算法对关键句进行打分、排序,最终抽取得分最高的句子作为摘要。实验结果表明,该方法相比基准模型方法取得了更好的效果,系统性能在ROUGE评价上有显著的提高。 展开更多
关键词 训练模型 预训练任务 剧本摘要 无监督 句间相似度 对话
下载PDF
基于改进SimCSE的无监督句嵌入方法 被引量:1
12
作者 郭江华 苑迎春 +1 位作者 王克俭 何晨 《计算机工程与设计》 北大核心 2023年第8期2382-2388,共7页
针对无监督SimCSE相同语义正样本差异性不足、模型训练与预测阶段具有不一致性的问题,基于SimCSE提出一种改进的无监督句嵌入方法SimCSE-PSER。采用dropout和位置嵌入扰动联合进行数据增强,提升正样本质量;引入R-Drop正则化方法,降低无... 针对无监督SimCSE相同语义正样本差异性不足、模型训练与预测阶段具有不一致性的问题,基于SimCSE提出一种改进的无监督句嵌入方法SimCSE-PSER。采用dropout和位置嵌入扰动联合进行数据增强,提升正样本质量;引入R-Drop正则化方法,降低无监督SimCSE使用dropout作为数据增强方法带来的训练与预测阶段不一致性。实验基于BERT模型在跨领域的4个中文语义文本相似度任务数据集上进行,结果表明该方法优于其它主流无监督句嵌入方法。 展开更多
关键词 语义文本相似度 无监督 句嵌入 对比学习 数据增强 正则化 预训练语言模型
下载PDF
融合语法及结构特征的汉老双语句子相似度计算方法 被引量:1
13
作者 雷歆 周蕾越 周兰江 《中文信息学报》 CSCD 北大核心 2023年第9期73-82,共10页
跨语言句子相似度计算是自然语言处理的核心任务之一。标记是老挝语的重要语言特征,汉语中的特定结构也能起到标记的作用,时态与定语广泛存在于汉老双语中。通过分辨时态和定位定语,融入语言特征,能有效提升句子相似度计算的准确率。该... 跨语言句子相似度计算是自然语言处理的核心任务之一。标记是老挝语的重要语言特征,汉语中的特定结构也能起到标记的作用,时态与定语广泛存在于汉老双语中。通过分辨时态和定位定语,融入语言特征,能有效提升句子相似度计算的准确率。该文提出融合语法及结构特征的句子相似度计算方法,通过添加特征标签,使用CNN和BiGRU获取含有更多语义信息的双语句子语义表征,连接局部推理的交互聚合结构使双语信息交互,计算交互后序列的相对差和相对积,将其结果拼接并输入到全连接层以获得汉老双语的句子相似度分数。实验结果表明,该文的方法在当下主流方法中有着突出的表现,F 1值达到了77.67%。 展开更多
关键词 老挝语 句子相似度 卷积神经网络 双向门控循环单元 局部推理
下载PDF
基于Transformer模型的问句语义相似度计算 被引量:3
14
作者 丁邱 迟海洋 +2 位作者 严馨 徐广义 邓忠莹 《计算机工程与设计》 北大核心 2023年第3期887-893,共7页
针对现有方法准确率不高、不能充分捕捉句子深层次语义特征的问题,提出一种基于Transformer编码器网络的问句相似度计算方法。在获取句子语义特征前引入交互注意力机制比较句子间词粒度的相似性,通过注意力矩阵和句子矩阵相互生成彼此... 针对现有方法准确率不高、不能充分捕捉句子深层次语义特征的问题,提出一种基于Transformer编码器网络的问句相似度计算方法。在获取句子语义特征前引入交互注意力机制比较句子间词粒度的相似性,通过注意力矩阵和句子矩阵相互生成彼此注意力加权后的新的句子表示矩阵,将获取的新矩阵同原始矩阵拼接融合,丰富句子特征信息;将拼接后的句子特征矩阵作为Transformer编码器网络的输入,由Transformer编码器分别对其进行深层次语义编码,获得句子的全局语义特征;通过全连接网络和Softmax函数对特征进行权重调整,得到句子相似度。在中文医疗健康问句数据集上模型取得了90.2%的正确率,较对比模型提升了将近4.2%,验证了该方法可以有效提高句子的语义表示能力和语义相似度的准确性。 展开更多
关键词 自然语言处理 Transformer编码器 交互注意力机制 特征融合 语义相似度 语义编码 句子表示
下载PDF
融合多相似度注意的神经网络旅游问题识别方法
15
作者 张劲桉 任伟 王素格 《中文信息学报》 CSCD 北大核心 2023年第6期157-164,共8页
中文旅游问题匹配的目标是发现两个相似的问题,然而,在自然语言字面表达中存在多样性,且一个旅游问题通常又包括多个方面信息。因此,采用单一的相似度计算方法将导致信息获取不够完整、有用信息丢失、问题匹配不准确等问题。该文探讨利... 中文旅游问题匹配的目标是发现两个相似的问题,然而,在自然语言字面表达中存在多样性,且一个旅游问题通常又包括多个方面信息。因此,采用单一的相似度计算方法将导致信息获取不够完整、有用信息丢失、问题匹配不准确等问题。该文探讨利用答案作为辅助信息,通过多种句子相似度函数,抽取问题中不同方面的信息,生成不同的句子相似度向量表示,以增强句子间的关系。在此基础上,设计一个GRU融合层,使不同方面的信息进行融合,构建一个融合多种句子相似度函数的注意力网络的相似旅游问题识别模型。在旅游问答数据集的实验表明,该文方法提升了相似旅游问题识别任务的性能。 展开更多
关键词 句子表示 相似度函数 问题识别 问答
下载PDF
融合句嵌入模型和代码特征的补丁验证方法
16
作者 蒋婷婷 姜淑娟 韩威 《电子学报》 EI CAS CSCD 北大核心 2023年第12期3450-3456,共7页
补丁验证常用运行测试套件的方法来验证补丁正确性,然而自动修复技术生成的补丁往往数量巨大,而将每个补丁依次通过测试套件则会产生难以承受的开销.针对该问题,本文提出一个由句嵌入模型InferSent和支持向量机分类器组成的静态补丁验... 补丁验证常用运行测试套件的方法来验证补丁正确性,然而自动修复技术生成的补丁往往数量巨大,而将每个补丁依次通过测试套件则会产生难以承受的开销.针对该问题,本文提出一个由句嵌入模型InferSent和支持向量机分类器组成的静态补丁验证方法.使用InferSent提取代码静态特征并通过支持向量机分类器来预测补丁正确性.该方法更加关注代码的静态特征信息,通过对特征的提取分析,无需运行测试套件即可有效地预测自动修复工具生成的补丁的正确性.本文在多个自动修复工具生成的补丁集合上进行了验证.实验结果表明,在修复工具生成的补丁集合上,本文提出的静态补丁验证方法对补丁预测的F1值达到71.89%,相比其他两种最新静态补丁验证方法分别提高11.64%和6.43%,并在五项评价指标上均优于对比模型.表明该方法可以在不运行测试套件的情况下正确预测补丁,且具有良好的泛化能力. 展开更多
关键词 程序自动修复 补丁验证 代码静态特征 句嵌入技术 支持向量机 代码相似性
下载PDF
中文短文本语法语义相似度算法 被引量:14
17
作者 廖志芳 周国恩 +2 位作者 李俊锋 刘飞 蔡飞 《湖南大学学报(自然科学版)》 EI CAS CSCD 北大核心 2016年第2期135-140,共6页
通过分析中文短文本的特征,提出了一种基于语法语义的短文本相似度算法.该算法结合中文语句语义的相似性以及语句语法的相似性,即计算具有相同句法结构的短文本的相似度以及考虑语句词组顺序对相似度的贡献,对中文短文本相似度进行计算... 通过分析中文短文本的特征,提出了一种基于语法语义的短文本相似度算法.该算法结合中文语句语义的相似性以及语句语法的相似性,即计算具有相同句法结构的短文本的相似度以及考虑语句词组顺序对相似度的贡献,对中文短文本相似度进行计算.实验表明,本文提出的算法在中文短文本相似度计算结果上更加接近人们的主观判断并且拥有比较好的精确率与召回率. 展开更多
关键词 语法语义相似度 语句相似性计算 HOWNET 语料库 语法分析 语义分析 相似度计算
下载PDF
基于加权TextRank的新闻关键事件主题句提取 被引量:11
18
作者 蒲梅 周枫 +2 位作者 周晶晶 严馨 周兰江 《计算机工程》 CAS CSCD 北大核心 2017年第8期219-224,共6页
为了在大量的新闻中快速找到自己感兴趣的内容,提出在单文档中基于加权TextRank算法提取主题句的方法,以得到新闻关键事件信息。通过计算新闻文本句子关键词的互信息值,对新闻报道进行事件句和非事件句的分类,过滤出非事件句。基于TextR... 为了在大量的新闻中快速找到自己感兴趣的内容,提出在单文档中基于加权TextRank算法提取主题句的方法,以得到新闻关键事件信息。通过计算新闻文本句子关键词的互信息值,对新闻报道进行事件句和非事件句的分类,过滤出非事件句。基于TextRank算法的思想,构建一个事件句有向图,引入句子位置、句子相似度和关键词覆盖频率3个影响因子,以此计算句子之间的影响权重,利用TextRank模型对图中的每个点计算权重,并选取排序最靠前的句子作为关键事件的主题句。实验结果表明,该方法的抽取效果优于基于词频-逆文档概率和新闻标题的主题句抽取方法。 展开更多
关键词 TextRank算法 句子相似度 关键事件 主题句提取 影响权重
下载PDF
基于Word2vec的句子语义相似度计算研究 被引量:56
19
作者 李晓 解辉 李立杰 《计算机科学》 CSCD 北大核心 2017年第9期256-260,共5页
word2vec利用深度学习的思想,可以从大规模的文本数据中自动学习数据的本质信息。因此,借助哈尔滨工业大学的LTP平台,设计利用word2vec模型将对句子的处理简化为向量空间中的向量运算,采用向量空间上的相似度表示句子语义上的相似度。此... word2vec利用深度学习的思想,可以从大规模的文本数据中自动学习数据的本质信息。因此,借助哈尔滨工业大学的LTP平台,设计利用word2vec模型将对句子的处理简化为向量空间中的向量运算,采用向量空间上的相似度表示句子语义上的相似度。此外,将句子的结构信息添加到句子相似度计算中,并就特殊句式对算法进行了改进,同时考虑到了词汇之间的句法关系。实验结果表明,该方法更准确地揭示了句子之间的语义关系,句法结构的提取和算法的改进解决了复杂句式的相似度计算问题,提高了相似度计算的准确率。 展开更多
关键词 句子相似度 word2vec 词向量 语义 句法结构
下载PDF
基于问句相似度的中文FAQ问答系统 被引量:14
20
作者 叶正 林鸿飞 杨志豪 《计算机工程与应用》 CSCD 北大核心 2007年第9期161-163,248,共4页
常见问题(FAQ)问答系统是一种在已有的“问题—答案”对集合中找到与用户提问相匹配的问句,并将其对应的答案返回给用户的问答式检索系统。其关键问题是用户提出问句与FAQ库中问句进行相似度计算,找出FAQ库中最相近的问句,并返回事先存... 常见问题(FAQ)问答系统是一种在已有的“问题—答案”对集合中找到与用户提问相匹配的问句,并将其对应的答案返回给用户的问答式检索系统。其关键问题是用户提出问句与FAQ库中问句进行相似度计算,找出FAQ库中最相近的问句,并返回事先存储好的问题答案。通过对常见问句特点的研究,给出一种基于分解的向量空间模型和语义概念的问句相似度计算方法,其主要思想是对一个问句向量进行分解,提取其三个关键部分:问点、主题词和疑问词,表示成三个分向量,然后对每个分向量计算基于《HIT-IRLab同义词词林(扩展版)》的语义相似度,通过线性加权就可以得出两个问句的语义相似度。试验表明,与传统的基于向量空间模型的TF-DF问句相似度计算方法相比,可以提高问句匹配的精度。 展开更多
关键词 问句相似度 语义相似度 常见问题集 向量空间模型
下载PDF
上一页 1 2 15 下一页 到第
使用帮助 返回顶部