期刊文献+
共找到46篇文章
< 1 2 3 >
每页显示 20 50 100
Topic Model Based Text Similarity Measure for Chinese Judgment Document
1
作者 Yue Wang Jidong Ge +5 位作者 Yemao Zhou Yi Feng Chuanyi Li ZhongjinLi Xiaoyu Zhou Bin Luo 《国际计算机前沿大会会议论文集》 2017年第2期9-11,共3页
In the recent informatization of Chinese courts, the huge amount of law cases and judgment documents, which were digital stored,has provided a good foundation for the research of judicial big data and machine learning... In the recent informatization of Chinese courts, the huge amount of law cases and judgment documents, which were digital stored,has provided a good foundation for the research of judicial big data and machine learning. In this situation, some ideas about Chinese courts can reach automation or get better result through the research of machine learning, such as similar documents recommendation, workload evaluation based on similarity of judgement documents and prediction of possible relevant statutes. In trying to achieve all above mentioned, and also in face of the characteristics of Chinese judgement document, we propose a topic model based approach to measure the text similarity of Chinese judgement document, which is based on TF-IDF, Latent Dirichlet Allocation (LDA), Labeled Latent Dirichlet Allocation (LLDA) and other treatments. Combining with the characteristics of Chinese judgment document,we focus on the specific steps of approach, the preprocessing of corpus, the parameters choices of training and the evaluation of similarity measure result. Besides, implementing the approach for prediction of possible statutes and regarding the prediction accuracy as the evaluation metric, we designed experiments to demonstrate the reasonability of decisions in the process of design and the high performance of our approach on text similarity measure. The experiments also show the restriction of our approach which need to be focused in future work. 展开更多
关键词 CHINESE JUDGMENT documents Data science Machine learning Natural language processing text similarity TF-IDF TOPIC model LATENT DIRICHLET ALLOCATION Labeled LATENT DIRICHLET ALLOCATION
下载PDF
Semantic Sentence Similarity Using Finite State Machine
2
作者 Chiranjibi Sitaula Yadav Raj Ojha 《Intelligent Information Management》 2013年第6期171-174,共4页
In this paper, a finite state machine approach is followed in order to find the semantic similarity of two sentences. The approach exploits the concept of bi-directional logic along with a semantic ordering approach. ... In this paper, a finite state machine approach is followed in order to find the semantic similarity of two sentences. The approach exploits the concept of bi-directional logic along with a semantic ordering approach. The core part of this approach is bi-directional logic of artificial intelligence. The bi-directional logic is implemented using Finite State Machine algorithm with slight modification. For finding the semantic similarity, keyword has played climactic importance. With the help of the keyword approach, it can be found easily at the sentence level according to this algorithm. The algorithm is proposed especially for Nepali texts. With the polarity of the individual keywords, the finite state machine is made and its final state determines its polarity. If two sentences are negatively polarized, they are said to be coherent, otherwise not. Similarly, if two sentences are of a positive nature, they are said to be coherence. For measuring the coherence (similarity), contextual concept is taken into consideration. The semantic approach, in this research, is a totally contextual based method. Two sentences are said to be semantically similar if they bear the same context. The total accuracy obtained in this algorithm is 90.16%. 展开更多
关键词 Artificial INTELLIGENCE Natural language Processing text Mining SEMANTIC similarity FINITE State Machine
下载PDF
基于TextRank算法和互信息相似度的维吾尔文关键词提取及文本分类 被引量:8
3
作者 阿力甫.阿不都克里木 李晓 《计算机科学》 CSCD 北大核心 2016年第12期36-40,共5页
针对维吾尔语文本的分类问题,提出一种基于TextRank算法和互信息相似度的维吾尔文关键词提取及文本分类方法。首先,对输入文本进行预处理,滤除非维吾尔语的字符和停用词;然后,利用词语语义相似度、词语位置和词频重要性加权的TextRank... 针对维吾尔语文本的分类问题,提出一种基于TextRank算法和互信息相似度的维吾尔文关键词提取及文本分类方法。首先,对输入文本进行预处理,滤除非维吾尔语的字符和停用词;然后,利用词语语义相似度、词语位置和词频重要性加权的TextRank算法提取文本关键词集合;最后,根据互信息相似度度量,计算输入文本关键词集和各类关键词集的相似度,最终实现文本的分类。实验结果表明,该方案能够提取出具有较高识别度的关键词,当关键词集大小为1250时,平均分类率达到了91.2%。 展开更多
关键词 维吾尔语 文本分类 关键词提取 textRank算法 互信息相似度
下载PDF
A Hybrid Algorithm for Stemming of Nepali Text
4
作者 Chiranjibi Sitaula 《Intelligent Information Management》 2013年第4期136-139,共4页
In this paper, a new context free stemmer is proposed which consists of the combination of traditional rule based system with string similarity approach. This algorithm can be called as hybrid algorithm. It is languag... In this paper, a new context free stemmer is proposed which consists of the combination of traditional rule based system with string similarity approach. This algorithm can be called as hybrid algorithm. It is language dependent algorithm. Context free stemmer means that stemmer which stems the word that is not based on the context i.e., for every context such rule is applied. After stripping the words using traditional context free rule based approach, it may over stem or under stem the inflected words which are overcome by applying string similarity function of dynamic programming. For measuring the string similarity function, edit distance is used. The stripped inflected word is compared with the words stored in a text database available. That word having minimum distance is taken as the substitution of the stripped inflected word which leads to the stem of it. The concept of traditional rule based system and corpus based approach is heavily used in this approach. This algorithm is tested for Nepali Language which is based on Devanagari Script. The approach has given better result in comparison to traditional rule based system particularly for Nepali Language only. The total accuracy of this hybrid algorithm is 70.10% whereas the total accuracy of traditional rule based system is 68.43%. 展开更多
关键词 STRING similarity Information RETRIEVAL text Mining Natural language Processing Dynamic PROGRAMMING
下载PDF
利用BERT和覆盖率机制改进的HiNT文本检索模型
5
作者 邸剑 刘骏华 曹锦纲 《智能系统学报》 CSCD 北大核心 2024年第3期719-727,共9页
为有效提升文本语义检索的准确度,本文针对当前文本检索模型衡量查询和文档的相关性时不能很好地解决文本歧义和一词多义等问题,提出一种基于改进的分层神经匹配模型(hierarchical neural matching model,HiNT)。该模型先对文档的各个... 为有效提升文本语义检索的准确度,本文针对当前文本检索模型衡量查询和文档的相关性时不能很好地解决文本歧义和一词多义等问题,提出一种基于改进的分层神经匹配模型(hierarchical neural matching model,HiNT)。该模型先对文档的各个段提取关键主题词,然后用基于变换器的双向编码器(bidirectional encoder representations from transformers,BERT)模型将其编码为多个稠密的语义向量,再利用引入覆盖率机制的局部匹配层进行处理,使模型可以根据文档的局部段级别粒度和全局文档级别粒度进行相关性计算,提高检索的准确率。本文提出的模型在MS MARCO和webtext2019zh数据集上与多个检索模型进行对比,取得了最优结果,验证了本文提出模型的有效性。 展开更多
关键词 基于变换器的双向编码器 分层神经匹配模型 覆盖率机制 文本检索 语义表示 特征提取 自然语言处理 相似度 多粒度
下载PDF
深度学习中文本相似度计算研究综述
6
作者 徐传丽 周世杰 吴春江 《计算机应用与软件》 北大核心 2024年第11期1-14,共14页
文本相似度计算是自然语言处理的重要任务之一,通过总结分析学术界提出的经典方法和最新进展,对深度学习中文本相似度计算的文本表示和相似度计算两个模块进行分类整理和全面综述。社交网络的发展衍生出了短文本相似度计算这一重要子任... 文本相似度计算是自然语言处理的重要任务之一,通过总结分析学术界提出的经典方法和最新进展,对深度学习中文本相似度计算的文本表示和相似度计算两个模块进行分类整理和全面综述。社交网络的发展衍生出了短文本相似度计算这一重要子任务,因此针对每一模块,梳理文本相似度计算相关技术与理论基础,总结其在短文本中的具体应用及改进;整理文本相似度计算领域的常用数据集及评价指标;讨论文本相似度计算未来可能的发展方向。 展开更多
关键词 文本表示 文本相似度 短文本 自然语言处理 神经网络
下载PDF
基于分层深度语义的科研项目文本相似度度量方法 被引量:1
7
作者 杨政 方正云 +1 位作者 李天骄 李丽敏 《计算机与数字工程》 2024年第3期795-801,851,共8页
科研项目查重自动化是科研项目管理中的重要问题,文本相似度度量是查重的关键环节。目前的科研项目文本相似度度量方法主要基于字符串比较或者TF-IDF方法,这些方法忽略了文本在语义上的相似性。论文针对结构化的科研项目文本,基于预训... 科研项目查重自动化是科研项目管理中的重要问题,文本相似度度量是查重的关键环节。目前的科研项目文本相似度度量方法主要基于字符串比较或者TF-IDF方法,这些方法忽略了文本在语义上的相似性。论文针对结构化的科研项目文本,基于预训练模型RoBERTa-WWM提取语句的语义特征,提出Whitening的标准化方法,并建立项目文本的分层深度语义相似度度量方法。我们提出的项目文本分层语义相似度包含三层:语句之间的相似度,章节之间的相似度,以及项目文本之间的相似度。论文在蚂蚁金融语义相似度AFQMC数据集和电力行业科研项目文本上进行了对比实验,验证了该基于分层深度语义的相似度度量方法明显优于基于字符串距离和TF-IDF的相似度度量方法。 展开更多
关键词 文本相似度 自然语言处理 科研项目查重
下载PDF
语义文本相似度计算方法研究综述
8
作者 李莹 伍胜 +2 位作者 徐聪 尹刚 张锦 《软件导刊》 2024年第11期1-11,共11页
语义文本相似度计算是自然语言处理领域一个关键任务,旨在衡量两个文本之间的语义相似程度。对以往经典和当前主流的语义文本相似度计算方法进行归纳和总结,将这些方法划分为传统的方法和基于深度学习的方法两大类。传统的方法又划分为... 语义文本相似度计算是自然语言处理领域一个关键任务,旨在衡量两个文本之间的语义相似程度。对以往经典和当前主流的语义文本相似度计算方法进行归纳和总结,将这些方法划分为传统的方法和基于深度学习的方法两大类。传统的方法又划分为基于字面匹配、基于统计和基于规则的方法。基于深度学习的方法又划分为基于词嵌入、基于句向量和基于预训练模型的方法。在进一步细分每个类别的基础上,详细介绍了各子类的典型方法,并对各种方法的基本思想、优点和局限性进行了深入分析和总结。最后,对语义文本相似度计算方法可能的发展方向进行了展望。 展开更多
关键词 文本相似度 语义相似度 自然语言处理 深度学习 预训练模型
下载PDF
一种结合词项语义信息和TF-IDF方法的文本相似度量方法 被引量:223
9
作者 黄承慧 印鉴 侯昉 《计算机学报》 EI CSCD 北大核心 2011年第5期856-864,共9页
传统的文本相似度量方法大多采用TF-IDF方法把文本建模为词频向量,利用余弦相似度量等方法计算文本之间的相似度.这些方法忽略了文本中词项的语义信息.改进的基于语义的文本相似度量方法在传统词频向量中扩充了语义相似的词项,进一步增... 传统的文本相似度量方法大多采用TF-IDF方法把文本建模为词频向量,利用余弦相似度量等方法计算文本之间的相似度.这些方法忽略了文本中词项的语义信息.改进的基于语义的文本相似度量方法在传统词频向量中扩充了语义相似的词项,进一步增加了文本表示向量的维度,但不能很好地反映两篇文本之间的相似程度.文中在TF-IDF模型基础上分析文本中重要词汇的语义信息,提出了一种新的文本相似度量方法.该方法首先应用自然语言处理技术对文本进行预处理,然后利用TF-IDF方法寻找文本中具有较高TF-IDF值的重要词项.借助外部词典分析词项之间的语义相似度,结合该文提出的词项相似度加权树以及文本语义相似度定义计算两篇文本之间的相似度.最后利用文本相似度在基准文本数据集合上进行聚类实验.实验结果表明文中提出的方法在基于F-度量值标准上优于TF-IDF以及另一种基于词项语义相似性的方法. 展开更多
关键词 文本聚类 词项语义相似度 文本相似度 自然语言处理
下载PDF
基于WordNet的中泰文跨语言文本相似度计算 被引量:12
10
作者 石杰 周兰江 +1 位作者 线岩团 余正涛 《中文信息学报》 CSCD 北大核心 2016年第4期65-70,共6页
文本相似度在信息检索、文本挖掘、抄袭检测等领域有着广泛的应用。目前,大多数研究都只是针对同一种语言的文本相似度计算,关于跨语言文本相似度计算的研究则很少,不同语言之间的差异使得跨语言文本相似度计算很困难,针对这种情况,该... 文本相似度在信息检索、文本挖掘、抄袭检测等领域有着广泛的应用。目前,大多数研究都只是针对同一种语言的文本相似度计算,关于跨语言文本相似度计算的研究则很少,不同语言之间的差异使得跨语言文本相似度计算很困难,针对这种情况,该文提出一种基于WordNet的中泰文跨语言文本相似度的计算方法。首先对中泰文本进行预处理和特征选择,然后利用语义词典WordNet将中泰文本转换成中间层语言,最后在中间层上计算中泰文本的相似度。实验结果表明,该方法准确率达到82%。 展开更多
关键词 WORDNET 中间层语言 跨语言文本相似度
下载PDF
基于混合余弦相似度的中文文本层次关系挖掘 被引量:20
11
作者 董洋溢 李伟华 于会 《计算机应用研究》 CSCD 北大核心 2017年第5期1406-1409,共4页
层次关系是中文文本概念间存在的最为重要的关系之一。对层次关系的正确判定是进行领域本体自动构建、文本数据挖掘等信息处理的基础研究内容。先将概念间可能存在的候选层次关系罗列出来,构建词性序列语义余弦相似度和关系词语余弦相... 层次关系是中文文本概念间存在的最为重要的关系之一。对层次关系的正确判定是进行领域本体自动构建、文本数据挖掘等信息处理的基础研究内容。先将概念间可能存在的候选层次关系罗列出来,构建词性序列语义余弦相似度和关系词语余弦相似度混合的核函数分类器,将概念间层次关系的挖掘问题转换为分类问题;再通过对文本数据进行模板标注来训练分类器;最后输入预处理后的中文文本,使用核函数分类器对候选层次关系进行判定。以空军武器装备领域的中文文本为测试数据,通过实验表明,该方法简单可靠,具有较好的正确率和召回率。 展开更多
关键词 自然语言处理 层次关系 文本挖掘 混合余弦相似度 本体构建
下载PDF
基于语言网络和语义信息的文本相似度计算 被引量:11
12
作者 詹志建 杨小平 《计算机工程与应用》 CSCD 2014年第5期33-38,共6页
通过分析已有的基于统计和基于语义分析的文本相似性度量方法的不足,提出了一种新的基于语言网络和词项语义信息的文本相似度计算方法。对文本建立语言网络,计算网络节点综合特征值,选取TOP比例特征词表征文本,有效降低文本表示维度。计... 通过分析已有的基于统计和基于语义分析的文本相似性度量方法的不足,提出了一种新的基于语言网络和词项语义信息的文本相似度计算方法。对文本建立语言网络,计算网络节点综合特征值,选取TOP比例特征词表征文本,有效降低文本表示维度。计算TOP比例特征词间的相似度,以及这些词的综合特征值所占百分比以计算文本之间的相似度。利用提出的相似度计算方法在数据集上进行聚类实验,实验结果表明,提出的文本相似度计算方法,在F-度量值标准上优于传统的TF-IDF方法以及另一种基于词项语义信息的相似度量方法。 展开更多
关键词 语言网络 文本聚类 文本相似度 词语相似度
下载PDF
基于LDA的中文文本相似度计算 被引量:24
13
作者 孙昌年 郑诚 夏青松 《计算机技术与发展》 2013年第1期217-220,共4页
传统基于TF-IDF的向量空间模型的文本相似度计算存在高维、数据稀疏、缺乏语义和维度未归一等问题,基于其上的语义扩展的TF-IDF向量空间模型中部分解决了语义问题,但是其基于词典的词语相似度计算限制了其应用范围。提出了一种基于潜在... 传统基于TF-IDF的向量空间模型的文本相似度计算存在高维、数据稀疏、缺乏语义和维度未归一等问题,基于其上的语义扩展的TF-IDF向量空间模型中部分解决了语义问题,但是其基于词典的词语相似度计算限制了其应用范围。提出了一种基于潜在狄利克雷分配(Latent Dirichlet Allocation,LDA)的文本相似度计算方法,LDA模型可以在没有词典的情况下解决上述所有问题,通过吉比斯抽样方法将文本建模到主题空间,然后使用JS(Jensen-Shannon)距离来计算文本相似度。通过聚类实验表明该方法取得了较高的F值。 展开更多
关键词 向量空间模型 文本相似度 自然语言处理 潜在狄里克雷分配 主题模型
下载PDF
面向游戏客服场景的自动问答系统研究与实现 被引量:11
14
作者 王丽月 叶东毅 《计算机工程与应用》 CSCD 北大核心 2016年第17期152-159,共8页
针对游戏客服场景中玩家领域化、口语化的提问方式,应用深度学习工具word2vec建立带有语义的词的向量表示,设计了一种利用词向量距离,结合同义词替换、权重、句子长度、词序等因素的句子相似度计算模型。在该模型基础上,通过预分类、重... 针对游戏客服场景中玩家领域化、口语化的提问方式,应用深度学习工具word2vec建立带有语义的词的向量表示,设计了一种利用词向量距离,结合同义词替换、权重、句子长度、词序等因素的句子相似度计算模型。在该模型基础上,通过预分类、重定义分类规则,对KNN分类算法的大类占优、全局匹配计算代价高等问题进行改进,实现了一种基于文本分类的面向游戏客服场景的自动问答系统。实验结果表明,该系统具有较高的问题分类准确率和分类效率。 展开更多
关键词 word2vec 句子相似度 文本分类 自动问答 自然语言处理
下载PDF
基于语言无关性语义Kernel学习的短文本分类 被引量:1
15
作者 易欣 郭武士 《计算机应用与软件》 CSCD 2015年第7期314-318,共5页
针对传统的短文本分类方法大量使用语法标签和词库导致产生语言依赖的问题,提出一种基于语言无关性语义核学习的短文本分类方法。首先,利用短文本的语义信息从文档中提取模式;然后,以三个标注层(词、文档和类别)标注提取出的每个模式;最... 针对传统的短文本分类方法大量使用语法标签和词库导致产生语言依赖的问题,提出一种基于语言无关性语义核学习的短文本分类方法。首先,利用短文本的语义信息从文档中提取模式;然后,以三个标注层(词、文档和类别)标注提取出的每个模式;最后,根据三个标注层次计算文档之间的相似度,并根据相似度完成分类。在英语和汉语数据集上的实验验证了该方法的有效性。实验结果表明,相比其他几种核方法,该方法取得了更好的分类性能。 展开更多
关键词 短文本分类 语义核学习 相似性度量 语言无关性 标注层 模式语义标注
下载PDF
基于NLP的不规范航行通告识别方法 被引量:3
16
作者 项恒 张驰 李猛 《中国民航大学学报》 CAS 2022年第2期14-18,共5页
针对航行通告中出现的Q代码和E项正文部分不规范的问题,通过自然语言处理中的文本相似度计算方法可识别出不规范航行通告。首先,基于统计机器翻译方法将航行通告E项正文部分翻译成中文并建立数据库,将Q代码翻译成中文;然后,利用Word2ve... 针对航行通告中出现的Q代码和E项正文部分不规范的问题,通过自然语言处理中的文本相似度计算方法可识别出不规范航行通告。首先,基于统计机器翻译方法将航行通告E项正文部分翻译成中文并建立数据库,将Q代码翻译成中文;然后,利用Word2vec模型计算两者之间的相似度,并制定不规范航行通告识别标准。通过对收集的500条航行通告中的Q代码和E项正文进行相似度计算,设定0.7作为不规范航行通告的识别标准,经数据测试可得不规范航行通告识别准确率为96.2%,验证了基于自然语言处理的不规范航行通告识别方法的可行性。 展开更多
关键词 自然语言处理 航行通告 机器翻译 Word2vec 文本相似度计算
下载PDF
基于知识图谱与依存句法分析的井控领域文本相似度计算 被引量:2
17
作者 尚福华 张洪铭 解红涛 《计算机与数字工程》 2023年第8期1732-1737,共6页
针对油田井控领域文本相似度计算时,由于语义信息不足导致相似度计算结果准确度不高的问题。论文提出一种基于知识图谱和依存句法分析的文本相似度计算方法。在该方法中,首先利用依存句法技术获取文本核心关系词对,然后基于井控知识图... 针对油田井控领域文本相似度计算时,由于语义信息不足导致相似度计算结果准确度不高的问题。论文提出一种基于知识图谱和依存句法分析的文本相似度计算方法。在该方法中,首先利用依存句法技术获取文本核心关系词对,然后基于井控知识图谱和同义词词林对计算不同的关系词对间的相似度,再结合基于词向量的句子相似度计算,分配权重,最后获取井控文本的综合相似度。实验结果表明:与现有方法相比,该方法融合了文本在词和句子级别上的信息,更好地对文本语义进行识别,较大地提高了油田井控领域文本之间相似度计算结果准确率。 展开更多
关键词 文本相似度 自然语言处理 知识图谱 依存句法分析
下载PDF
基于特征相似度的跨语言事件映射 被引量:3
18
作者 唐亮 席耀一 +1 位作者 赵晓峰 易绵竹 《计算机应用》 CSCD 北大核心 2016年第A02期247-250,共4页
跨语言事件映射主要研究的是不同语言的事件之间的相似性。针对传统方法仅从文本内容来获取特征词导致准确率不高的问题,提出从文本标题、文本内容以及新词发现三方面综合分析,通过计算候选词的综合权重来得到最终的特征词。实验证明了... 跨语言事件映射主要研究的是不同语言的事件之间的相似性。针对传统方法仅从文本内容来获取特征词导致准确率不高的问题,提出从文本标题、文本内容以及新词发现三方面综合分析,通过计算候选词的综合权重来得到最终的特征词。实验证明了与传统方法相比,该方法准确性大大提高。 展开更多
关键词 事件相似度 跨语言对齐 特征向量提取 文本聚类 概念扩展
下载PDF
基于自然语言处理的文本泄密自动检测技术 被引量:2
19
作者 王利鑫 耿焕同 +1 位作者 孙凯 张茜 《计算机工程与设计》 CSCD 北大核心 2011年第8期2600-2603,共4页
因文本信息泄密导致的危害越来越严重,但传统的泄密检测还停留在人工查看,效率低且易造成二次泄密。针对以上问题,采用文本相似度自动比较和数据加密方法,提出了一种基于自然语言处理的文本泄密自动检测技术。在实际应用中,因检测粒度... 因文本信息泄密导致的危害越来越严重,但传统的泄密检测还停留在人工查看,效率低且易造成二次泄密。针对以上问题,采用文本相似度自动比较和数据加密方法,提出了一种基于自然语言处理的文本泄密自动检测技术。在实际应用中,因检测粒度过粗可能导致漏检,采用基于自然段落和语句的相似度检测方法,方便疑似段落和语句的自动定位,最后设计并实现了一个文本泄密检测系统。实验结果表明,该技术能很好地应用于涉密文本泄密的检测,具有保密、人工干预少、效率高、疑似段落定位等特点。 展开更多
关键词 自然语言处理 文本泄密 加密 相似度检测 信息抽取
下载PDF
融合耦合距离区分度和强类别特征的短文本相似度计算方法 被引量:13
20
作者 马慧芳 刘文 +1 位作者 李志欣 蔺想红 《电子学报》 EI CAS CSCD 北大核心 2019年第6期1331-1336,共6页
短文本相似度计算在社会网络、文本挖掘和自然语言处理等领域中起着至关重要的作用.针对短文本内容简短、特征稀疏等特点,以及传统的短文本相似度计算忽略类别信息等问题,提出一种融合耦合距离区分度和强类别特征的短文本相似度计算方法... 短文本相似度计算在社会网络、文本挖掘和自然语言处理等领域中起着至关重要的作用.针对短文本内容简短、特征稀疏等特点,以及传统的短文本相似度计算忽略类别信息等问题,提出一种融合耦合距离区分度和强类别特征的短文本相似度计算方法.一方面,在整个短文本语料库中利用两个共现词之间的距离计算词项共现距离相关度,并以此来对词项加权从而捕获词项间内联和外联关系,得到短文本的耦合距离区分度相似度;另一方面,基于少量带类别标签的监督数据提取每类中强类别区分能力的特征项作为强类别特征集合,并利用词项的上下文来对强类别特征语义消歧,然后基于文本间包含相同类别的强类别特征数量来衡量文本间的相似度.最后,本文结合耦合距离区分度和强类别特征来衡量短文本的相似度.经实验证明本文提出的方法能够提高短文本相似度计算的准确率. 展开更多
关键词 文本挖掘 自然语言处理 文本聚类 社会网络 耦合关系 特征提取 语义消歧 相似度计算
下载PDF
上一页 1 2 3 下一页 到第
使用帮助 返回顶部