期刊文献+
共找到33篇文章
< 1 2 >
每页显示 20 50 100
基于Word2Vec及TextRank算法的长文档摘要自动生成研究 被引量:1
1
作者 朱玉婷 刘乐 +2 位作者 辛晓乐 陈珑慧 康亮河 《现代信息科技》 2023年第4期36-38,42,共4页
近年来,如何从大量信息中提取关键信息已成为一个急需解决的问题。针对中文专利长文档,提出一种结合Word2Vec和TextRank的专利生成算法。首先利用Python Jieba技术对中文专利文档进行分词,利用停用词典去除无意义的词;其次利用Word2Vec... 近年来,如何从大量信息中提取关键信息已成为一个急需解决的问题。针对中文专利长文档,提出一种结合Word2Vec和TextRank的专利生成算法。首先利用Python Jieba技术对中文专利文档进行分词,利用停用词典去除无意义的词;其次利用Word2Vec算法进行特征提取,并利用WordCloud对提取的关键词进行可视化展示;最后利用TextRank算法计算语句间的相似度,生成摘要候选句,根据候选句的权重生成该专利文档的摘要信息。实验表明,采用Word2Vec和TextRank生成的专利摘要质量高,概括性也强。 展开更多
关键词 Jieba分词 关键词提取 word2vec算法 TextRank算法
下载PDF
融合反讽语言特征的反讽语句识别模型
2
作者 韦斯羽 朱广丽 +1 位作者 谈光璞 张顺香 《智能系统学报》 CSCD 北大核心 2024年第3期689-696,共8页
反讽是采用内隐的形式来表达情感的一种方法,反讽语句在文字和所想表达的情感上存在着不同,这使得对反讽语句进行情感分类变得更加困难。针对这一现象,提出一种融合反讽语言特征的反讽语句识别模型,通过加入反讽语言特征来提高反讽语句... 反讽是采用内隐的形式来表达情感的一种方法,反讽语句在文字和所想表达的情感上存在着不同,这使得对反讽语句进行情感分类变得更加困难。针对这一现象,提出一种融合反讽语言特征的反讽语句识别模型,通过加入反讽语言特征来提高反讽语句的识别准确率。首先,采用卡方检验算法对反讽语言进行分析并获取语言特征;然后,利用Word2Vec对语言特征进行训练获取语言特征的特征表示,同时使用注意力机制与Bi-GRU(双向门控循环神经单元)模型获取句子的特征表示;最后,将语言特征的特征表示与句子的特征表示进行融合并作为情感分类层的输入,对反讽语句进行识别。与CNN-AT、CNN-Adv、EPSN等3种模型进行对比,实验结果表明,该模型可以有效提高对于反讽语句的识别准确率。 展开更多
关键词 反讽语句识别 语言特征 卡方检验算法 word2vec 双向门控循环神经单元 注意力机制 深度学习 智能信息处理
下载PDF
一种基于Word2Vec的训练效果优化策略研究 被引量:20
3
作者 王飞 谭新 《计算机应用与软件》 北大核心 2018年第1期97-102,174,共7页
Word2Vec是谷歌在2013年开源的一款语言处理工具包,它能够在基于神经网络训练语言模型的同时将词表示成实数值向量,并根据向量空间余弦距离来寻找语义相似度高的词,训练效率较高。在应用Word2 Vec训练词向量的过程中,对其中可能影响Word... Word2Vec是谷歌在2013年开源的一款语言处理工具包,它能够在基于神经网络训练语言模型的同时将词表示成实数值向量,并根据向量空间余弦距离来寻找语义相似度高的词,训练效率较高。在应用Word2 Vec训练词向量的过程中,对其中可能影响Word2 Vec词向量训练的中文分词和算法选择环节进行试验,配合深入解析部分核心源代码,发现能使训练效果最优的策略,使得Word2Vec的性能获得一定的提升,为下一步的应用提供了更好的词向量。 展开更多
关键词 word2vec 词向量 语义相似度 算法
下载PDF
基于Word2Vec词嵌入和高维生物基因选择遗传算法的文本特征选择方法 被引量:6
4
作者 张阳 王小宁 《计算机应用》 CSCD 北大核心 2021年第11期3151-3155,共5页
文本特征是自然语言处理中的关键部分。针对目前文本特征的高维性和稀疏性问题,提出了一种基于Word2Vec词嵌入和高维生物基因选择遗传算法(GARBO)的文本特征选择方法,从而便于后续文本分类任务。首先,优化数据输入形式,使用Word2Vec词... 文本特征是自然语言处理中的关键部分。针对目前文本特征的高维性和稀疏性问题,提出了一种基于Word2Vec词嵌入和高维生物基因选择遗传算法(GARBO)的文本特征选择方法,从而便于后续文本分类任务。首先,优化数据输入形式,使用Word2Vec词嵌入方法将文本转变成类似基因表示的词向量;然后,将高维词向量模拟基因表达方式进行迭代进化;最后,使用随机森林分类器对特征选择后的文本进行分类。使用中文评论数据集对所提出的方法进行实验,实验结果表明了优化后的GARBO特征选择方法在文本特征选择上的有效性,该方法成功地将300维特征降低为50维更有价值的特征,分类准确率达到88%,与其他过滤式文本特征选择方法相比,能够有效地降低文本特征维度,提高文本分类效果。 展开更多
关键词 文本分类 遗传算法 特征降维 word2vec 文本特征
下载PDF
基于Word2Vec和LDA主题模型的Web服务聚类方法 被引量:11
5
作者 肖巧翔 曹步清 +2 位作者 张祥平 刘建勋 李晏新闻 《中南大学学报(自然科学版)》 EI CAS CSCD 北大核心 2018年第12期2979-2985,共7页
为高效地发现满足用户需求的Web服务,针对Web服务的描述文本较短、缺乏足够有效信息的问题,提出一种基于Word2Vec和LDA主题模型的Web服务聚类方法。该方法首先将Wikipedia语料库作为扩充源,使用word2vec对Web服务描述文档内容进行扩充,... 为高效地发现满足用户需求的Web服务,针对Web服务的描述文本较短、缺乏足够有效信息的问题,提出一种基于Word2Vec和LDA主题模型的Web服务聚类方法。该方法首先将Wikipedia语料库作为扩充源,使用word2vec对Web服务描述文档内容进行扩充,再将扩充后的描述文档利用主题模型进行特征建模,将短文本主题建模转化为长文本主题建模,更准确地实现服务内容主题表达,最后根据文档的主题分布矩阵寻找相似的服务并完成聚类,使用从ProgrammableWeb收集的真实数据进行实验。研究结果表明:本文方法与TFIDF-K,LDA,WT-LDA和LDA-K方法相比,F分别提高419.74%,20.11%,15.60%和27.80%,利用扩充后的Web服务的描述文档进行聚类的方法能够有效提高Web服务聚类的效果。 展开更多
关键词 WEB服务 word2vec LDA主题模型 K-MEANS算法 Web服务聚类
下载PDF
一种基于Word2vec的敏感内容识别技术 被引量:8
6
作者 金贵涛 石元兵 +2 位作者 魏忠 王雍 刘峻豪 《通信技术》 2019年第11期2750-2756,共7页
随着数据量的爆炸式增长,企业面临数据安全防护的难题,尤其是文本数据的安全防护。传统的精确匹配识别文本中敏感词的方法,因存在相似词而导致遗漏,造成数据泄露。于是,提出了一种基于Word2vec结合人工设定的不同等级敏感词识别技术,从... 随着数据量的爆炸式增长,企业面临数据安全防护的难题,尤其是文本数据的安全防护。传统的精确匹配识别文本中敏感词的方法,因存在相似词而导致遗漏,造成数据泄露。于是,提出了一种基于Word2vec结合人工设定的不同等级敏感词识别技术,从语义层面识别文本中的敏感词,并根据提出的敏感度模型计算文本敏感度,判断文本敏感等级。实验结果表明,与传统方法相比,提出的技术方法能够更准确、全面地识别文本敏感内容,并确定文本敏感等级。 展开更多
关键词 敏感词 TextRank算法 word2vec 文本敏感等级
下载PDF
基于会话记录的Word2Vec音乐推荐算法研究 被引量:3
7
作者 周航帆 周莲英 《通信技术》 2019年第4期850-857,共8页
在很多推荐场景下,用户在短时间内做出的一系列会话行为,更能反映一个人当时的心理状态与需求,为此这里提出基于会话记录的Word2Vec音乐推荐算法。Word2Vec是目前最常用的文本词向量神经网络模型,这里利用Word2Vec模型学习用户音乐会话... 在很多推荐场景下,用户在短时间内做出的一系列会话行为,更能反映一个人当时的心理状态与需求,为此这里提出基于会话记录的Word2Vec音乐推荐算法。Word2Vec是目前最常用的文本词向量神经网络模型,这里利用Word2Vec模型学习用户音乐会话记录中相似场景的共同特点,在无明确需求场景下向用户进行个性化音乐推荐。主要工作包括会话记录推荐问题的形式化定义、基于会话记录情境下的音乐词向量模型搭建和训练、音乐词向量学习模型通过理论推导进一步验证音乐词向量提取合理性,在Last.fm真实数据集下进行实验,实验的主要设计为合理选择窗口值以及维度,获取低维、稠密歌曲词向量,利用t-分布邻域嵌入算法实现降维可视化,可以直观发现相似‘语义’歌曲在二维空间紧密相连,最后,提出的方案相较于其他通用推荐算法,推荐效用性取得显著效果。 展开更多
关键词 推荐算法 词向量 会话记录
下载PDF
基于Word2Vec和TextRank的时政类新闻关键词抽取方法研究 被引量:13
8
作者 刘奇飞 沈炜域 《情报探索》 2018年第6期22-27,共6页
[目的/意义]旨在为时政类新闻关键词抽取提供参考。[方法/过程]基于融合Word2Vec和TextRank算法,在研究时政类新闻文本特征基础上,利用政治重点词库修订文本词语的初始权重,结合上下文关系确定词语之间的连接关系,并基于Word2Vec模型构... [目的/意义]旨在为时政类新闻关键词抽取提供参考。[方法/过程]基于融合Word2Vec和TextRank算法,在研究时政类新闻文本特征基础上,利用政治重点词库修订文本词语的初始权重,结合上下文关系确定词语之间的连接关系,并基于Word2Vec模型构建概率转移矩阵,提出改进的Word2Vec和TextRank算法。[结果/结论 ]运用改进的Word2Vec和TextRank算法对时政类新闻关键词进行抽取,其准确率、召回率和F值均优于传统TextRank算法及普通的融合Word2Vec和TextRank算法,抽取效果更好。 展开更多
关键词 时政新闻 关键词抽取 TextRank算法 word2vec模型 词图
下载PDF
基于多特征融合的TextRank新闻自动摘要模型
9
作者 徐飞 彭佳佳 +1 位作者 刘军 杨博 《计算机系统应用》 2023年第2期242-249,共8页
随着互联网的发展,如何快速地从海量新闻中获取核心信息,减少浏览负担,是信息部门目前急需解决的问题.现有的TextRank及其改进算法在新闻摘要抽取任务中,考虑文本特征不全面.在摘要句选择时,只考虑到摘要的冗余度,忽略了摘要的多样性及... 随着互联网的发展,如何快速地从海量新闻中获取核心信息,减少浏览负担,是信息部门目前急需解决的问题.现有的TextRank及其改进算法在新闻摘要抽取任务中,考虑文本特征不全面.在摘要句选择时,只考虑到摘要的冗余度,忽略了摘要的多样性及可读性.针对上述问题,本文提出了融合多特征的文本自动摘要方法MF-Text Rank(multi-feature TextRank).根据新闻的结构、句子和单词总结了更全面的文本特征信息用于改进TextRank算法的权重转移矩阵,使句子权重计算更准确.采用MMR算法更新句子权重,通过集束搜索得到候选摘要集,在MMR得分的基础上选择内聚性最高的候选摘要集作为最终的摘要输出.实验结果表明,MF-TextRank算法在摘要抽取任务中摘要Rouge得分优于现有改进的TexRank算法,有效提高了摘要抽取的准确性. 展开更多
关键词 TextRank MMR word2vec 新闻摘要 多特征融合 自动摘要
下载PDF
一种改进的TextRank多文档文摘自动抽取模型
10
作者 王楠 曾曼玲 《软件导刊》 2023年第5期1-6,共6页
多文档自动文摘通过自然语言处理技术从多篇同主题的文档中提取概述性信息,可有效缓解信息负载问题,有助于用户迅速准确获取原文核心内容。针对中文文本特点,构建一种基于TextRank算法改进的多文档文摘自动抽取模型。首先通过预训练Word... 多文档自动文摘通过自然语言处理技术从多篇同主题的文档中提取概述性信息,可有效缓解信息负载问题,有助于用户迅速准确获取原文核心内容。针对中文文本特点,构建一种基于TextRank算法改进的多文档文摘自动抽取模型。首先通过预训练Word2Vec词向量模型与SIF方法融合,在中文维基百科语料库上进行预训练,获取文档中所有句子的句向量;然后借助余弦相似度构造TextRank句子间的边关系;最后使用MMR算法对文摘句进行冗余处理,得到全面又多样的文摘。通过ROUGE-N评价指标对模型进行性能评价,实验结果表明,所提模型的ROUGE-1、ROUGE-2、ROUGE-L指标值分别为0.549、0.322、0.357,均优于传统TextRank方法和Word2vec(实验样本语料)+TextRank+MMR模型,文摘质量更高。 展开更多
关键词 多文档文摘 抽取式文摘 TextRank算法 word2vec SIF
下载PDF
一种基于共现关键词的TextRank文摘自动生成算法
11
作者 阎红灿 李铂初 谷建涛 《计算机工程与科学》 CSCD 北大核心 2023年第11期2060-2069,共10页
传统TextRank算法在生成摘要时只考虑句子间的相似度,忽略了文章本身间的相似度,且生成的摘要往往包含重复的信息表达。为此,提出一种基于共现关键词的TextRank算法,用word2vec模型将文章表示为句向量,考虑到文章的类别,将该类文章的共... 传统TextRank算法在生成摘要时只考虑句子间的相似度,忽略了文章本身间的相似度,且生成的摘要往往包含重复的信息表达。为此,提出一种基于共现关键词的TextRank算法,用word2vec模型将文章表示为句向量,考虑到文章的类别,将该类文章的共现关键词作为参数参与句子权值的迭代计算,然后,通过句子长度、关键词数量等信息对迭代得到的句子权重加以修正。实验结果表明,所提算法能够提高生成摘要的全面性和准确性。同时,所提算法使用MMR对抽取得到的摘要进行去除冗余处理,改善了摘要的重复表达情况。 展开更多
关键词 自动摘要生成 TextRank 共现关键词 MMR算法 word2vec模型
下载PDF
基于语音控制和推荐算法的适老化购物APP设计与实现
12
作者 魏思阳 向拓 +2 位作者 陈冠中 贺江勃 张先宇 《现代信息科技》 2023年第15期21-24,28,共5页
随着移动互联网技术的快速发展和全面普及,大众的购物方式逐渐由实体店购物向网络购物偏移。同时,智能手机及移动端软件的开发逐渐向年轻人的审美靠拢,无意间带来了“数字鸿沟”——老年群体在使用智能设备中的一系列阻碍,包括界面不适... 随着移动互联网技术的快速发展和全面普及,大众的购物方式逐渐由实体店购物向网络购物偏移。同时,智能手机及移动端软件的开发逐渐向年轻人的审美靠拢,无意间带来了“数字鸿沟”——老年群体在使用智能设备中的一系列阻碍,包括界面不适应、图标不理解、操作太困难,等等。一语购物APP结合Word2Vec和推荐算法等相关技术,并依据相关适老化标准及文献,设计出一款符合老年群体生理和心理的UI界面,大大降低了操作门槛,为老年群体的网络购物带来极大的便利。 展开更多
关键词 word2vec 语音控制 推荐算法 适老化设计
下载PDF
融合词向量的多特征句子相似度计算方法研究 被引量:14
13
作者 李峰 侯加英 +1 位作者 曾荣仁 凌晨 《计算机科学与探索》 CSCD 北大核心 2017年第4期608-618,共11页
在归纳常见的句子相似度计算方法后,基于《人民日报》3.4万余份文本训练了用于语义相似度计算的词向量模型,并设计了一种融合词向量的多特征句子相似度计算方法。该方法在词方面,考虑了句子中重叠的词数和词的连续性,并运用词向量模型... 在归纳常见的句子相似度计算方法后,基于《人民日报》3.4万余份文本训练了用于语义相似度计算的词向量模型,并设计了一种融合词向量的多特征句子相似度计算方法。该方法在词方面,考虑了句子中重叠的词数和词的连续性,并运用词向量模型测量了非重叠词间的相似性;在结构方面,考虑了句子中重叠词的语序和两个句子的长度一致性。实验部分设计实现了4种句子相似度计算方法,并开发了相应的实验系统。结果表明:提出的算法能够取得相对较好的实验结果,对句子中词的语义特征和句子结构特征进行组合处理和优化,能够提升句子相似度计算的准确性。 展开更多
关键词 词向量 句子相似度 word2vec 算法设计
下载PDF
基于文本挖掘的铁路信号设备故障自动分类方法 被引量:8
14
作者 林海香 陆人杰 +1 位作者 卢冉 许丽 《云南大学学报(自然科学版)》 CAS CSCD 北大核心 2022年第2期281-289,共9页
铁路信号设备在运营维护过程中积累了大量以文本方式记录的维护数据,为了实现高效准确分类,提出将Word2vec、SMOTE算法与卷积神经网络(Convolutional Neural Networks,CNN)相结合的铁路信号设备故障文本自动分类方法.首先,对故障文本使... 铁路信号设备在运营维护过程中积累了大量以文本方式记录的维护数据,为了实现高效准确分类,提出将Word2vec、SMOTE算法与卷积神经网络(Convolutional Neural Networks,CNN)相结合的铁路信号设备故障文本自动分类方法.首先,对故障文本使用自然语言方法完成预处理,并采用Word2vec训练词向量;其次,通过SMOTE算法自动生成小类别文本向量数据,嵌入至CNN的输入层;再次,利用CNN的卷积层和池化层提取故障文本的局部上下文高层特征;最后,通过softmax分类器对故障文本自动分类.依据某铁路局所记录的信号设备故障文本数据进行实验分析并与其他方法对比,实验结果表明新方法可使各评价指标得到明显提升,其中分类准确率和召回率分别达到95.26%和94.32%,可以作为铁路信号设备故障自动分类的有效方法. 展开更多
关键词 铁路信号设备 word2vec SMOTE算法 卷积神经网络 故障文本数据 自动分类
下载PDF
基于AWCRF模型的微博情感倾向分类方法 被引量:2
15
作者 陈炳丰 郝志峰 +2 位作者 蔡瑞初 温雯 梁礼欣 《计算机工程》 CAS CSCD 北大核心 2017年第7期187-192,共6页
为有效解决中文微博情感数据分布不平衡的分类问题,提出一种融合Affinity Propogation(AP)算法、Word2vec技术和条件随机场(CRF)模型的分类方法。通过AP算法对微博数据进行聚类,将多数类样本按照相似性的度量划分为若干簇类,使类间距离... 为有效解决中文微博情感数据分布不平衡的分类问题,提出一种融合Affinity Propogation(AP)算法、Word2vec技术和条件随机场(CRF)模型的分类方法。通过AP算法对微博数据进行聚类,将多数类样本按照相似性的度量划分为若干簇类,使类间距离极大化、类内距离极小化。利用欠采样技术构建情感倾向分布平衡的训练集,采用Word2vec计算并求出语义相似度最高的文本来扩展微博句子以增加情感信息,使用CRF模型计算已经平衡并扩展后的训练集标签序列,在数据集情感倾向分布不平衡时也能准确地分类微博情感倾向。实验结果表明,与ACRF方法、CRF方法及SCRF方法相比,该方法在召回率和G均值评价标准上具有更好的效果。 展开更多
关键词 情感分析 情感分类 AFFINITY Propogation算法 欠采样技术 word2vec技术 条件随机场
下载PDF
问询函语调降低了年报乐观性披露吗?
16
作者 刘慧芬 陈贤湘 +1 位作者 林子琛 董慧 《湖南财政经济学院学报》 2021年第5期86-98,共13页
随着我国资本市场发展,问询已经成为两大证券交易所主要的监管手段,与问询力度为主流的研究相比,问询函语调研究成果相对较少,究其原因在于缺乏适用于问询研究的情感词典。基于此提出利用Word2vec模型和调整后的SO-WV算法,以2014至2019... 随着我国资本市场发展,问询已经成为两大证券交易所主要的监管手段,与问询力度为主流的研究相比,问询函语调研究成果相对较少,究其原因在于缺乏适用于问询研究的情感词典。基于此提出利用Word2vec模型和调整后的SO-WV算法,以2014至2019年上市公司问询函作为语料库,构建相关情感词典,并对问询函文本语调进行经济后果研究,结果发现问询函负面语调对上市公司下一年度报表乐观语气具有显著抑制效应,一定程度上说明,审核问询机制降低了管理层回函的语调管理空间,从而优化了信息披露环境。 展开更多
关键词 问询函 情感分析 情感词典 word2vec SO-WV算法
下载PDF
多特征因子融合的引文推荐算法 被引量:2
17
作者 陈志涛 李书琴 +1 位作者 刘斌 何进荣 《计算机工程与设计》 北大核心 2018年第7期1895-1903,共9页
针对传统引文推荐算法只考虑单一特征导致推荐结果过于专门化和推荐质量较低等问题,提出一种多特征因子融合的引文推荐算法。将整体影响力因子、局部活跃度因子、查询相关度因子及作者相关度因子通过多特征因子融合模型进行有效融合,其... 针对传统引文推荐算法只考虑单一特征导致推荐结果过于专门化和推荐质量较低等问题,提出一种多特征因子融合的引文推荐算法。将整体影响力因子、局部活跃度因子、查询相关度因子及作者相关度因子通过多特征因子融合模型进行有效融合,其中,查询相关度因子通过引入ID2vec改进重启随机游走算法实现。基于ANN数据集的实验结果表明,多特征融合的引文推荐算法相比GloPageRank、TopicSim、BM25模型在召回率上都有相应的提升,改进的重启随机游走算法相比原有算法在召回率上提升了8.13%,在NDCG上提升了29.7%。由实验结果分析可得,所提算法可有效提升引文推荐质量。 展开更多
关键词 引文推荐 词向量 PAGERANK算法 重启随机游走 表示学习
下载PDF
融合LSTM和LDA差异的新闻文本关键词抽取方法 被引量:3
18
作者 宁珊 严馨 +2 位作者 周枫 王红斌 张金鹏 《计算机工程与科学》 CSCD 北大核心 2020年第1期153-160,共8页
针对语义信息对TextRank的影响,同时考虑新闻标题信息高度浓缩以及关键词的覆盖性与差异性的特点,提出一种新的融合LSTM和LDA差异的关键词抽取方法。首先对新闻文本进行预处理,得到候选关键词;其次通过LDA主题模型得到候选关键词的主题... 针对语义信息对TextRank的影响,同时考虑新闻标题信息高度浓缩以及关键词的覆盖性与差异性的特点,提出一种新的融合LSTM和LDA差异的关键词抽取方法。首先对新闻文本进行预处理,得到候选关键词;其次通过LDA主题模型得到候选关键词的主题差异影响度;然后结合LSTM模型和word2vec模型计算候选关键词与标题的语义相关性影响度;最后将候选关键词节点按照主题差异影响度和语义相关性影响度进行非均匀转移,得到最终的候选关键词排序,抽取关键词。该方法融合了关键词的语义重要性、覆盖性以及差异性的不同属性。在搜狗全网新闻语料上的实验结果表明,该方法的抽取结果相比于传统方法在准确率和召回率上都有明显提升。 展开更多
关键词 抽取 新闻标题 TextRank算法 word2vec模型 LDA模型
下载PDF
基于改进TextRank的铁路文献关键词抽取算法 被引量:16
19
作者 赵占芳 刘鹏鹏 李雪山 《北京交通大学学报》 CAS CSCD 北大核心 2021年第2期80-86,共7页
实现铁路行业海量的铁路科技信息资源有效地组织管理并提供智能化、专业化的检索和服务,已经成为科研人员迫切期望解决的问题.关键词自动抽取技术是实现信息的智能检索和标引分类的核心技术,本文提出了一种改进TextRank的关键词抽取算... 实现铁路行业海量的铁路科技信息资源有效地组织管理并提供智能化、专业化的检索和服务,已经成为科研人员迫切期望解决的问题.关键词自动抽取技术是实现信息的智能检索和标引分类的核心技术,本文提出了一种改进TextRank的关键词抽取算法应用于铁路文献关键词的抽取,该算法融合多个特征因素改进词汇节点的初始权重设置,并利用Word2Vec训练的词向量表征改进词节点间的转移概率.实验结果表明:本文所提出的关键词抽取算法相对于经典的TextRank和TF-IDF算法在准确率,召回率以及F值上都有较大的提升.与TextRank相比,F值提升了13.9%. 展开更多
关键词 抽取 word2vec模型 TextRank算法
下载PDF
面向兵棋演习的问答系统问句分类模型研究 被引量:4
20
作者 孙泽健 司光亚 刘洋 《计算机与数字工程》 2019年第2期308-313,319,共7页
通过分析兵棋演习过程中的常见问题,设计了一个针对兵棋演习特殊情景的问句分类模型。问句分类模型基于统计方法,利用Word2vec工具生成词向量,利用TextRank算法结合IDF值来生成词权重,共同完成问句表征。并综合考虑算法复杂度以及问句... 通过分析兵棋演习过程中的常见问题,设计了一个针对兵棋演习特殊情景的问句分类模型。问句分类模型基于统计方法,利用Word2vec工具生成词向量,利用TextRank算法结合IDF值来生成词权重,共同完成问句表征。并综合考虑算法复杂度以及问句相似度计算的精确度,通过两个不同的问句相似度模型,以及改进的KNN算法来实现最终的问句分类。WMD(Word Mover's Distance)算法是在词向量基础上计算问句相似度较为精确的算法,但同时存在算法复杂度过高的缺点,论文通过改进的KNN算法将其与传统算法结合,来更好地完成需要的问句分类任务。 展开更多
关键词 word2vec WMD算法 兵棋演习 问答系统 问句分类
下载PDF
上一页 1 2 下一页 到第
使用帮助 返回顶部