期刊文献+
共找到92篇文章
< 1 2 5 >
每页显示 20 50 100
基于Doc2vec-LightGBM的CBTC车载信号设备故障分类诊断方法
1
作者 柴琳果 张景会 +2 位作者 上官伟 蔡伯根 李小雨 《铁道学报》 EI CAS CSCD 北大核心 2024年第4期108-118,共11页
车载信号设备是城市轨道交通信号系统的重要组成部分,其运营过程中会产生海量离散化、片段化的日志文本数据。目前,CBTC车载设备故障记录文本仍存在语义不明确、词语冗余的问题,从而造成故障致因溯源难,针对此,提出一种基于Doc2vec-Ligh... 车载信号设备是城市轨道交通信号系统的重要组成部分,其运营过程中会产生海量离散化、片段化的日志文本数据。目前,CBTC车载设备故障记录文本仍存在语义不明确、词语冗余的问题,从而造成故障致因溯源难,针对此,提出一种基于Doc2vec-LightGBM的CBTC车载设备故障自动分类诊断方法。首先对故障文本使用Jieba完成文本分词,依据TF-IDF实现分词文本数据的特征提取,并采用Doc2vec训练文本分词向量;其次针对数据不均衡的问题,采用Borderline-SMOTE算法进行少数类文本向量数据的补全泛化;最后,通过训练轻量梯度提升机LightGBM分类器完成故障文本自动分类。采用某信号厂商所记录的1 133条故障文本数据进行分类实验分析,并与支持向量机(SVM)方法对比。实验结果表明,所提方法在分类精确率、召回率上分别为98.2%、97.5%,证明了该故障文本自动分类方法的有效性和优越性。 展开更多
关键词 CBTC 车载设备 doc2vec LightGBM 故障分类诊断
下载PDF
基于Doc2Vec增强特征的长文本主题聚类研究 被引量:2
2
作者 陈洁 《计算机科学》 CSCD 北大核心 2023年第S01期211-216,共6页
针对新闻长文本语义表征的难点,基于Doc2Vec文档嵌入和词向量加权方式构建增强的特征表示。利用DV-sim方法和DV-tfidf方法从文档首尾部分特定词性的内容中提取增强特征,再分别与Doc2Vec文档向量组合,形成新的全局表征。DV-sim从语义角度... 针对新闻长文本语义表征的难点,基于Doc2Vec文档嵌入和词向量加权方式构建增强的特征表示。利用DV-sim方法和DV-tfidf方法从文档首尾部分特定词性的内容中提取增强特征,再分别与Doc2Vec文档向量组合,形成新的全局表征。DV-sim从语义角度,采用特征词与Doc2Vec向量的相似度获得词权重;DV-tfidf从词频统计角度,采用词频-逆文档频率方式获得词权重,然后利用HDBSCAN算法在THUCNews和Sogou数据集上进行主题聚类。相比直接应用Doc2Vec向量,DV-sim在两个数据集上的噪声数分别减少60.82%和60.63%,准确率提高12.14%和20.58%,F1-Score值提高15.61%和11.58%;DV-tfifd在两个数据集上的噪声数分别减少15.20%和59.55%,准确率提高10.85%和17.93%,F1-Score值提高15.60%和9.21%。实验结果表明,DV-sim和DV-tfidf都可以提高主题聚类性能,且基于语义的增强特征比基于词频的效果更好,DV-sim在优秀女性人物报道的主题聚类上也得到了有效应用。 展开更多
关键词 主题聚类 文本表征 doc2Vec 词向量 HDBSCAN
下载PDF
弓形虫DOC2基因C-端的克隆及序列分析 被引量:5
3
作者 高琦 张念章 +3 位作者 胡玲英 周东辉 朱兴全 翁亚彪 《中国畜牧兽医》 CAS 北大核心 2014年第8期56-60,共5页
为研究弓形虫DOC2基因作为弓形虫疫苗候选抗原分子的可行性,本试验用RT-PCR技术扩增DOC2基因编码区的C-端并测序。将该基因片段用生物信息学软件翻译为氨基酸序列后,预测弓形虫DOC2蛋白C-端的生物学特性、高级结构和B细胞抗原表位。结... 为研究弓形虫DOC2基因作为弓形虫疫苗候选抗原分子的可行性,本试验用RT-PCR技术扩增DOC2基因编码区的C-端并测序。将该基因片段用生物信息学软件翻译为氨基酸序列后,预测弓形虫DOC2蛋白C-端的生物学特性、高级结构和B细胞抗原表位。结果表明,DOC2基因C-端片段长度为1887bp。将其翻译成氨基酸序列后预测含有11个亲水区域和7个跨膜区。二级结构中含有19个α-螺旋、1个β-转角和17个无规则卷曲。结合柔性区域等分析,DOC2蛋白C-端共含有12个线性B细胞抗原表位。结果表明DOC2蛋白C-端可作为弓形虫疫苗候选分子,为研制新型弓形虫DNA疫苗或表位肽疫苗提供理论基础。 展开更多
关键词 弓形虫 doc2基因 克隆 生物信息学分析
下载PDF
Doc2vec在薪水预测中的应用研究 被引量:7
4
作者 潘博 张青川 +1 位作者 于重重 曹帅 《计算机应用研究》 CSCD 北大核心 2018年第1期155-157,共3页
针对互联网中在线招聘的工作广告,建立准确的薪水预测模型有助于求职者选择合适的职位。目前的研究方法都是通过词频或词向量平均化计算来获取职位的文本描述信息特征,无法全面理解文本语义。针对上述问题,利用文本深度表示模型doc2vec... 针对互联网中在线招聘的工作广告,建立准确的薪水预测模型有助于求职者选择合适的职位。目前的研究方法都是通过词频或词向量平均化计算来获取职位的文本描述信息特征,无法全面理解文本语义。针对上述问题,利用文本深度表示模型doc2vec计算文本的特征向量,能更深入地表征出文本语义特征。实验将多种组合模型进行对比,结果表明相比于目前已有方法,doc2vec提取文本特征可以使薪水预测误差率至少降低5%。 展开更多
关键词 薪水预测 doc2vec 文本特征
下载PDF
DOC2和rasp21在大肠癌组织中的表达及其临床意义 被引量:2
5
作者 段方方 王贵吉 +2 位作者 王相英 宋丽杰 张国伟 《山东医药》 CAS 北大核心 2009年第52期20-21,24,共3页
目的研究DOC2和rasp21在大肠癌组织中的表达及其临床意义。方法选取未经过术前放化疗的大肠癌标本121例及癌旁正常黏膜组织44例,通过免疫组织化学SP法检测两组DOC2和rasp21蛋白的表达情况,分析两者的表达与大肠癌临床病理特征的关系及... 目的研究DOC2和rasp21在大肠癌组织中的表达及其临床意义。方法选取未经过术前放化疗的大肠癌标本121例及癌旁正常黏膜组织44例,通过免疫组织化学SP法检测两组DOC2和rasp21蛋白的表达情况,分析两者的表达与大肠癌临床病理特征的关系及两者间的相互联系。结果大肠癌组织DOC2蛋白阳性表达率低于癌旁正常黏膜组织,rasp21蛋白阳性表达率高于癌旁正常黏膜组织(P<0.01)。DOC2蛋白的表达与大肠癌淋巴结及肝转移相关(P<0.05),rasp21蛋白的表达与大肠癌分化程度、淋巴结及肝转移相关(P<0.05)。大肠癌组织中DOC2与rasp21蛋白的表达呈负相关(r=-0.410,P<0.01)。结论DOC2和rasp21的表达失调可能在大肠癌的发生发展过程中发挥重要作用。 展开更多
关键词 结直肠肿瘤 doc2 RASP21 免疫组织化学
下载PDF
基于词向量Doc2vec的双向LSTM情感分析 被引量:7
6
作者 张俊飞 毕志升 吴小玲 《计算机与数字工程》 2018年第12期2385-2389,2399,共6页
针对词嵌入技术Word2vec仅仅利用上下文环境生成词向量,对文档词序语义表达不足,提出Doc2vec词向量生成方式;LSTM按照历史顺序处理时间序列数据,没有考虑到下文信息,因此提出双向LSTM实现评教评语的情感分析。通过两组对比实验:Word2vec... 针对词嵌入技术Word2vec仅仅利用上下文环境生成词向量,对文档词序语义表达不足,提出Doc2vec词向量生成方式;LSTM按照历史顺序处理时间序列数据,没有考虑到下文信息,因此提出双向LSTM实现评教评语的情感分析。通过两组对比实验:Word2vec和Doc2vec词向量生成对比实验、LSTM和双向LSTM评教评语情感分析对比实验,验证了Doc2vec词向量技术对句子的表达优于Word2vec,双向LSTM在情感分析中具有更高的精准度。 展开更多
关键词 词嵌入 Word2vec doc2vec LSTM 双向LSTM
下载PDF
利用Doc2Vec判断中文专利相似性 被引量:11
7
作者 张海超 赵良伟 《情报工程》 2018年第2期64-72,共9页
目前专利侵权纠纷案件时有发生,企业一旦卷入专利侵权纠纷,通常会面临时间考验和经济损失。本文选取中文专利数据样本,抽取专利权利要求书形成训练语料,并利用Doc2Vec深度神经网络算法,计算权利要求书文本之间的相似度,得出与涉案专利... 目前专利侵权纠纷案件时有发生,企业一旦卷入专利侵权纠纷,通常会面临时间考验和经济损失。本文选取中文专利数据样本,抽取专利权利要求书形成训练语料,并利用Doc2Vec深度神经网络算法,计算权利要求书文本之间的相似度,得出与涉案专利相似性较高的专利。并且将上述方法应用到专利复审案件实验中,进行实证研究,取得了较好的效果。需要进一步提高训练数据的质量,对比其他算法的效果。利用该方法能够帮助专利审查人员和企业找到相似专利。 展开更多
关键词 专利相似度 专利侵权 Word2Vec doc2Vec
下载PDF
DOC2抑制对宫颈癌SiHa细胞系的生长
8
作者 李萍 辛晓燕 +2 位作者 刘淑娟 宋庆贺 毛敬 《第四军医大学学报》 北大核心 2006年第8期741-743,共3页
目的:探讨卵巢癌缺失2(DOC2)基因对宫颈癌Si-Ha细胞系生长的抑制作用.方法:采用基因转染技术,将含有全长DOC2cDNA的真核重组表达质粒和空载体质粒(pcD-NA3.1)转染到人宫颈癌SiHa细胞系(无DOC2基因的表达)中,了解其对细胞增殖能力及细胞... 目的:探讨卵巢癌缺失2(DOC2)基因对宫颈癌Si-Ha细胞系生长的抑制作用.方法:采用基因转染技术,将含有全长DOC2cDNA的真核重组表达质粒和空载体质粒(pcD-NA3.1)转染到人宫颈癌SiHa细胞系(无DOC2基因的表达)中,了解其对细胞增殖能力及细胞周期的影响.结果:转染DOC2基因的宫颈癌细胞生长受到抑制(P<0.05),其在软琼脂克隆形成能力明显降低(P<0.05).DOC2有使G1期细胞比例增高、S期细胞比例下降的趋势,但SiHa细胞和SiHa-pcD-NA3.1细胞之间无显著差异.结论:DOC2基因能抑制宫颈癌细胞系的增殖. 展开更多
关键词 宫颈肿瘤 doc2 基因疗法
下载PDF
DOC2蛋白在宫颈癌组织中的表达及临床意义
9
作者 李萍 辛晓燕 +2 位作者 刘淑娟 马福成 毛敬 《现代肿瘤医学》 CAS 2006年第4期459-461,共3页
目的研究DOC2蛋白在宫颈癌组织中的表达及临床意义。方法采用免疫组化SABC法检测18份正常宫颈、17份慢性宫颈炎、129份宫颈癌组织中DOC2的表达情况。结果宫颈癌组织中DOC2的蛋白表达率显著低于正常宫颈和慢性宫颈炎组织(P<0.01),并且... 目的研究DOC2蛋白在宫颈癌组织中的表达及临床意义。方法采用免疫组化SABC法检测18份正常宫颈、17份慢性宫颈炎、129份宫颈癌组织中DOC2的表达情况。结果宫颈癌组织中DOC2的蛋白表达率显著低于正常宫颈和慢性宫颈炎组织(P<0.01),并且DOC2蛋白表达与宫颈癌患者临床分期、组织类型、分化程度和淋巴结转移无显著相关性。结论DOC2的低表达与宫颈癌的发生、发展密切相关,但与肿瘤分级无明显相关性,它的表达低下或缺失可能是宫颈恶性变的早期事件。 展开更多
关键词 宫颈癌 doc2 免疫组织化学
下载PDF
基于LDA模型和Doc2vec的学术摘要聚类方法 被引量:21
10
作者 张卫卫 胡亚琦 +1 位作者 翟广宇 刘志鹏 《计算机工程与应用》 CSCD 北大核心 2020年第6期180-185,共6页
针对特定任务下的短文本聚类已经成为文本数据挖掘的一项重要任务。学术摘要文本由于数据稀疏造成了聚类结果准确率低、语义鸿沟问题,狭窄的域导致大量无关紧要的单词重叠,使得很难区分主题和细粒度集群。鉴于此,提出一种新的聚类模型... 针对特定任务下的短文本聚类已经成为文本数据挖掘的一项重要任务。学术摘要文本由于数据稀疏造成了聚类结果准确率低、语义鸿沟问题,狭窄的域导致大量无关紧要的单词重叠,使得很难区分主题和细粒度集群。鉴于此,提出一种新的聚类模型——主题句向量模型(Doc2vec-LDA,Doc-LDA),该模型通过将LDA主题模型(Latent Dirichlet Allocation)和句向量模型融合(Doc2vec),不仅使得在模型训练过程中既能利用整个语料库的信息,而且还利用Paragraph Vector的局部语义空间信息完善LDA的隐性语义信息。实验采用爬取到的知网摘要文本作为数据集,选用K-Means聚类算法对各模型的摘要文本进行效果比较。实验结果表明,基于Doc-LDA模型的聚类效果优于LDA、Word2vec、LDA+Word2vec模型。 展开更多
关键词 短文本聚类 LDA模型 doc2vec模型 学术摘要
下载PDF
基于Doc2Vec的期刊论文热点选题识别 被引量:19
11
作者 阮光册 夏磊 《情报理论与实践》 CSSCI 北大核心 2019年第4期107-111,106,共6页
[目的/意义]将深度学习方法应用于热点识别的研究,实现研究热点的语义描述。[方法/过程]以教育学36本CSSCI期刊的62084篇论文为实验数据。首先,采用Doc2Vec方法对论文摘要进行向量计算;其次,对向量值进行相似度计算,生成热点选题论文集... [目的/意义]将深度学习方法应用于热点识别的研究,实现研究热点的语义描述。[方法/过程]以教育学36本CSSCI期刊的62084篇论文为实验数据。首先,采用Doc2Vec方法对论文摘要进行向量计算;其次,对向量值进行相似度计算,生成热点选题论文集;最后,运用聚类算法和主题词提取算法获取论文热点选题的主题描述。[结果/结论]对比词频统计和共词聚类方法,本文的实验结果在研究热点的描述上具有更好的语义特征。[局限]热点选题论文集的生成受阈值的影响。深度学习可以作为揭示学科研究热点的新方法。 展开更多
关键词 学术论文 热点主题识别 doc2Vec 聚类分析 关键词提取
下载PDF
Doc2vec在政策文本分类中的应用研究 被引量:4
12
作者 李峰 柯伟扬 +3 位作者 盛磊 陈雯 陈丙赛 罗韵晴 《软件》 2019年第8期76-78,共3页
政策文本(Policy Text)是指因政策活动而产生的记录文献,当前多数的政策文本分类方法存在特征维度高、缺乏上下文信息这两个缺点。基于此,本文采用Doc2vec算法,通过词向量化解决特征维度高的问题,采用CBOW方法获取词语上下文信息。本文... 政策文本(Policy Text)是指因政策活动而产生的记录文献,当前多数的政策文本分类方法存在特征维度高、缺乏上下文信息这两个缺点。基于此,本文采用Doc2vec算法,通过词向量化解决特征维度高的问题,采用CBOW方法获取词语上下文信息。本文采用的方法经过实验测试,结果显示该方法对提高政策文本的分类准确率有着显著作用。 展开更多
关键词 政策文本 文本分类 doc2vec
下载PDF
基于Doc2vec的专利与行业类目映射研究 被引量:2
13
作者 马晓萌 徐峰 +1 位作者 刘清民 封颖 《情报探索》 2020年第6期67-74,共8页
[目的/意义]使用深度学习中Doc2vec文本向量化的方法进行专利与行业间类目相似度的计算,旨在为用计算机进行类目映射时提供新的方法和思路。[方法/过程]实验通过《国际专利分类表》的小类及其下级类目大组与《国民经济行业分类表》中的... [目的/意义]使用深度学习中Doc2vec文本向量化的方法进行专利与行业间类目相似度的计算,旨在为用计算机进行类目映射时提供新的方法和思路。[方法/过程]实验通过《国际专利分类表》的小类及其下级类目大组与《国民经济行业分类表》中的小类展开,通过Doc2vec文本向量化和余弦相似度的方法求取三组相似值(专利小类与行业小类、专利大组与行业小类、每组专利小类下大组与行业小类相似度的平均值),并以农业类目为例进行解释说明。[结果/结论]通过计算专利大组与行业小类相似度平均值的方法进行映射更具合理性。 展开更多
关键词 Word2vec doc2vec 类目映射 余弦相似度
下载PDF
基于Doc2Vec和深度神经网络的战场态势智能推送研究 被引量:8
14
作者 申远 黄志良 +1 位作者 胡彪 王适之 《智能计算机与应用》 2020年第1期50-55,共6页
战场态势智能推送中的推荐算法是最核心、最关键的组成部分,在很大程度上决定了战场态势推送性能的优劣。深度神经网络推荐算法对用户和态势的需求度关系进行建模学习,能够学习到两者之间隐含的、更为复杂的非线性关系,缺点在于未利用... 战场态势智能推送中的推荐算法是最核心、最关键的组成部分,在很大程度上决定了战场态势推送性能的优劣。深度神经网络推荐算法对用户和态势的需求度关系进行建模学习,能够学习到两者之间隐含的、更为复杂的非线性关系,缺点在于未利用到态势的额外信息。因此以深度神经网络推荐算法为基础,利用Doc2Vec方法提取态势文本内容信息来作为深度神经网络模型的辅助输入,设计了一种基于Doc2Vec和深度神经网络的战场态势智能推送方法。实验仿真结果表明,利用Doc2Vec算法来对态势的额外信息进行建模,能够提升算法推荐效果。 展开更多
关键词 战场态势 智能推送 推荐算法 深度神经网络 doc2Vec
下载PDF
浸润性乳腺癌组织人DOC2/DAB2相互作用蛋白的表达变化及其意义 被引量:6
15
作者 易红 龙汉安 +2 位作者 王舰梅 肖秀丽 叶入裴 《山东医药》 CAS 2019年第18期81-83,共3页
目的观察浸润性乳腺癌组织人DOC2/DAB2相互作用蛋白(human DOC2/DAB2 interaction protein,DAB2IP)的表达变化,并探讨其临床意义。方法 124例浸润性乳腺癌患者,其中淋巴结转移40例,术前行新辅助化疗治疗26例;均行肿瘤切除术,术中保存浸... 目的观察浸润性乳腺癌组织人DOC2/DAB2相互作用蛋白(human DOC2/DAB2 interaction protein,DAB2IP)的表达变化,并探讨其临床意义。方法 124例浸润性乳腺癌患者,其中淋巴结转移40例,术前行新辅助化疗治疗26例;均行肿瘤切除术,术中保存浸润性乳腺癌组织、癌旁正常组织、发生癌转移的淋巴结组织标本,采用免疫组化法检测发生癌转移的淋巴结组织DAB2IP,分析浸润性乳腺癌组织DAB2IP表达与浸润性乳腺癌临床病理参数的关系。结果浸润性乳腺癌、癌旁正常、发生癌转移的淋巴结组织DAB2IP强阳性表达率分别为21.8%(27/124)、54.8%(68/124)、5.0%(2/40),两两比较, P 均<0.05。DAB2IP表达与浸润性乳腺癌患者年龄、脉管侵犯、神经侵犯、WHO分级均无关( P 均>0.05),与肿瘤大小、淋巴结转移、HER2、ki67、P53有关( P 均<0.05)。DAB2IP表达与浸润性乳腺癌新辅助化疗治疗后病理反应评级Miller-Payne分级有关( P =0.013)。结论 浸润性乳腺癌组织中DAB2IP 表达下调。DAB2IP 可能与浸润性乳腺的恶性程度、化疗抵抗有关。 展开更多
关键词 doc2/DAB2相互作用蛋白 乳腺肿瘤 乳腺癌 新辅助化疗
下载PDF
基于Doc2Vec和BiLSTM的老年患者疾病预测研究 被引量:5
16
作者 藏润强 左美云 郭鑫鑫 《计算机工程与科学》 CSCD 北大核心 2020年第12期2273-2279,共7页
基于电子病历的疾病预测一般是根据病人的症状预测疾病,而很少研究疾病之间的时间顺序关系。引入一种新的电子病历表示法,该表示法考虑了具有时序性的医疗疾病上下文信息,利用Doc2Vec将每种疾病转换成一个类似于其“语义”的数字向量。... 基于电子病历的疾病预测一般是根据病人的症状预测疾病,而很少研究疾病之间的时间顺序关系。引入一种新的电子病历表示法,该表示法考虑了具有时序性的医疗疾病上下文信息,利用Doc2Vec将每种疾病转换成一个类似于其“语义”的数字向量。基于这些向量采用BiLSTM模型来预测老年患者未来的疾病,可以起到对老年疾病的预警作用。最后通过使用真实的医院诊断数据进行实验验证,结果发现模型能够有效地预测出老年人新的疾病,且在保证预测准确率的同时还具有一定的稳定性。 展开更多
关键词 上下文 doc2Vec 双向长短时记忆网络BiLSTM 数据挖掘 疾病预测
下载PDF
基于Doc2Vec与SVM的聊天内容过滤 被引量:5
17
作者 岳文应 《计算机系统应用》 2018年第7期127-132,共6页
直播系统中用户聊天内容的实时拦截具有非常重大的意义,为了提高分类的准确率和效率,提出了一种基于Doc2Vec与SVM结合的文本分类模型对聊天内容分类,判断聊天内容是否应该被拦截.首先使用Doc2Vec模型将聊天内容表示成密集数值向量的形式... 直播系统中用户聊天内容的实时拦截具有非常重大的意义,为了提高分类的准确率和效率,提出了一种基于Doc2Vec与SVM结合的文本分类模型对聊天内容分类,判断聊天内容是否应该被拦截.首先使用Doc2Vec模型将聊天内容表示成密集数值向量的形式,第二部分使用SVM分类器进行分类.通过实验表明,该模型有效地减少了文本表示的维度,提高了训练效率,而且具有的97%的准确率和89.82%召回率,性能优于朴素贝叶斯和基于Doc2Vec的Logistic模型. 展开更多
关键词 文本分类 自然语言处理 doc2Vec模型 支持向量机
下载PDF
融合LDA主题和Doc2vec算法的DeepFM模型的推荐算法研究 被引量:3
18
作者 刘伦珲 吴丽萍 《电视技术》 2022年第4期47-53,共7页
如今,有很多辅助决策算法在日常生活的各个方面为人们推荐个性化内容或产品。本文以医疗信息推荐作为案例,研究提出一种融合狄利克雷分配(Latent Dirichlet Allocation,LDA)主题模型和Doc2vec算法的DeepFM模型。该模型能够挖掘评论文本... 如今,有很多辅助决策算法在日常生活的各个方面为人们推荐个性化内容或产品。本文以医疗信息推荐作为案例,研究提出一种融合狄利克雷分配(Latent Dirichlet Allocation,LDA)主题模型和Doc2vec算法的DeepFM模型。该模型能够挖掘评论文本中的隐藏主题和隐藏特征并考虑隐藏特征的交叉情况,能够在保留评论文本表层信息的同时学习数据中的浅层和深层特征。本文将该模型与之前的模型在真实的数据上进行实验对比。实验结果表明,相较于现存模型,该模型的推荐准确率有了一定的提高。 展开更多
关键词 推荐系统 LDA主题模型 doc2vec DeepFM
下载PDF
基于Doc2vec和深度神经网络的中文文本情感倾向研究 被引量:4
19
作者 王晨超 刘洋 《电子技术与软件工程》 2018年第10期154-157,共4页
为了可以在准确地判别中文文本的情感倾向的同时,降低训练成本、提高效率,提出了基于Doc2vec和深度神经网络的方法对中文文本进行情感分类。先使用Doc2vec将清洗后的中文文本训练成文本向量,再使用这些文本向量训练基于深度神经网络的... 为了可以在准确地判别中文文本的情感倾向的同时,降低训练成本、提高效率,提出了基于Doc2vec和深度神经网络的方法对中文文本进行情感分类。先使用Doc2vec将清洗后的中文文本训练成文本向量,再使用这些文本向量训练基于深度神经网络的分类器。实验结果表明,与情感词典、传统机器学习和长短期记忆网络(LSTM)的方法相比,该方法有着较高的准确率和效率。特别是和情感词典和传统机器学习的方法相比该方法优势明显;与LSTM相比训练成本也大大降低。 展开更多
关键词 doc2vec 深度神经网络 情感分析 中文文本分类
下载PDF
基于融合LDA和Doc2vec算法的文本表示模型的研究 被引量:3
20
作者 宁宁 莫秀良 +1 位作者 王春东 佟寅铖 《天津理工大学学报》 2021年第2期55-60,共6页
在文本分类的过程中,由于文本数据具有非结构化、高维性、稀疏性的特征,常常会导致分类效果的不理想.由此可知,文本分类的准确性十分依赖于文本表示的效果.本文通过融合Latent Dirichlet Allocation和Doc2vec算法得到一种新的主题向量... 在文本分类的过程中,由于文本数据具有非结构化、高维性、稀疏性的特征,常常会导致分类效果的不理想.由此可知,文本分类的准确性十分依赖于文本表示的效果.本文通过融合Latent Dirichlet Allocation和Doc2vec算法得到一种新的主题向量表示和文档向量表示,再通过计算其中的余弦相似度来提取文本特征.该方法不仅能得到在特定段落的语境下词与词之间的语义关系,还能因此挖掘出更多与文档相关的主题信息.为了验证算法的有效性,对几种相关方法进行了性能比较,实验结果表明,该方法优于其它方法,生成的文档特征可以通过整合全局和局部关系来提高文本分类性能. 展开更多
关键词 LDA doc2vec 文本表示 特征选择 文本分类
下载PDF
上一页 1 2 5 下一页 到第
使用帮助 返回顶部