期刊文献+
共找到36篇文章
< 1 2 >
每页显示 20 50 100
基于DAN与FastText的藏文短文本分类研究
1
作者 李果 陈晨 +1 位作者 杨进 群诺 《计算机科学》 CSCD 北大核心 2024年第S01期103-107,共5页
随着藏文信息不断融入社会生活,越来越多的藏文短文本数据存在网络平台上。针对传统分类方法在藏文短文本上分类性能低的问题,文中提出了一种基于DAN-FastText的藏文短文本分类模型。该模型使用FastText网络在较大规模的藏文语料上进行... 随着藏文信息不断融入社会生活,越来越多的藏文短文本数据存在网络平台上。针对传统分类方法在藏文短文本上分类性能低的问题,文中提出了一种基于DAN-FastText的藏文短文本分类模型。该模型使用FastText网络在较大规模的藏文语料上进行无监督训练获得预训练的藏文音节向量集,使用预训练的音节向量集将藏文短文本信息转化为音节向量,把音节向量送入DAN(Deep Averaging Networks)网络并在输出阶段融合经过FastText网络训练的句向量特征,最后通过全连接层和softmax层完成分类。在公开的TNCC(Tibetan News Classification Corpus)新闻标题数据集上所提模型的Macro-F1是64.53%,比目前最好评测结果TiBERT模型的Macro-F1得分高出2.81%,比GCN模型的Macro-F1得分高出6.14%,融合模型具有较好的藏文短文本分类效果。 展开更多
关键词 藏文短文本分类 特征融合 深度平均网络 快速文本
下载PDF
基于fastText的中文文本分类 被引量:19
2
作者 代令令 蒋侃 《计算机与现代化》 2018年第5期35-40,85,共7页
在保证文本分类准确率的情况下缩短分类时间一直是文本分类领域的一个研究目标。针对目前文本分类处理过程复杂且耗时过长的问题,将Facebook开源的句子分类和单词特征学习模型fastText引入到中文文本分类领域中,并验证其在中文分类中的... 在保证文本分类准确率的情况下缩短分类时间一直是文本分类领域的一个研究目标。针对目前文本分类处理过程复杂且耗时过长的问题,将Facebook开源的句子分类和单词特征学习模型fastText引入到中文文本分类领域中,并验证其在中文分类中的效果。相对于目前主流的文本分类方法,基于fastText模型的分类方法在保证分类效果的同时,大大缩短了分类时间。此外,在分类准确率和参数设置方面进行分析并得出相应的优化规则。 展开更多
关键词 文本分类 fasttext 线性分类器 快速文本分类模型
下载PDF
基于fastText的可视化作者归属模型
3
作者 李逍 顾长贵 +1 位作者 杨雷鑫 陆祺灵 《智能计算机与应用》 2021年第1期14-19,共6页
基于滑动窗口的方法,结合机器学习分类技术,可以判定文本的作者归属。但是此类方法需要精心挑选对应的文本特征,不同的文本特征选取可能会影响判定结果。针对以上问题,提出了一种基于快速文本分类(fastText)的文本作者归属判定模型。该... 基于滑动窗口的方法,结合机器学习分类技术,可以判定文本的作者归属。但是此类方法需要精心挑选对应的文本特征,不同的文本特征选取可能会影响判定结果。针对以上问题,提出了一种基于快速文本分类(fastText)的文本作者归属判定模型。该模型融合滑动窗口的思想,引入词(字)向量、数据增强技术,从而充分利用文本信息、自动提取文本特征,并且以可视化的方式将结果呈现出来。使用该模型来检测《红楼梦》、《Roman de la Rose》的作者归属,实验结果表明《红楼梦》的前八十回与后四十回为不同作者所著、《Roman de la Rose》开篇4 058行(约50 000字)与后面17 724行(约218 000字)为不同作者所著。证明了Rolling-fastText模型判定文本作者归属的有效性。 展开更多
关键词 滑动窗口 作者归属 快速文本分类器 数据增强技术 可视化
下载PDF
Fast Data Processing of a Polarimeter-Interferometer System on J-TEXT
4
作者 刘煜锴 高丽 +3 位作者 刘海庆 杨曜 高翔 J-TEXT Team 《Plasma Science and Technology》 SCIE EI CAS CSCD 2016年第12期1143-1147,共5页
A method of fast data processing has been developed to rapidly obtain evolution of the electron density profile for a multichannel polarimeter-interferometer system(POLARIS)on J-TEXT. Compared with the Abel inversio... A method of fast data processing has been developed to rapidly obtain evolution of the electron density profile for a multichannel polarimeter-interferometer system(POLARIS)on J-TEXT. Compared with the Abel inversion method, evolution of the density profile analyzed by this method can quickly offer important information. This method has the advantage of fast calculation speed with the order of ten milliseconds per normal shot and it is capable of processing up to 1 MHz sampled data, which is helpful for studying density sawtooth instability and the disruption between shots. In the duration of a flat-top plasma current of usual ohmic discharges on J-TEXT, shape factor u is ranged from 4 to 5. When the disruption of discharge happens, the density profile becomes peaked and the shape factor u typically decreases to 1. 展开更多
关键词 fast data processing polarimeter-interferometer J-text
下载PDF
基于词向量计算的中医症状术语相似度研究 被引量:7
5
作者 朱玲 李敬华 +1 位作者 胡钦谙 杨峰 《中国数字医学》 2019年第10期28-31,共4页
研究针对中医临床症状词描述的差异与分歧,以Word2vec和FastText为工具,基于现有中医药语料库,进行中医症状相似度研究,发现了一些较为晦涩、生僻的症状同义词及近义词,扩充了中医症状词的词表,并通过对Pearson、Spearman系数,以及召回... 研究针对中医临床症状词描述的差异与分歧,以Word2vec和FastText为工具,基于现有中医药语料库,进行中医症状相似度研究,发现了一些较为晦涩、生僻的症状同义词及近义词,扩充了中医症状词的词表,并通过对Pearson、Spearman系数,以及召回率的比较,认为FastText在这一任务上有更好的表现。但是由于中文分词,特别是中医古籍分词的先天劣势,以及现有语料不够丰富,导致召回率和准确率还有很大的提升空间,未来值得进一步研究。 展开更多
关键词 中医临床决策支持系统 Word2vec fasttext 词向量 症状相似度
下载PDF
基于改进VQ算法的文本无关的说话人识别 被引量:7
6
作者 张庆芳 赵鹤鸣 《计算机工程与应用》 CSCD 北大核心 2006年第10期65-68,共4页
基于矢量量化的说话人识别,因其运算过程简单等特点,在文本无关的说话人识别领域有着广泛的应用。论文根据说话人识别中训练语音的特点并结合快速搜索算法,对矢量量化的码书形成算法进行了改进,提出了一种基于改进算法的与文本无关的说... 基于矢量量化的说话人识别,因其运算过程简单等特点,在文本无关的说话人识别领域有着广泛的应用。论文根据说话人识别中训练语音的特点并结合快速搜索算法,对矢量量化的码书形成算法进行了改进,提出了一种基于改进算法的与文本无关的说话人识别方法。经实验结果证明,论文的方法加快了码书的形成,减少了码书形成的计算量,改善了码本的性能,提高了说话人识别的识别率。 展开更多
关键词 说话人识别 与文本无关 快速搜索 改进的LBG算法
下载PDF
基于密度的kNN文本分类器训练样本裁剪方法 被引量:98
7
作者 李荣陆 胡运发 《计算机研究与发展》 EI CSCD 北大核心 2004年第4期539-545,共7页
随着WWW的迅猛发展 ,文本分类成为处理和组织大量文档数据的关键技术 kNN方法作为一种简单、有效、非参数的分类方法 ,在文本分类中得到广泛的应用 但是这种方法计算量大 ,而且训练样本的分布不均匀会造成分类准确率的下降 针对kNN... 随着WWW的迅猛发展 ,文本分类成为处理和组织大量文档数据的关键技术 kNN方法作为一种简单、有效、非参数的分类方法 ,在文本分类中得到广泛的应用 但是这种方法计算量大 ,而且训练样本的分布不均匀会造成分类准确率的下降 针对kNN方法存在的这两个问题 ,提出了一种基于密度的kNN分类器训练样本裁剪方法 ,这种方法不仅降低了kNN方法的计算量 ,而且使训练样本的分布密度趋于均匀 ,减少了边界点处测试样本的误判 实验结果显示 。 展开更多
关键词 文本分类 KNN 快速分类
下载PDF
基于边界可信度相似的快速文本分类方法 被引量:3
8
作者 杨林波 王士同 《计算机工程与应用》 CSCD 北大核心 2009年第4期156-158,201,共4页
类别的中心和边界是类别的重要特征.利用训练样本的中心和边界作为分类准则,提出了一种基于边界可信度相似的快速文本分类算法。通过类别边界可信度调整文本与类别的相似性,克服了数据集类别间样本分布不均衡和类别中样本密度不均的缺点... 类别的中心和边界是类别的重要特征.利用训练样本的中心和边界作为分类准则,提出了一种基于边界可信度相似的快速文本分类算法。通过类别边界可信度调整文本与类别的相似性,克服了数据集类别间样本分布不均衡和类别中样本密度不均的缺点,提高了分类性能。实验结果表明该算法提高了文本分类的效果,显示出了较好的鲁棒性,并显著提高了文本分类效率。 展开更多
关键词 文本分类 相似度 快速分类
下载PDF
基于大数据技术的微博舆情快速自聚类方法研究 被引量:12
9
作者 陈雪刚 《情报杂志》 CSSCI 北大核心 2017年第5期113-117,共5页
[目的/意义]针对海量的微博舆情信息及微博在网络舆论场中的重要作用,如何快速、准确地获取微博舆情,是提升网络舆情实时监测及分析能力的关键课题之一。目前已能以较高的准确度获取微博舆情,但仍存在舆情获取耗时长问题,为较有效地解... [目的/意义]针对海量的微博舆情信息及微博在网络舆论场中的重要作用,如何快速、准确地获取微博舆情,是提升网络舆情实时监测及分析能力的关键课题之一。目前已能以较高的准确度获取微博舆情,但仍存在舆情获取耗时长问题,为较有效地解决该问题,提出一种基于大数据技术的微博舆情快速自聚类方法。[方法/过程]该方法首先利用大数据技术抓取和处理海量的微博舆情信息,而后根据构建的微博文本相似度速算模型和文本自主聚类模型快速自主聚类微博舆情。文本相似度速算模型通过两文本间同名的特征词数与其特征词数量较小值的比值来度量文本相似度;而文本自主聚类模型以一个主题为聚类起始,自主自适应扩展聚类主题,并将文本相似度大于设定阈值的文本直接聚为一类。[结果/结论]实验结果表明:提出的微博舆情快速自聚类方法能快速、准确地获取微博舆情,且具有较低的舆情误报率和漏报率,可为网络舆情实时监测及分析能力的提升提供一定的方法支持。 展开更多
关键词 微博舆情 大数据技术 文本相似度 快速自聚类 特征词
下载PDF
中文短文本聚合模型研究 被引量:11
10
作者 刘震 陈晶 +2 位作者 郑建宾 华锦芝 肖淋峰 《软件学报》 EI CSCD 北大核心 2017年第10期2674-2692,共19页
中文短文本聚合的目的是将两个数据集中属于同一对象的短文本信息进行匹配关联,同时要避免匹配不属于同一对象的短文本信息,这项研究对于多源异构的短文本数据资源整合具有重要的理论和现实意义.提出了一种有效的中文短文本聚合模型,通... 中文短文本聚合的目的是将两个数据集中属于同一对象的短文本信息进行匹配关联,同时要避免匹配不属于同一对象的短文本信息,这项研究对于多源异构的短文本数据资源整合具有重要的理论和现实意义.提出了一种有效的中文短文本聚合模型,通过快速匹配和精细匹配两个关键步骤可以大幅度降低匹配的候选对数量,并保证匹配的精度.针对传统短文本相似度算法的不足,提出了一种新颖的广义Jaro-Winkler相似度算法,并从理论上分析了该算法的参数特性.通过对不同数据集上的商户信息数据进行聚合实验,结果表明,新算法与传统算法相比,在匹配准确率和稳定性上具有最优的性能. 展开更多
关键词 中文短文本 聚合模型 文本相似度 广义Jaro—Winkler算法 快速匹配 精细匹配
下载PDF
基于类别分布特征的快速文本分类方法 被引量:3
11
作者 杨林波 王士同 《计算机工程与设计》 CSCD 北大核心 2009年第5期1267-1269,1281,共4页
中心和边界是类别分布的重要特征。利用训练样本类别分布特征,提出了一种基于类别分布特征的快速文本分类算法。依据类别分布特征调整文本与类别的相似度,克服了数据集类别间样本分布不均衡和类别中样本密度不均的缺点,提高分类的性能... 中心和边界是类别分布的重要特征。利用训练样本类别分布特征,提出了一种基于类别分布特征的快速文本分类算法。依据类别分布特征调整文本与类别的相似度,克服了数据集类别间样本分布不均衡和类别中样本密度不均的缺点,提高分类的性能。实验结果表明,该算法提高了文本分类的效果,显示出了较好的鲁棒性,并显著提高了文本分类效率。 展开更多
关键词 文本挖掘 文本分类 分布特征 快速分类 信息检索
下载PDF
基于深度学习的智慧图书馆文献快速检索 被引量:2
12
作者 黄建辉 《信息技术》 2021年第12期84-88,94,共6页
图书馆数字化信息量呈指数式增加,导致文献检索过程中运算复杂度高,检索速度下降。为此,提出基于深度学习的智慧图书馆文献快速检索方法。以文本类文献为检索目标,构建文本语义矩阵,采用标记判定陈述句、求解信任事实可信度及文本整体... 图书馆数字化信息量呈指数式增加,导致文献检索过程中运算复杂度高,检索速度下降。为此,提出基于深度学习的智慧图书馆文献快速检索方法。以文本类文献为检索目标,构建文本语义矩阵,采用标记判定陈述句、求解信任事实可信度及文本整体可信度;针对纯文本形式与向量形式输入输出语料,基于单隐藏层反向传播神经网络与自组织映射空间结构,构建多层深度学习模型,实现不同形式文献快速检索。从某智慧图书馆选取六种学科文献组成实验数据,采取查全率、查准率以及检索效率评估检索方法性能,验证所提方法检索的有效率较好。 展开更多
关键词 深度学习 智慧图书馆 文献检索 快速检索 文本语义
下载PDF
一种改进的KNN Web文本分类方法 被引量:9
13
作者 吴春颖 王士同 《计算机应用研究》 CSCD 北大核心 2008年第11期3275-3277,共3页
KNN方法存在两个不足:a)计算量巨大,它要求计算未知文本与所有训练样本间的相似度进而得到k个最近邻样本;b)当类别间有较多共性,即训练样本间有较多特征交叉现象时,KNN分类的精度将下降。针对这两个问题,提出了一种改进的KNN方法,该方... KNN方法存在两个不足:a)计算量巨大,它要求计算未知文本与所有训练样本间的相似度进而得到k个最近邻样本;b)当类别间有较多共性,即训练样本间有较多特征交叉现象时,KNN分类的精度将下降。针对这两个问题,提出了一种改进的KNN方法,该方法先通过Rocchio分类快速得到k0个最有可能的候选类别;然后在k0个类别训练文档中抽取部分代表样本采用KNN算法;最后由一种改进的相似度计算方法决定最终的文本所属类别。实验表明,改进的KNN方法在Web文本分类中能够获得较好的分类效果。 展开更多
关键词 WEB文本分类 K最近邻 快速分类
下载PDF
机器辅助翻译中模糊查词典和快速录入单词 被引量:1
14
作者 刘小虎 李生 吴葳 《中文信息学报》 CSCD 北大核心 1997年第4期60-65,共6页
本文介绍在单词记忆不准确的情况下,如何查找词典以及如何只键入单词中的几个字母快速录入单词的算法。在辅助翻译和写作系统中,词汇级的帮助是最基本的,主要指词典查询。但很多情况下,用户单词记忆不很准确,只记住了几个字母,本... 本文介绍在单词记忆不准确的情况下,如何查找词典以及如何只键入单词中的几个字母快速录入单词的算法。在辅助翻译和写作系统中,词汇级的帮助是最基本的,主要指词典查询。但很多情况下,用户单词记忆不很准确,只记住了几个字母,本文解决这种情况下的模糊查询问题。这种模糊技术的核心是全文检索,依赖于词典的特殊索引。在解决了模糊查询之后,利用全文检索技术以及模糊二分查找技术进一步开发了写作系统中的快速录入功能。 展开更多
关键词 机器辅助翻译 模糊查词典 单词 快速录入
下载PDF
基于密度的kNN分类器训练样本裁剪方法的改进 被引量:13
15
作者 熊忠阳 杨营辉 张玉芳 《计算机应用》 CSCD 北大核心 2010年第3期799-801,817,共4页
在文本分类中,训练集的分布状态会直接影响k-近邻(kNN)分类器的效率和准确率。通过分析基于密度的kNN文本分类器训练样本的裁剪方法,发现它存在两大不足:一是裁剪之后的均匀状态只是以ε为半径的球形区域意义上的均匀状态,而非最理想的... 在文本分类中,训练集的分布状态会直接影响k-近邻(kNN)分类器的效率和准确率。通过分析基于密度的kNN文本分类器训练样本的裁剪方法,发现它存在两大不足:一是裁剪之后的均匀状态只是以ε为半径的球形区域意义上的均匀状态,而非最理想的均匀状态即两两样本之间的距离相等;二是未对低密度区域的样本做任何处理,裁剪之后仍存在大量不均匀的区域。针对这两处不足,提出了以下两点改进:一是优化了裁剪策略,使裁剪之后的训练集更趋于理想的均匀状态;二是实现了对低密度区域样本的补充。通过实验对比,改进后的方法在稳定性和准确率方面都有明显提高。 展开更多
关键词 文本分类 K-近邻 快速分类 样本裁剪 样本补充
下载PDF
改进词向量和kNN的中文文本分类算法 被引量:10
16
作者 丁正生 马春洁 《现代电子技术》 2022年第1期100-103,共4页
为提高中文文本分类的效率和准确率,针对汉字象形字的特点和数据量剧增的大数据背景,建立基于深度学习的中文文本分类算法。首先根据汉字子字符(字形、偏旁、笔画等)象形字即形状自带含义的特点,建立基于子字符和上下文特征的双通道CBO... 为提高中文文本分类的效率和准确率,针对汉字象形字的特点和数据量剧增的大数据背景,建立基于深度学习的中文文本分类算法。首先根据汉字子字符(字形、偏旁、笔画等)象形字即形状自带含义的特点,建立基于子字符和上下文特征的双通道CBOW模型实现中文文本向量化;其次基于大数据的背景,针对传统的kNN算法分类速度慢的缺点,提出一种基于LSC聚类和多目标数据筛选的快速kNN分类算法;最后运用快速kNN算法对文本数据转化的特征词向量数据进行分类。实验结果表明,改进后的中文文本分类算法增加了算法的使用范围,能够更精确地处理中文文本数据,更快地处理大数据问题,在分类速率和效果上都有一定程度的提升。 展开更多
关键词 中文文本分类 文本向量化 快速kNN算法 词向量 双通道CBOW模型 特征向量 数据分类
下载PDF
一种基于改进的Newman快速算法的文本聚类方法
17
作者 安娜 赵继广 刘绍海 《科学技术与工程》 2010年第30期7550-7553,共4页
针对文本聚类计算量大的特点,提出了一种将概念格和Newman快速算法两种理论相结合的聚类方法。首先将文本表示为特征词语集,用统计方法抽取特征向量;同时,用IDF权重计算公式来计算词语的权重,并将词语权值离散化;然后,用形式背景表达关... 针对文本聚类计算量大的特点,提出了一种将概念格和Newman快速算法两种理论相结合的聚类方法。首先将文本表示为特征词语集,用统计方法抽取特征向量;同时,用IDF权重计算公式来计算词语的权重,并将词语权值离散化;然后,用形式背景表达关键词,通过相似度公式,计算出形式概念相似度大小;最后,构造Newman网络,根据Newman网络算法规则对待聚类文本进行聚类。实例表明,该算法不仅得到了正确的分类结果,而且大大降低了算法的复杂度,Newman快速算法仅为O((m+n)n)。 展开更多
关键词 复杂网络 Newman快速算法 文本聚类 概念格
下载PDF
快速与正常阅读条件下文章标记对高中生阅读信息保持的影响 被引量:1
18
作者 何先友 《心理发展与教育》 CSSCI 北大核心 2002年第1期59-62,共4页
探讨正常与快速阅读条件下文章宏观标记对文章主题通达和文章信息保持的影响。实验以高中二年级学生为被试。结果表明 ,在文章主题通达上 ,有文章宏观标记时 ,正常阅读与快速阅读之间无显著差异 ;无文章宏观标记时 ,正常阅读显著优于快... 探讨正常与快速阅读条件下文章宏观标记对文章主题通达和文章信息保持的影响。实验以高中二年级学生为被试。结果表明 ,在文章主题通达上 ,有文章宏观标记时 ,正常阅读与快速阅读之间无显著差异 ;无文章宏观标记时 ,正常阅读显著优于快速阅读 ;在文章信息的保持量上 ,文章宏观标记对正常阅读和快速阅读都有显著的促进作用。据此 。 展开更多
关键词 快速阅读 文章主题 阅读条件 信息 高中生 学生 读者 正常 标记 影响
下载PDF
一种基于小波和快速傅里叶变换的学习型歌唱系统
19
作者 潘伟洲 单志龙 +2 位作者 邱景钦 袁世超 黄煜廉 《计算机工程与应用》 CSCD 2012年第3期143-145,共3页
语音识别和合成技术分别实现了计算机理解人类语言和模仿人类阅读文本的功能,提出了一种实现计算机学习并演唱歌曲的系统。系统运用敲击定位法定位发音时刻,然后利用Daubechies小波变换和快速傅里叶变换计算出对应的基频,采用语音合成... 语音识别和合成技术分别实现了计算机理解人类语言和模仿人类阅读文本的功能,提出了一种实现计算机学习并演唱歌曲的系统。系统运用敲击定位法定位发音时刻,然后利用Daubechies小波变换和快速傅里叶变换计算出对应的基频,采用语音合成技术输出声音。 展开更多
关键词 MLTS技术 歌唱 Daubechies小波变换 快速傅里叶变换 语音合成
下载PDF
网络专题知识组织知识元自动抽取系统的设计与实现 被引量:10
20
作者 谈春梅 颜世伟 刘子牧 《现代图书情报技术》 CSSCI 北大核心 2008年第3期62-67,共6页
采用Visual studio.NET开发平台,使用C#程序设计语言以及XML知识描述和数据存储,对网络专题知识组织和知识元自动抽取系统进行开发设计。对该系统的文本信息预处理、快速汉字结合自增长分词、词频全文精确统计等重要功能的设计与实现进... 采用Visual studio.NET开发平台,使用C#程序设计语言以及XML知识描述和数据存储,对网络专题知识组织和知识元自动抽取系统进行开发设计。对该系统的文本信息预处理、快速汉字结合自增长分词、词频全文精确统计等重要功能的设计与实现进行了深入研究。 展开更多
关键词 知识标引 知识元自动抽取 文本信息处理 自增长分词 快速算法
下载PDF
上一页 1 2 下一页 到第
使用帮助 返回顶部