期刊文献+
共找到46篇文章
< 1 2 3 >
每页显示 20 50 100
基于Multi-agent技术的Web文本挖掘模型及应用 被引量:3
1
作者 姜丽华 黄敏 +1 位作者 马永光 佟振声 《计算机工程》 EI CAS CSCD 北大核心 2005年第1期217-218,221,共3页
介绍了一个基于Multi-agent技术的Web文本挖掘模型,该模型利用多智能体技术,将文本挖掘和多维文件分析技术结合起来实现了文档收集、预处理、分类、聚类等功能。最后给出了根据该模型设计和实现的某企业人才素质评价系统的实例,系统运... 介绍了一个基于Multi-agent技术的Web文本挖掘模型,该模型利用多智能体技术,将文本挖掘和多维文件分析技术结合起来实现了文档收集、预处理、分类、聚类等功能。最后给出了根据该模型设计和实现的某企业人才素质评价系统的实例,系统运行结果证明了模型的有效性和科学性。 展开更多
关键词 multi-AGENT 自然语言处理 数据挖掘 文本挖掘
下载PDF
基于数字孪生技术的通信业务多文本数据差异识别方法
2
作者 王娟 《计算机应用文摘》 2024年第21期148-150,共3页
针对现行方法在通信业务多文本数据差异识别中存在召回率较低和识别速度较慢的问题,文章提出了基于数字孪生技术的通信业务多文本数据差异识别方法。利用数字孪生技术对通信业务进行虚实映射,构建了通信网络孪生数字模型,以自动读取模... 针对现行方法在通信业务多文本数据差异识别中存在召回率较低和识别速度较慢的问题,文章提出了基于数字孪生技术的通信业务多文本数据差异识别方法。利用数字孪生技术对通信业务进行虚实映射,构建了通信网络孪生数字模型,以自动读取模型通信业务数据。同时,通过与采集的多本文数据进行关联分析,可量化数据差异程度与识别数据差异,从而实现对基于数字孪生技术的通信业务多文本数据的差异识别。经实验证明,设计方法召回率不低于96%,识别速率在1300bit/s以上,可以实现对通信业务多文本数据差异的精准快速识别。 展开更多
关键词 数字孪生技术 通信业务 多文本数据 差异识别 关联分析 召回率
下载PDF
基于文本过滤技术的多来源高校财务数据智能聚合方法
3
作者 何秀楠 薛亚琴 陈晓红 《无线互联科技》 2024年第21期107-109,共3页
高校财务数据来源广泛且数量庞大,影响了财务数据的利用效率。针对这一问题,文章提出了基于文本过滤技术的多来源高校财务数据智能聚合方法,先爬取并预处理多来源高校财务文本数据,利用朴素贝叶斯分类器,结合类别阈值设计文本过滤技术,... 高校财务数据来源广泛且数量庞大,影响了财务数据的利用效率。针对这一问题,文章提出了基于文本过滤技术的多来源高校财务数据智能聚合方法,先爬取并预处理多来源高校财务文本数据,利用朴素贝叶斯分类器,结合类别阈值设计文本过滤技术,过滤多来源高校财务数据中的不良文本;然后通过Jaro-Winkler相似度匹配算法将过滤后文本聚合在一起,实现多来源高校财务数据智能聚合。实验结果表明,应用该方法后,多来源高校财务数据智能聚合结果的归一化互信息高达0.918,聚合效果优越。 展开更多
关键词 文本过滤技术 多来源数据 高校财务数据 数据聚合 智能聚合方法
下载PDF
一种融合多头自注意力机制的粉笔字书写规范性评价方法
4
作者 张伟 李成城 +1 位作者 邬友 范勇峰 《内蒙古师范大学学报(自然科学版)》 CAS 2024年第3期321-330,共10页
在粉笔字书写规范性评价系统中,采用数据到文本生成技术对粉笔字进行评价。基线模型使用双向门控循环单元(BiGRU)对输入序列建模,并在分组规划阶段利用GRU为每个句子生成要覆盖的输入项子集。对于直接拼接BiGRU状态信息可能无法充分捕... 在粉笔字书写规范性评价系统中,采用数据到文本生成技术对粉笔字进行评价。基线模型使用双向门控循环单元(BiGRU)对输入序列建模,并在分组规划阶段利用GRU为每个句子生成要覆盖的输入项子集。对于直接拼接BiGRU状态信息可能无法充分捕捉键值对之间的复杂关系的问题,在数据分组规划前引入了多头自注意力机制来更精细地捕捉键值关系。在手写汉字数据集上的实验结果表明,该方法在BLEU-4、ROUGE和METEOR指标上分别达到0.68、0.75与0.67,为粉笔字书写规范性的自动评价提供了实际应用价值。 展开更多
关键词 结构化数据 数据到文本生成 多头自注意力机制 自然语言生成 粉笔字书写规范性评价
下载PDF
面向OLAP的高效海量数据存储技术研究与实现 被引量:4
5
作者 韩毅 韩伟红 +1 位作者 杨树强 贾焰 《微电子学与计算机》 CSCD 北大核心 2006年第z1期154-156,159,共4页
文章在分析了OLAP大规模海量多维数据特点的基础上,针对当前一般规模关系数据库处理海量多维数据能力的不足,通过使用数据库分区技术和并行磁盘组技术,设计并实现了一种高效的、面向OLAP应用的数据存储管理结构。并针对传统查询优化器... 文章在分析了OLAP大规模海量多维数据特点的基础上,针对当前一般规模关系数据库处理海量多维数据能力的不足,通过使用数据库分区技术和并行磁盘组技术,设计并实现了一种高效的、面向OLAP应用的数据存储管理结构。并针对传统查询优化器对于大规模海量数据统计信息更新不及时的问题,设计了一种基于分区技术的统计方法。实验证明,该设计可以对百TB级的多维海量文本数据进行有效的管理。 展开更多
关键词 OLAP 数据存储 海量 关系数据库 多维 文本数据
下载PDF
基于向量空间模型的多主题Web文本分类方法 被引量:14
6
作者 周炎涛 唐剑波 吴正国 《计算机应用研究》 CSCD 北大核心 2008年第1期142-144,共3页
对给定的网页,提取其特征向量,计算网页特征向量与分类特征向量的相似度,使用K-means聚类方法寻找归属类得到动态阈值,提出了一种基于动态阈值的向量空间模型多主题Web文本分类方法。该方法通过网页与每个类的相似度和动态阈值的比较,... 对给定的网页,提取其特征向量,计算网页特征向量与分类特征向量的相似度,使用K-means聚类方法寻找归属类得到动态阈值,提出了一种基于动态阈值的向量空间模型多主题Web文本分类方法。该方法通过网页与每个类的相似度和动态阈值的比较,实现了将包含多个主题的网页划分到相应的多个类中。实验证明,这种方法具有较好的精确度和召回率。 展开更多
关键词 向量空间模型 文本分类 多主题 数据挖掘
下载PDF
数字图书馆多粒度关联数据的创建与发布 被引量:7
7
作者 王忠义 周杰 黄京 《情报学报》 CSSCI 北大核心 2016年第8期885-896,共12页
为实现数字图书馆馆藏资源内容本身的多粒度关联数据的创建与发布,本文提出一种多粒度关联数据创建与发布方法。该方法首先依据主题对数字图书馆数字资源进行多粒度层级分割;而后在此基础上基于领域本体对文档分割结果进行多粒度层级语... 为实现数字图书馆馆藏资源内容本身的多粒度关联数据的创建与发布,本文提出一种多粒度关联数据创建与发布方法。该方法首先依据主题对数字图书馆数字资源进行多粒度层级分割;而后在此基础上基于领域本体对文档分割结果进行多粒度层级语义标注,生成描述数字资源语义结构的多粒度层级语义模式;最后,基于该语义模式借助D2R最终实现数字图书馆多粒度关联数据创建与发布,为提供"检索即所得"的一站式集成知识服务奠定基础。 展开更多
关键词 数字图书馆 多粒度 关联数据 文本分割 语义标注
下载PDF
一种子空间聚类算法在多标签文本分类中应用 被引量:4
8
作者 于海鹏 翟红生 《计算机应用与软件》 CSCD 北大核心 2014年第8期288-291,303,共5页
随着社交网络的兴起,文本数据不断增加,这使得自动化文本分类技术成为研究的热点。单个文本可能同时带有多个类别标签,该特点直接导致传统的二分类或多类别分类技术在多标签文本数据上性能不佳。针对这一不足,提出一种基于半监督杂质的... 随着社交网络的兴起,文本数据不断增加,这使得自动化文本分类技术成为研究的热点。单个文本可能同时带有多个类别标签,该特点直接导致传统的二分类或多类别分类技术在多标签文本数据上性能不佳。针对这一不足,提出一种基于半监督杂质的子空间聚类分析算法SCA(subspace clustering analysis),该算法分析在多标签环境下每一对分类和标签之间存在的潜在相关性。并设计一种对分类文本数据更有效的多标签分类器。最后,实验对两个多标签文本集进行分析,结果表明该算法优于当前采用的其他文本分类方法。 展开更多
关键词 文本数据 多标签 分类器 子空间聚类 杂质
下载PDF
基于多源文本挖掘的技术演化路径识别 被引量:10
9
作者 刘怀兰 刘盛 +1 位作者 周源 张睿 《情报理论与实践》 CSSCI 北大核心 2022年第11期178-187,共10页
[目的/意义]提出一种基于文档向量化和自动化短语挖掘的改进主题建模方法(Doc2Vec-KMeans++-TopMine,DKT),从多维视角识别领域内的技术演化路径,展示领域内技术的发展与现状。[方法/过程]获取研究领域内的论文、专利、产品等多源数据,... [目的/意义]提出一种基于文档向量化和自动化短语挖掘的改进主题建模方法(Doc2Vec-KMeans++-TopMine,DKT),从多维视角识别领域内的技术演化路径,展示领域内技术的发展与现状。[方法/过程]获取研究领域内的论文、专利、产品等多源数据,综合采用文档向量化、聚类算法和短语挖掘算法,完成领域多源数据的融合主题挖掘,通过语义相似度计算进行多源融合主题的关联与演化路径的识别,采用“主题河流图”可视化方法绘制多维度技术演化路径,从前沿研究、技术研发、市场应用等多维度视角出发开展领域演化分析。[结果/结论]选取数控机床领域进行实证研究,实验结果表明,利用DKT方法挖掘到的演化路径信息丰富,可以进行多维技术演化路径分析,并证明了其有效性,同时还得到了多个维度视角下的领域发展过程,发现了数控机床领域的3种技术演化模式。 展开更多
关键词 技术演化路径 多源数据 主题建模 文本挖掘 Doc2Vec TopMine
下载PDF
档案管理中文本数据的增量多模态聚类方法 被引量:4
10
作者 刘丽华 《重庆大学学报》 CSCD 北大核心 2022年第5期147-156,共10页
随着现代档案管理数据量的不断增长,有效地对档案文本进行聚类划分能够提升档案分类和检索的效率。文中提出2种增量多模态文本数据聚类方法,通过对文本内容进行多视角分析,融合挖掘文本的潜在主题特征,提升文本聚类的准确性。此外,设计... 随着现代档案管理数据量的不断增长,有效地对档案文本进行聚类划分能够提升档案分类和检索的效率。文中提出2种增量多模态文本数据聚类方法,通过对文本内容进行多视角分析,融合挖掘文本的潜在主题特征,提升文本聚类的准确性。此外,设计文本聚类多模态增量学习模型,提升海量、动态文本划分的效率。在文本数据集上的实验结果表明,文中提出的增量多模态文本聚类方法优于单模态和多模态聚类算法,能够对文本数据进行有效划分。 展开更多
关键词 文本数据 多模态聚类 增量特征学习
下载PDF
多监测点数据采集的Web文本挖掘算法及应用 被引量:1
11
作者 黎永壹 王远干 《实验室研究与探索》 CAS 北大核心 2013年第6期87-90,共4页
在多点数据监测系统中,为了将各区域服务器的数据有效整合,对海量数据的有效采集和处理成为必须解决的关键问题。文章通过引入Web文本挖掘原理和数据抽取方法,将网页列表页的抽取算法应用到多点数据采集,并构建了相应的多监测点数据采... 在多点数据监测系统中,为了将各区域服务器的数据有效整合,对海量数据的有效采集和处理成为必须解决的关键问题。文章通过引入Web文本挖掘原理和数据抽取方法,将网页列表页的抽取算法应用到多点数据采集,并构建了相应的多监测点数据采集体系。通过对多监测点海洋数据的处理实例表明,基于网页列表页的抽取算法有效地抽取到了准确数据项,解决了嵌套数据记录、自动抽取和多台计算机协同工作问题,提高了数据采集效率。 展开更多
关键词 WEB文本挖掘 多监测点 数据采集 抽取算法
下载PDF
一种新的多类SVM方法及其在文本分类中的应用 被引量:9
12
作者 张博锋 苏金树 徐昕 《广西师范大学学报(自然科学版)》 CAS 北大核心 2006年第4期95-98,共4页
提出一种将SVM扩展到多类文本分类问题的新方法,此方法有增量模式及批模式两种应用途径。其中,批模式提供了一种其他多类SVM替代方法;而增量模式在重复利用原有模型的基础上将新增类别的知识信息以增量方式更新到分类系统,整个分类器不... 提出一种将SVM扩展到多类文本分类问题的新方法,此方法有增量模式及批模式两种应用途径。其中,批模式提供了一种其他多类SVM替代方法;而增量模式在重复利用原有模型的基础上将新增类别的知识信息以增量方式更新到分类系统,整个分类器不需要全部重新学习,需要的计算量较小。实验表明增量方法大大减少新类增加时分类器更新所需要的学习步骤和时间;两种模式的分类效果与其他方法相当。 展开更多
关键词 机器学习 多类支持向量机 增量学习 文本分类 特征选择 数据挖掘
下载PDF
融合评分矩阵和评论文本的深度神经网络推荐模型 被引量:7
13
作者 周传华 于猜 鲁勇 《计算机应用研究》 CSCD 北大核心 2021年第4期1058-1061,1068,共5页
针对个性化推荐中用户评分矩阵数据集稀疏,用户和项目描述信息未充分利用的问题,提出融合评分矩阵和评论文本的深度神经网络推荐模型(deep neural network recommendation model,DeepRec)。首先将通过数据预处理得到的用户偏好特征和项... 针对个性化推荐中用户评分矩阵数据集稀疏,用户和项目描述信息未充分利用的问题,提出融合评分矩阵和评论文本的深度神经网络推荐模型(deep neural network recommendation model,DeepRec)。首先将通过数据预处理得到的用户偏好特征和项目属性特征的文本集合分别输入到卷积神经网络进行训练,得到用户和项目的深层次非线性特征,同时将评分矩阵输入多层感知机得到用户偏好隐表示,并对两种模型提取的用户偏好隐表示进行融合;其次利用多层感知机建模用户和项目隐表示对用户进行个性化推荐;最后基于三组数据集以均方根误差为评估指标进行对比实验。结果表明DeepRec的预测误差更低,有效提高了推荐的精准度。 展开更多
关键词 评分矩阵 评论文本 卷积神经网络 多层感知机 数据稀疏
下载PDF
基于Simhash的大规模文档去重改进算法研究 被引量:9
14
作者 王诚 王宇成 《计算机技术与发展》 2019年第2期115-119,共5页
针对大规模文档去重算法Simhash存在的缺点和不足,提出一种改进的Simhash算法。首先从多个维度综合计算文档的相似度,包括文档内容、文档关键字、文档的标签、文档的引用文献等方面,定义一个新的公式用于计算文档相似度。其次改进Simhas... 针对大规模文档去重算法Simhash存在的缺点和不足,提出一种改进的Simhash算法。首先从多个维度综合计算文档的相似度,包括文档内容、文档关键字、文档的标签、文档的引用文献等方面,定义一个新的公式用于计算文档相似度。其次改进Simhash算法计算文档特征的方法,通过TF-IDF技术和单词的主题相关性综合计算单词的权重,TF-IDF技术用于计算一个关键词在一个文档集中的一篇文档的重要性,将专业术语词汇的长度统计函数作为判断单词主题相关性的依据。最后在检索步骤中采用哈希到桶的思想,此时出现分布不均匀的情况,为此设定一个阈值,当超过阈值时,对桶内的元素进行二次哈希,可以减少候选对的数量并且使分布更加均匀。实验结果表明,改进后的算法可以明显提高原Simhash算法的效率和准确率。 展开更多
关键词 Web大数据 Simhash 近似文本检测 多维度 二次哈希
下载PDF
一种面向e-Science环境的多领域Web文本特征抽取模型
15
作者 翁彧 胡长军 +1 位作者 席强 张学春 《小型微型计算机系统》 CSCD 北大核心 2011年第1期17-23,共7页
传统领域信息抽取方法多依赖领域词典实现文本特征的发现,既不便于实验复现,也不易于其在多领域环境中移植与推广,严重制约了模型的应用范围.针对上述不足,提出一种适用于e-Science环境的多领域Web文本特征抽取模型(简称e-WTDE).该模型... 传统领域信息抽取方法多依赖领域词典实现文本特征的发现,既不便于实验复现,也不易于其在多领域环境中移植与推广,严重制约了模型的应用范围.针对上述不足,提出一种适用于e-Science环境的多领域Web文本特征抽取模型(简称e-WTDE).该模型将无词典分词技术引入多领域文本特征发现过程,摆脱了对于领域词典的依赖;借助对领域主题及其具体事件中共性与个性特征的抽取与分类,模型动态追踪领域事件发生及其发展变化,并最终形成多个区域性数据中心;通过对各数据中心中领域知识的协同调度,有力提高了领域信息在全局范围内的利用效率.验证实验中分别对多领域特征抽取、主题特征动态追踪以及领域知识协同调度予以有效性验证,并进一步证明了模型的实用效果. 展开更多
关键词 E-SCIENCE环境 特征发现 多领域数据模型 WEB文本挖掘
下载PDF
黔东南老苗文的历史及现状的调查和研究 被引量:2
16
作者 王贵生 《凯里学院学报》 2010年第5期53-59,共7页
黔东南老苗文旧称"胡托苗文",已在黔东南苗族地区流传了近一个世纪,但文献记载甚少。文章结合田野调查,从文化学角度讨论了老苗文诞生与苗民族心理缺憾的关系;从历史学角度介绍了老苗文注音系统以及与其诞生地有关的史料;从... 黔东南老苗文旧称"胡托苗文",已在黔东南苗族地区流传了近一个世纪,但文献记载甚少。文章结合田野调查,从文化学角度讨论了老苗文诞生与苗民族心理缺憾的关系;从历史学角度介绍了老苗文注音系统以及与其诞生地有关的史料;从民族学角度分析了高层文化与低层文化断裂以及民族习俗变迁与社会主义改造的关系。 展开更多
关键词 黔东南苗族 老苗文及文本 史料挖掘 多角度研究
下载PDF
金融文本特征挖掘及动态融合因子策略研究 被引量:1
17
作者 张伟 朱汉卿 高志刚 《计算机工程与应用》 CSCD 北大核心 2023年第8期297-305,共9页
目前的金融文本分析受到非规范性金融文本的局限性,所提取的金融特征有效性不足。为解决这一问题,提出了以券商研究报告为研究对象的规范性金融文本特征挖掘模型(normative finanical text feature mining,NFTFM),通过构建规范性金融情... 目前的金融文本分析受到非规范性金融文本的局限性,所提取的金融特征有效性不足。为解决这一问题,提出了以券商研究报告为研究对象的规范性金融文本特征挖掘模型(normative finanical text feature mining,NFTFM),通过构建规范性金融情感词典(normative finanical text sentiment dictionary,NFTSD)充分挖掘券商报告语义,并采用K邻近算法(K-nearest neighbor,KNN)实现报告作者评价态度分类,将态度分类结果按照时序维度整合为评价一致性因子(rate volatility,RC)和评价特征因子(rate consistency,RV)两类金融特征因子;针对传统量化多因子模型的因子权重无法自适应市场变化的问题,提出动态优化的融合因子策略,通过遗传算法动态优化因子权重。为验证规范性金融特征因子的有效性以及动态优化融合因子策略的效果,以RC、RV因子为基础因子集合,针对中证500股票构建多因子策略实例并展开历史周期回测。结果表明,策略收益相比于基准收益有明显提升,且对于不同的市场环境都具有较好的适应能力,表明NFTFM模型有效地提取了规范性金融特征因子,且动态优化的融合因子策略下的各类因子具有自适应市场变化的能力。 展开更多
关键词 规范性金融文本 数据分析 K邻近算法(KNN) 多因子策略 遗传算法
下载PDF
一种基于集成学习的试题多知识点标注方法 被引量:4
18
作者 郭崇慧 吕征达 《运筹与管理》 CSSCI CSCD 北大核心 2020年第2期129-136,共8页
个性化试题推荐、试题难度预测、学习者建模等教育数据挖掘任务需要使用到学生作答数据资源及试题知识点标注,现阶段的试题数据都是由人工标注知识点.因此,利用机器学习方法自动标注试题知识点是一项迫切的需求.针对海量试题资源情况下... 个性化试题推荐、试题难度预测、学习者建模等教育数据挖掘任务需要使用到学生作答数据资源及试题知识点标注,现阶段的试题数据都是由人工标注知识点.因此,利用机器学习方法自动标注试题知识点是一项迫切的需求.针对海量试题资源情况下的试题知识点自动标注问题,本文提出了一种基于集成学习的试题多知识点标注方法.首先,形式化定义了试题知识点标注问题,并借助教材目录和领域知识构建知识点的知识图谱作为类别标签.其次,采用基于集成学习的方法训练多个支持向量机作为基分类器,筛选出表现优异的基分类器进行集成,构建出试题多知识点标注模型.最后,以某在线教育平台数据库中的高中数学试题为实验数据集,应用所提方法预测试题考察的知识点,取得了较好的效果. 展开更多
关键词 教育数据挖掘 知识点标注 文本分类 多标签学习 集成学习
下载PDF
RSSI改进算法下多目标文本数据关联特征定位研究
19
作者 任华新 《内蒙古民族大学学报(自然科学版)》 2020年第1期36-41,共6页
为了提高文本数据的准确挖掘能力,提出基于RSSI改进算法下的多目标文本数据关联特征定位方法.构建多目标文本数据的关联结构分布模型,采用模糊关联规则匹配方法进行多目标文本数据的特征匹配和语义相关性检测,提取多目标文本数据的语义... 为了提高文本数据的准确挖掘能力,提出基于RSSI改进算法下的多目标文本数据关联特征定位方法.构建多目标文本数据的关联结构分布模型,采用模糊关联规则匹配方法进行多目标文本数据的特征匹配和语义相关性检测,提取多目标文本数据的语义模糊性定位信息,采用RSSI改进算法进行多目标文本数据关联特征寻优,采用相关性检测技术进行多目标文本数据的集成滤波,结合模糊聚类方法进行多目标文本数据特征分类处理,根据分类结果实现RSSI改进算法下多目标文本数据关联特征定位和挖掘.仿真结果表明,采用该方法进行多目标文本数据关联特征定位的准确性较高,特征匹配能力较强,提高了文本数据挖掘的准确率. 展开更多
关键词 RSSI改进算法 多目标文本数据 关联特征 定位 挖掘
下载PDF
一种启发式多标记分类器选择与排序策略 被引量:2
20
作者 李哲 王志海 +1 位作者 何颖婧 付彬 《中文信息学报》 CSCD 北大核心 2013年第4期119-126,共8页
在多标记分类问题当中,多标记分类器的目的是为实例预测一个与其关联的标记集合。典型方法之一是将多标记分类问题转化为多个二类分类问题,这些二类分类器之间可以存在一定的关系。简单地考虑标记间依赖关系可以在一定程度上改善分类性... 在多标记分类问题当中,多标记分类器的目的是为实例预测一个与其关联的标记集合。典型方法之一是将多标记分类问题转化为多个二类分类问题,这些二类分类器之间可以存在一定的关系。简单地考虑标记间依赖关系可以在一定程度上改善分类性能,但同时计算复杂度也是必须考虑的问题。该文提出了一种利用多标记间依赖关系的有序分类器集合算法,该算法通过启发式的搜索策略寻找分类器之间的某种次序,这种次序可以更好地反映标记间的依赖关系。在实验中,该文选取了来自不同领域的数据集和多个评价指标,实验结果表明该文所提出的算法比一般多标记分类算法具有更好的分类性能。 展开更多
关键词 多标记分类 文本分类 数据挖掘
下载PDF
上一页 1 2 3 下一页 到第
使用帮助 返回顶部