期刊文献+
共找到23篇文章
< 1 2 >
每页显示 20 50 100
Text Mining Based on the Korean Word Segmentation System in the Context of Big Data
1
作者 Yongmin Quan Na Niu +1 位作者 Hongyi Li Zhezhi Jin 《信息工程期刊(中英文版)》 2018年第1期1-7,共7页
Text mining is a text data analysis,found that the relationship between concepts and underlying concepts from unstructured text,it is extracted from large text database has not yet been realized patterns or associatio... Text mining is a text data analysis,found that the relationship between concepts and underlying concepts from unstructured text,it is extracted from large text database has not yet been realized patterns or associations,some information retrieval and text processing system can find the relationship between words and paragraphs.This article first describes the data sources and a brief introduction to the related platforms and functional components.Secondly,it explains the Chinese word segmentation and the Korean word segmentation system.At last,it takes the news,documents and materials of the Korean Peninsula as well as the various public opinion data on the network as the basic data for the research.The examples of word frequency graph and word cloud graph is carried out to show the results of text mining through Chinese word segmentation system and Korean word segmentation system. 展开更多
关键词 BIG data Platform Chinese word segmentation SYSTEM KOREAN word segmentation SYSTEM TEXT mining
下载PDF
利用word2vec对中文词进行聚类的研究 被引量:29
2
作者 郑文超 徐鹏 《软件》 2013年第12期160-162,共3页
文本聚类在数据挖掘和机器学习中发挥着重要的作用,该技术经过多年的发展,已产生了一系列的理论成果。本文在前人研究成果的基础上,探索了一种新的中文聚类方法。本文先提出了一种中文分词算法,用来将中文文本分割成独立的词语。再对处... 文本聚类在数据挖掘和机器学习中发挥着重要的作用,该技术经过多年的发展,已产生了一系列的理论成果。本文在前人研究成果的基础上,探索了一种新的中文聚类方法。本文先提出了一种中文分词算法,用来将中文文本分割成独立的词语。再对处理后的语料使用Word2Vec工具集,应用深度神经网络算法,转化为对应的词向量。最后,将词向量之间的余弦距离定义为词之间的相似度,通过使用K-means聚类算法将获取的词向量进行聚类,最终可以返回语料库中同输入词语语意最接近的词。本文从网络上抓取了2012年的网络新闻数据,应用上述方法进行了实验,取得了不错的实验效果。 展开更多
关键词 数据挖掘 聚类 分词 词向量 神经网络
下载PDF
多段支持度数据挖掘算法研究 被引量:23
3
作者 李雄飞 苑森淼 +1 位作者 董立岩 全勃 《计算机学报》 EI CSCD 北大核心 2001年第6期661-665,共5页
在基于相联规则的数据挖掘算法中 ,Apriori等算法最为著名 .它分为两个主要步骤 :(1)通过多趟扫描数据库求解出频繁项集 ;(2 )利用频繁项集生成规则 .随后的许多算法都沿用 Apriori中“频繁项集的子集必为频繁项集”的思想 ,在频繁项集 ... 在基于相联规则的数据挖掘算法中 ,Apriori等算法最为著名 .它分为两个主要步骤 :(1)通过多趟扫描数据库求解出频繁项集 ;(2 )利用频繁项集生成规则 .随后的许多算法都沿用 Apriori中“频繁项集的子集必为频繁项集”的思想 ,在频繁项集 Lk- 1 上进行 JOIN运算构成潜在 k项集 Ck.由于数据库和 Ck 的规模较大 ,需要相当大的计算量才能生成频繁项集 .Apriori Tid算法给每个事务增加了一个唯一标识 Tid ,其特点是只扫描一趟数据库 ,其余趟扫描 (如第 k趟扫描 )均在相应的数据集 Ck上进行 .由于数据规模改变不大 ,各算法的效率差别并不明显 .该文提出分段计算支持度的思想 ,是把一个项集的支持度分段计算 ,每一个段记录该项集在相应规模事务中出现的频度 ,从而构成一个支持度向量 .由于有了项集的多段支持度 ,可以推测出该项集能否包含在更大规模的频繁项集中 ,采用这种算法既提高了在扫描数据库过程中的信息获取率 ,又能及时剔除超集不是频繁项集的项集 ,进一步缩减了潜在项集的规模 .在数据集扫描过程中 ,按文中定理 1的思想调整数据集 。 展开更多
关键词 数据挖掘 相联规则 算法 频繁项集 多段支持度 数据库
下载PDF
文本挖掘及其关键技术与方法 被引量:42
4
作者 王丽坤 王宏 陆玉昌 《计算机科学》 CSCD 北大核心 2002年第12期12-19,共8页
With the dramatically development of Internet, the information processing and management technology onWWW have become a great important branch of data mining and data warehouse. Especially, nowadays, Text Miningis mar... With the dramatically development of Internet, the information processing and management technology onWWW have become a great important branch of data mining and data warehouse. Especially, nowadays, Text Miningis marvelously emerging and plays an important role in interrelated fields. So it is worth summarizing the contentabout text mining from its definition to relational methods and techniques. In this paper, combined to comparativelymature data mining technology, we present the definition of text mining and the multi-stage text mining process mod-el. Moreover, this paper roundly introduces the key areas of text mining and some of the powerful text analysis tech-niques, including: Word Automatic Segmenting, Feature Representation, Feature Extraction, Text Categorization,Text Clustering, Text Summarization, Information Extraction, Pattern Quality Evaluation, etc. These techniquescover the whole process from information preprocessing to knowledge obtaining. 展开更多
关键词 文本挖掘 数据挖掘 知识发现 数据处理 数据库
下载PDF
基于重现的无词典分词方法在中文生物医学文本挖掘中的应用 被引量:5
5
作者 王军辉 胡铁军 李丹亚 《医学信息学杂志》 CAS 2009年第2期21-25,共5页
在对文本挖掘和中文分词方法进行概述的基础上,结合中文生物医学文本的特点,提出基于重现的无词典分词方法在构建医学文献相关性数据库、发现医学新名词、预测新兴研究趋势和基于文献的知识发现中的应用设想。
关键词 无词典分词 数据挖掘 文本挖掘 知识发现 文献相关性数据库
下载PDF
发现边防突发事件的特征型知识 被引量:3
6
作者 陆建江 邹晓峰 宋自林 《解放军理工大学学报(自然科学版)》 EI 2002年第3期1-4,共4页
边境地区情况复杂 ,边防斗争和边境管理任务繁重 ,边防事务的工作量大 ,而边防突发事件的处置又具有很强的政策性、法规性和时效性 ,涉及面广、要求高、标准严等特点。为了改善边境地区处置边防突发事件的能力 ,提高边防涉外事件处置水... 边境地区情况复杂 ,边防斗争和边境管理任务繁重 ,边防事务的工作量大 ,而边防突发事件的处置又具有很强的政策性、法规性和时效性 ,涉及面广、要求高、标准严等特点。为了改善边境地区处置边防突发事件的能力 ,提高边防涉外事件处置水平 ,开发边境地区边防突发事件处置辅助决策系统具有重要的实际意义。采用数据挖掘的聚类方法将边防突发事件汇聚成几个模式 ,并发现模式的特征型知识 。 展开更多
关键词 数据挖掘 边防突发事件 分词 球形 K-均值算法
下载PDF
关联规则在汉语词属性中的研究 被引量:2
7
作者 王玮 蔡莲红 《计算机工程与应用》 CSCD 北大核心 2001年第5期17-18,58,共3页
在语音识别和合成中文本分析是很重要的,文本分词是文本分析正确与否的基础。目前语音合成系统中的分词一般是基于词典分析建立的,对于多音字易产生错误。文章基于数据挖掘中的关联规则的发现方法对文本分词中词语的关联关系进行研究... 在语音识别和合成中文本分析是很重要的,文本分词是文本分析正确与否的基础。目前语音合成系统中的分词一般是基于词典分析建立的,对于多音字易产生错误。文章基于数据挖掘中的关联规则的发现方法对文本分词中词语的关联关系进行研究,通过文本数据的文本特征及语音特征描述的有机结合,获取词语自身属性的关联关系,最后进行了实例测评。 展开更多
关键词 数据挖掘 文本分析 关联规则 汉语词属性 语音合成系统 汉字信息处理
下载PDF
多段支持度数据频繁模式关联规则挖掘仿真 被引量:5
8
作者 王培培 孟芸 《计算机仿真》 北大核心 2021年第5期282-286,共5页
针对传统数据关联挖掘过程只适用于单段数据集,导致内存负担重、挖掘频繁项集效率不高等问题,提出一种多段支持度数据频繁模式关联规则挖掘方法。运用多支持度算法对数据集逐步搜索,数据集按照数据项的MIS大小有序排列,采用最小值作为... 针对传统数据关联挖掘过程只适用于单段数据集,导致内存负担重、挖掘频繁项集效率不高等问题,提出一种多段支持度数据频繁模式关联规则挖掘方法。运用多支持度算法对数据集逐步搜索,数据集按照数据项的MIS大小有序排列,采用最小值作为最小支持度,确保该算法的地推性。构建FPtree树,利用FPtree算法对待选项实施剪枝,从而准确挖掘出频繁模式的关联规则。仿真结果证明,多段支持度数据频繁模式关联规则挖掘具有较好的性能,有效提高了关联规则的挖掘效率。 展开更多
关键词 多段支持度 频繁模式 关联规则 数据挖掘 数据集缩减
下载PDF
基于买家在线评价的购后评价特征数据挖掘 被引量:13
9
作者 夏名首 《中国流通经济》 CSSCI 北大核心 2017年第7期30-38,共9页
买家在线评论作为买家购后满意情况的反映,是买家进行购买决策和商家了解顾客、发现并改进不足之处的重要依据。利用中文分词、RFM改进模型和情感聚焦雷达图对天猫网碧根果买家在线评论的分析表明,各类型买家关注的因素大体相同,但关注... 买家在线评论作为买家购后满意情况的反映,是买家进行购买决策和商家了解顾客、发现并改进不足之处的重要依据。利用中文分词、RFM改进模型和情感聚焦雷达图对天猫网碧根果买家在线评论的分析表明,各类型买家关注的因素大体相同,但关注度不一;各类型买家购后评论情感聚焦点基本一致,但参与程度不同。其中,口味是产品的核心竞争力,服务、物流、价格因素也是不可或缺的参考点。鉴于此,主营坚果及其他食品类产品的电商不仅要根据产品属性及情感聚焦点的不同进行差异化营销和服务,而且要在重点关注口味的同时,制定客户服务标准,实施个性化服务,选择能够为自身加分的物流服务提供商(或自身承担物流)。此外,还要把握产品毛利率,保证质量,提升促销感知力度,更新完善包装,拓展产品用途,关注负面在线评论并有针对性地加以解决。而买家则应在线上购物信息搜寻阶段,参考其他买家评价,收集整理自己关注的问题,提升决策有效性。 展开更多
关键词 在线评价 中文分词 RFM改进模型 情感聚焦雷达图 购后评价特征
下载PDF
基于矩阵的多段支持度关联规则挖掘算法 被引量:3
10
作者 张伟丰 杨丽华 《湖北汽车工业学院学报》 2014年第2期72-76,80,共6页
为有效提高关联规则挖掘算法效率,提出了一种基于矩阵的多段支持度关联规则挖掘算法,该算法通过一次数据库扫描将事务数据存放在矩阵中,利用矩阵进行支持度的计算和频繁集的寻找,同时将项集支持度分段计算的思想应用其中,减少候选集生成... 为有效提高关联规则挖掘算法效率,提出了一种基于矩阵的多段支持度关联规则挖掘算法,该算法通过一次数据库扫描将事务数据存放在矩阵中,利用矩阵进行支持度的计算和频繁集的寻找,同时将项集支持度分段计算的思想应用其中,减少候选集生成,实验表明,算法效率得到了较大提高。 展开更多
关键词 APRIORI算法 关联规则 数据挖掘 多段支持度 矩阵
下载PDF
基于数据挖掘技术的“智慧旅游”文本研究分析 被引量:2
11
作者 白伟华 陈晓鑫 《肇庆学院学报》 2023年第2期45-54,共10页
在旅游景区的网络评论平台中,由于游客们的评论数量庞大且内容杂乱,依靠人工经验来处理评论文本的分类工作将会导致其分类效率低且差错率高等现象,而基于数据挖掘技术的文本分析将可以大大改善这一现象.为此,本文将基于数据挖掘技术来... 在旅游景区的网络评论平台中,由于游客们的评论数量庞大且内容杂乱,依靠人工经验来处理评论文本的分类工作将会导致其分类效率低且差错率高等现象,而基于数据挖掘技术的文本分析将可以大大改善这一现象.为此,本文将基于数据挖掘技术来对“智慧旅游”中景区及酒店网评文本数据进行研究分析,并分别完成景区及酒店的印象分析、景区及酒店的综合评价、网评文本的有效性分析和景区及酒店的特色分析这四项工作任务.经实验分析表明,数据挖掘技术在文本分析中表现出良好的性能,且本文所选用的模型算法在解决四项指定任务中也都得到较为良好的结果. 展开更多
关键词 分词提取 数据挖掘 情感分析 模型算法 误差评价
下载PDF
大数据环境下的文本挖掘教学内容探讨 被引量:3
12
作者 白杨 《无线互联科技》 2018年第9期86-87,共2页
文章针对"数据挖掘"课程的文本数据挖掘过程的关键问题,开展大数据环境下的文本挖掘教学内容的探讨。从大数据背景下文本挖掘的应用场景中入手,讨论文本挖掘与数据挖掘的区别和联系,并着重阐释文本数据预处理的分词技术及矩... 文章针对"数据挖掘"课程的文本数据挖掘过程的关键问题,开展大数据环境下的文本挖掘教学内容的探讨。从大数据背景下文本挖掘的应用场景中入手,讨论文本挖掘与数据挖掘的区别和联系,并着重阐释文本数据预处理的分词技术及矩阵表示方法、文本数据分析与挖掘的关联分析、聚类和分类分析等教学内容,帮助学生梳理文本挖掘过程的重点和难点知识以及了解文本挖掘领域的前沿动态。 展开更多
关键词 文本挖掘 分词 数据预处理 数据挖掘
下载PDF
基于动态特征库的电子邮件分类的研究
13
作者 穆俊鹏 董魁锋 张明 《计算机与现代化》 2012年第7期120-123,共4页
随着邮件分类技术的不断发展,为了对邮件进行更加有效的组织和管理,需要对不断变化的邮件进行动态特征提取,根据其动态特征对邮件进行分类。从邮件的动态特征方面入手,通过编写邮件客户端程序,利用中科院的ICTCLAS分词工具实现中文邮件... 随着邮件分类技术的不断发展,为了对邮件进行更加有效的组织和管理,需要对不断变化的邮件进行动态特征提取,根据其动态特征对邮件进行分类。从邮件的动态特征方面入手,通过编写邮件客户端程序,利用中科院的ICTCLAS分词工具实现中文邮件的准确分词,利用改进的TF-IDF算法对邮件的特征权重进行计算,并利用WEKA挖掘工具进行结果的仿真实验。实验结果表明,利用邮件的动态特征来对邮件进行分类是切实可行的,且在一定程度上能够对邮件进行合理有效的分类。 展开更多
关键词 动态特征 邮件分类 中文分词 TF-IDF WEKA 数据挖掘
下载PDF
基于最大频繁模式挖掘的多段支持度数据集成系统 被引量:1
14
作者 何昀 陈伟 +1 位作者 张继夫 张川 《信息与电脑》 2023年第3期129-131,共3页
为减少多段支持度数据集成耗时,提高多段支持度数据集成效率,本文提出了一种全新的多段支持度数据集成系统。综合考虑多段支持度数据的特征,搭建了与数据集成需求契合度较高的硬件运行环境。在此基础上,基于最大频繁模式挖掘算法,设计... 为减少多段支持度数据集成耗时,提高多段支持度数据集成效率,本文提出了一种全新的多段支持度数据集成系统。综合考虑多段支持度数据的特征,搭建了与数据集成需求契合度较高的硬件运行环境。在此基础上,基于最大频繁模式挖掘算法,设计数据流处理模块,输出挖掘的数据流频繁项集。设计多段支持度数据实时加载模块,抽取点对点同步数据,再引入5G专网数字孪生模型理念,构建多段支持度数据库,分析、集成与存储数据。根据系统测试结果可知,设计系统应用后,集成数据平均时耗最多不超过1.5 s,集成效率得到了提高。 展开更多
关键词 最大频繁模式挖掘 多段支持度 数据集成 5G专网数字孪生模型
下载PDF
一种多段支持度数据挖掘算法
15
作者 潘大胜 《萍乡学院学报》 2015年第3期86-90,共5页
本文以分段计算支持度为重要思想,通过分段计算各项集支持度,确保各段记录出现在相应规模事务中所形成的频度,进而构成支持度向量,加上项集多段支持度,实现大规模频繁项集的有效推测。该算法可提高数据库扫描过程中的信息获取率,从而缩... 本文以分段计算支持度为重要思想,通过分段计算各项集支持度,确保各段记录出现在相应规模事务中所形成的频度,进而构成支持度向量,加上项集多段支持度,实现大规模频繁项集的有效推测。该算法可提高数据库扫描过程中的信息获取率,从而缩减项集规模,并按照文中定理1这一思想对数据集进行及时调整,从而实现频繁项集生成效率的不断提高。 展开更多
关键词 相联规则 数据挖掘 多段支持度 频繁项集
下载PDF
基于大数据挖掘的赛珍珠文化元素提取与应用 被引量:5
16
作者 蒋驷驹 卢章平 李明珠 《包装工程》 CAS 北大核心 2021年第22期337-346,共10页
目的在大数据环境下,运用大数据技术提取赛珍珠文化元素,探究大数据挖掘理念在文创产品设计中应用的可行性。方法首先,采集赛珍珠相关数据资料,借助网络爬虫工具采集网络媒体中赛珍珠相关的文本信息,同时人工搜集赛珍珠相关学术研究以... 目的在大数据环境下,运用大数据技术提取赛珍珠文化元素,探究大数据挖掘理念在文创产品设计中应用的可行性。方法首先,采集赛珍珠相关数据资料,借助网络爬虫工具采集网络媒体中赛珍珠相关的文本信息,同时人工搜集赛珍珠相关学术研究以及社会访谈资料,然后将数据保存为可编辑的文本形式。其次,运用中文分词工具对采集的文本信息进行处理,将语言字符串切分成词语,滤除中文停用词、低频词及干扰词,形成精炼的赛珍珠数据集合。之后,采用LDA主题模型算法对数据集合进行降维、聚类,形成初步的主题模型,然后经过人工筛选构建赛珍珠文化元素主题模型。最后,根据文化元素主题模型内容,选择赛珍珠文化元素进行赛珍珠文创产品设计实践。结论依照大数据挖掘理念,通过对网络爬虫技术、中文分词工具以及LDA主题模型算法等大数据处理工具的综合应用,能够科学高效地从庞大的社会网络媒体中提炼赛珍珠文化元素,从而达到促进整个文创产品设计流程的效果。 展开更多
关键词 大数据挖掘 网络爬虫 中文分词 主题模型 赛珍珠 文创产品
下载PDF
文本主要信息的自动获取和主体挖掘 被引量:1
17
作者 吴春燕 黄巧梅 +1 位作者 刘海清 张捷 《信息技术与信息化》 2017年第3期41-43,共3页
文本挖掘是数据挖掘的重要内容之一,其应用十分广泛。对文本文件进行分析的一个前提条件是对文本文件进行分词处理,中文分词是进行中文信息处理的一个难点。为此,本文采用了分词算法^([1])和支持向量机^([2])对文本进行分类,设计和实现... 文本挖掘是数据挖掘的重要内容之一,其应用十分广泛。对文本文件进行分析的一个前提条件是对文本文件进行分词处理,中文分词是进行中文信息处理的一个难点。为此,本文采用了分词算法^([1])和支持向量机^([2])对文本进行分类,设计和实现文本文件主要信息自动获取系统。。 展开更多
关键词 文本挖掘 数据挖掘 分词算法 支持向量机
下载PDF
基于人工蜂群优化的多段支持度数据挖掘仿真 被引量:4
18
作者 梁显丽 《计算机仿真》 北大核心 2019年第7期273-276,共4页
针对当前多段支持度数据挖掘方法中存在的挖掘效率较低,查全率较低等不足之处,通过相关算法研究,提出基于人工蜂群优化的多段支持度数据挖掘方法。以数据项集支持度思想与重要性质为依据,计算数据项集的综合支持度;构建数据关联规则支... 针对当前多段支持度数据挖掘方法中存在的挖掘效率较低,查全率较低等不足之处,通过相关算法研究,提出基于人工蜂群优化的多段支持度数据挖掘方法。以数据项集支持度思想与重要性质为依据,计算数据项集的综合支持度;构建数据关联规则支持度函数,结合最大值最小值定理及介质定理,确定关联规则支持度;根据数据综合支持度及关联规则支持度计算结果,利用支持向量机进行数据空间映射以及数据分类;通过构建精英蜂群策略及侦查蜂搜索机制更新,对传统人工蜂群算法进行改进,利用改进后人工蜂群算法优化支持向量机参数,提高数据分类挖掘精度。实验结果表明,所提方法的挖掘效率及查全率高于实验对比方法,且支持度预估误差明显低于实验对比方法。 展开更多
关键词 人工蜂群 优化 多段支持度 关联规则 数据挖掘
下载PDF
基于微博内容的用户兴趣爱好分类模型
19
作者 高哲 罗挺豪 +3 位作者 赵珓言 杜健平 唐建鹏 陈荣钦 《台州学院学报》 2015年第3期18-21,共4页
微博数据具有较好的价值,如何从海量的微博数据中自动提取用户兴趣爱好是智能推荐、微博营销等重要基础。在分析微博特征基础上,采用基于微博内容的兴趣爱好分类模型,通过构建兴趣爱好词典,并自动抓取微博信息进行分词、匹配和统计,有... 微博数据具有较好的价值,如何从海量的微博数据中自动提取用户兴趣爱好是智能推荐、微博营销等重要基础。在分析微博特征基础上,采用基于微博内容的兴趣爱好分类模型,通过构建兴趣爱好词典,并自动抓取微博信息进行分词、匹配和统计,有效地分析出用户的各种爱好兴趣度。 展开更多
关键词 微博内容 数据挖掘 兴趣分类 微博营销 分词
下载PDF
用数据挖掘技术构建政府智能化网络投诉平台 被引量:3
20
作者 田卉 《办公自动化(综合月刊)》 2009年第9期13-14,共2页
本文提出了以聚类分析为代表的数据挖掘技术对政府决策智能化的支持作用,并分析了一个聚类分析方法在政府网络投诉管理方面的应用实例。
关键词 数据挖掘 分词 决策支持
下载PDF
上一页 1 2 下一页 到第
使用帮助 返回顶部