期刊文献+
共找到58篇文章
< 1 2 3 >
每页显示 20 50 100
Smart Approaches to Efficient Text Mining for Categorizing Sexual Reproductive Health Short Messages into Key Themes
1
作者 Tobias Makai Mayumbo Nyirenda 《Open Journal of Applied Sciences》 2024年第2期511-532,共22页
To promote behavioral change among adolescents in Zambia, the National HIV/AIDS/STI/TB Council, in collaboration with UNICEF, developed the Zambia U-Report platform. This platform provides young people with improved a... To promote behavioral change among adolescents in Zambia, the National HIV/AIDS/STI/TB Council, in collaboration with UNICEF, developed the Zambia U-Report platform. This platform provides young people with improved access to information on various Sexual Reproductive Health topics through Short Messaging Service (SMS) messages. Over the years, the platform has accumulated millions of incoming and outgoing messages, which need to be categorized into key thematic areas for better tracking of sexual reproductive health knowledge gaps among young people. The current manual categorization process of these text messages is inefficient and time-consuming and this study aims to automate the process for improved analysis using text-mining techniques. Firstly, the study investigates the current text message categorization process and identifies a list of categories adopted by counselors over time which are then used to build and train a categorization model. Secondly, the study presents a proof of concept tool that automates the categorization of U-report messages into key thematic areas using the developed categorization model. Finally, it compares the performance and effectiveness of the developed proof of concept tool against the manual system. The study used a dataset comprising 206,625 text messages. The current process would take roughly 2.82 years to categorise this dataset whereas the trained SVM model would require only 6.4 minutes while achieving an accuracy of 70.4% demonstrating that the automated method is significantly faster, more scalable, and consistent when compared to the current manual categorization. These advantages make the SVM model a more efficient and effective tool for categorizing large unstructured text datasets. These results and the proof-of-concept tool developed demonstrate the potential for enhancing the efficiency and accuracy of message categorization on the Zambia U-report platform and other similar text messages-based platforms. 展开更多
关键词 knowledge discovery in text (kdt) Sexual Reproductive Health (SRH) text Categorization text Classification text Extraction text Mining Feature Extraction Automated Classification Process Performance Stemming and Lemmatization Natural Language Processing (NLP)
下载PDF
Rediscovering Don Swanson:The Past,Present and Future of Literature-based Discovery 被引量:7
2
作者 Neil R.Smalheiser 《Journal of Data and Information Science》 CSCD 2017年第4期43-64,共22页
Purpose: The late Don R. Swanson was well appreciated during his lifetime as Dean of the Graduate Library School at University of Chicago, as winner of the American Society for Information Science Award of Merit for ... Purpose: The late Don R. Swanson was well appreciated during his lifetime as Dean of the Graduate Library School at University of Chicago, as winner of the American Society for Information Science Award of Merit for 2000, and as author of many seminal articles. In this informal essay, I will give my personal perspective on Don's contributions to science, and outline some current and future directions in literature-based discovery that are rooted in concepts that he developed.Design/methodology/approach: Personal recollections and literature review. Findings: The Swanson A-B-C model of literature-based discovery has been successfully used by laboratory investigators analyzing their findings and hypotheses. It continues to be a fertile area of research in a wide range of application areas including text mining, drug repurposing, studies of scientific innovation, knowledge discovery in databases, and bioinformatics. Recently, additional modes of discovery that do not follow the A-B-C model have also been proposed and explored (e.g. so-called storytelling, gaps, analogies, link prediction, negative consensus, outliers, and revival of neglected or discarded research questions). Research limitations: This paper reflects the opinions of the author and is not a comprehensive nor technically based review of literature-based discovery. Practical implications: The general scientific public is still not aware of the availability of tools for literature-based discovery. Our Arrowsmith project site maintains a suite of discovery tools that are free and open to the public (http://arrowsmith.psych.uic.edu), as does BITOLA which is maintained by Dmitar Hristovski (http:// http://ibmi.mf.uni-lj.si/bitola), and Epiphanet which is maintained by Trevor Cohen (http://epiphanet.uth.tme.edu/). Bringing user-friendly tools to the public should be a high priority, since even more than advancing basic research in informatics, it is vital that we ensure that scientists actually use discovery tools and that these are actually able to help them make experimental discoveries in the lab and in the clinic. Originality/value: This paper discusses problems and issues which were inherent in Don's thoughts during his life, including those which have not yet been fully taken up and studied systematically. 展开更多
关键词 Literature-based discovery BIOGRAPHY text mining knowledge discovery indatabases Implicit information information science
下载PDF
建设工程事故文本的知识发现:以PPE类不安全行为为例
3
作者 吴迪 贾心雨 +2 位作者 韩博雯 张先锋 郭聖煜 《工程管理学报》 2024年第5期131-136,共6页
为了丰富建设工程领域的安全知识,从事故文本中挖掘和发现施工人员的不安全行为,以个人防护用品PPE类不安全行为为例,采用基于规则的自然语言处理方法,从事故文本中自动抽取此类不安全行为。从政府官网等收集195份建设工程事故调查报告... 为了丰富建设工程领域的安全知识,从事故文本中挖掘和发现施工人员的不安全行为,以个人防护用品PPE类不安全行为为例,采用基于规则的自然语言处理方法,从事故文本中自动抽取此类不安全行为。从政府官网等收集195份建设工程事故调查报告作为文本挖掘语料,通过哈尔滨工业大学的语言技术平台LTP展开词法分析和依存句法分析,构建PPE类不安全行为的11条抽取规则并确定抽取流程。再以网络爬虫收集的427份事故调查报告展开实例应用,按照流程自动抽取PPE类不安全行为。结果表明:平均抽取准确率为94.70%,召回率为67.57%。研究能够为建设工程事故文本的知识发现提供理论启示和实践路径。 展开更多
关键词 知识发现 事故文本 PPE类不安全行为 自然语言处理
下载PDF
学科交叉知识挖掘模型研究 被引量:25
4
作者 魏建香 孙越泓 苏新宁 《情报理论与实践》 CSSCI 北大核心 2012年第4期76-80,共5页
为揭示学科之间的交叉知识,提出一种基于文本挖掘的学科交叉知识发现模型。构建了学科交叉文献发现模型与学科交叉知识发掘模型,从学科交叉点和新的增长点两个方面来揭示学科之间的交叉关系,并通过近10年来情报学与计算机科学两个学科... 为揭示学科之间的交叉知识,提出一种基于文本挖掘的学科交叉知识发现模型。构建了学科交叉文献发现模型与学科交叉知识发掘模型,从学科交叉点和新的增长点两个方面来揭示学科之间的交叉关系,并通过近10年来情报学与计算机科学两个学科文献数据进行了实例验证。 展开更多
关键词 学科交叉 知识挖掘 文本挖掘 知识发现 模型
下载PDF
文本挖掘、数据挖掘和知识管理——二十一世纪的智能信息处理 被引量:63
5
作者 韩客松 王永成 《情报学报》 CSSCI 北大核心 2001年第1期100-104,共5页
本文首先介绍了数据挖掘、文本挖掘和知识管理等概念 ,然后从技术角度出发 ,将知识管理划分为知识库、知识共享和知识发现三个阶段 ,分析了作为最高阶段的知识发现的关键技术和意义 。
关键词 文本挖掘 数据挖掘 知识管理 知识发现 智能信息处理 搜索引擎 挖掘引擎
下载PDF
基于非相关文献的知识发现原理研究 被引量:36
6
作者 安新颖 冷伏海 《情报学报》 CSSCI 北大核心 2006年第1期87-93,共7页
从Swanson最早提出非相关文献的知识发现方法开始到现在,很多研究人员都投入到这个新兴的领域中去.概括起来分为以下几种方法:基于单词的词频统计方法、基于短语的词频统计方法、基于概念的知识发现方法、基于概念的词频统计方法,... 从Swanson最早提出非相关文献的知识发现方法开始到现在,很多研究人员都投入到这个新兴的领域中去.概括起来分为以下几种方法:基于单词的词频统计方法、基于短语的词频统计方法、基于概念的知识发现方法、基于概念的词频统计方法,本文详细介绍了这些方法基本原理,并对其进行了简单的比较分析。 展开更多
关键词 知识发现 文本数据挖掘 知识抽取 非相关文献 共现
下载PDF
文本挖掘及其关键技术与方法 被引量:42
7
作者 王丽坤 王宏 陆玉昌 《计算机科学》 CSCD 北大核心 2002年第12期12-19,共8页
With the dramatically development of Internet, the information processing and management technology onWWW have become a great important branch of data mining and data warehouse. Especially, nowadays, Text Miningis mar... With the dramatically development of Internet, the information processing and management technology onWWW have become a great important branch of data mining and data warehouse. Especially, nowadays, Text Miningis marvelously emerging and plays an important role in interrelated fields. So it is worth summarizing the contentabout text mining from its definition to relational methods and techniques. In this paper, combined to comparativelymature data mining technology, we present the definition of text mining and the multi-stage text mining process mod-el. Moreover, this paper roundly introduces the key areas of text mining and some of the powerful text analysis tech-niques, including: Word Automatic Segmenting, Feature Representation, Feature Extraction, Text Categorization,Text Clustering, Text Summarization, Information Extraction, Pattern Quality Evaluation, etc. These techniquescover the whole process from information preprocessing to knowledge obtaining. 展开更多
关键词 文本挖掘 数据挖掘 知识发现 数据处理 数据库
下载PDF
文本知识发现:基于信息抽取的文本挖掘 被引量:32
8
作者 周雪忠 吴朝晖 《计算机科学》 CSCD 北大核心 2003年第1期63-66,共4页
1.引言大家熟知,所谓“数据丰富但知识缺乏“的现状导致了数据挖掘(Data Mining)技术研究的兴起,数据挖掘又称数据库知识发现(Knowledge Discovery in Databases)是从海量的结构化信息中抽取或挖掘隐含信息和知识的重要方法和途径。数... 1.引言大家熟知,所谓“数据丰富但知识缺乏“的现状导致了数据挖掘(Data Mining)技术研究的兴起,数据挖掘又称数据库知识发现(Knowledge Discovery in Databases)是从海量的结构化信息中抽取或挖掘隐含信息和知识的重要方法和途径。数据挖掘技术已相当成熟。因为除了结构化的数据之外,在数字化信息中更多地存在大量自由、非结构化或半结构化的文本信息如新闻文章、电子书本、电子图书馆藏、Web页面内容、Email、文档数据库等,显然手工处理需要花费大量的人力物力,并且具有不确定性。 展开更多
关键词 文本知识发现 信息抽取 文本挖掘 数据库 数据挖掘
下载PDF
文本可视化及其主要技术方法研究 被引量:25
9
作者 赵琦 张智雄 孙坦 《现代图书情报技术》 CSSCI 北大核心 2008年第8期24-30,共7页
文本可视化是通过对文本资源的分析,发现特定信息,并利用计算机技术将其以图形化方式呈现来的一种方法。通过分析文本可视化典型系统,分析现今的文本可视化的特点。并从基于词汇、基于篇章、基于时间序列、基于主题领域4种不同的文本可... 文本可视化是通过对文本资源的分析,发现特定信息,并利用计算机技术将其以图形化方式呈现来的一种方法。通过分析文本可视化典型系统,分析现今的文本可视化的特点。并从基于词汇、基于篇章、基于时间序列、基于主题领域4种不同的文本可视化方式入手来分析其的主要技术方法。最后探讨文本可视化如何在信息环境下发挥作用。 展开更多
关键词 文本可视化 知识表示 主题发现
下载PDF
生物医学文献知识发现研究探讨及展望 被引量:12
10
作者 周雪忠 吴朝晖 刘保延 《复杂系统与复杂性科学》 EI CSCD 2004年第3期45-55,共11页
采用文本挖掘技术处理海量生物医学科技文献和文本注释型数据库 ,从而发现创新知识如基因、蛋白质、疾病、药物及其相互关系的研究是当前人工智能和数据挖掘领域研究的热点。本文对生物医学文献知识发现的研究内容、研究成果以及基于文... 采用文本挖掘技术处理海量生物医学科技文献和文本注释型数据库 ,从而发现创新知识如基因、蛋白质、疾病、药物及其相互关系的研究是当前人工智能和数据挖掘领域研究的热点。本文对生物医学文献知识发现的研究内容、研究成果以及基于文本挖掘的关键技术诸方面进行了系统的分析和阐述。通过分析中医药学数据的特点 ,提出了基于文本挖掘的中医证候分子生物学知识发现研究 ,该方法的特点是综合利用中医药学文献和MEDLINE ,能够获得创新的证候与基因相关知识。初步实验表明 ,文本挖掘技术有望为证候的分子水平研究提供辅助和支撑手段。 展开更多
关键词 生物医学文献 知识发现 数据库 数据挖掘 文本挖掘 中医药
下载PDF
基于文本挖掘的乙型肝炎相关文献知识图谱分析 被引量:11
11
作者 刘俊丽 张秀梅 蒋勇青 《医学信息学杂志》 CAS 2014年第1期48-53,共6页
以2010-2012年万方医学网收录的乙肝领域国内核心期刊文献为数据源,采用文本挖掘技术,进行数据清洗、实体抽取、构建共词矩阵并绘制该领域的知识图谱。结果表明该方法适用于生物医学领域知识发现,能够为医疗工作者提供有价值的信息。
关键词 文本挖掘 乙型肝炎 知识图谱 知识发现
下载PDF
基于复杂关联网络的生物医学研究结构的挖掘 被引量:5
12
作者 闵波 刘爱中 +2 位作者 郑萍 史艳莉 唐春霞 《中华医学图书情报杂志》 CAS 2015年第8期1-4,共4页
基于免费开放的Pub Med文献数据集,利用文献的知识发现,通过挖掘文献中隐含的关联,构建了生物医学实体关联演化网络。它能帮助科研人员形成新的科学假设,分析关联网络的拓扑特征,从系统层面上研究科学文献富集的知识结构、相关性与发展... 基于免费开放的Pub Med文献数据集,利用文献的知识发现,通过挖掘文献中隐含的关联,构建了生物医学实体关联演化网络。它能帮助科研人员形成新的科学假设,分析关联网络的拓扑特征,从系统层面上研究科学文献富集的知识结构、相关性与发展规律,为文献的知识发现引入新的视角与方法,提高知识发现的效率。 展开更多
关键词 复杂网络 文本挖掘 知识发现 关联知识网络
下载PDF
知识发现及其发展趋势研究 被引量:18
13
作者 孙吉红 焦玉英 《情报理论与实践》 CSSCI 北大核心 2006年第5期528-530,527,共4页
随着计算机和信息科学技术的迅速发展,知识发现作为一门新学科引起了普遍的关注。本文介绍了知识发现的定义、任务、过程和技术,最后描述了知识发现的发展趋势。
关键词 知识发现 文本挖掘 发展趋势
下载PDF
Web文本挖掘系统及其分类算法的研究与实现 被引量:10
14
作者 沈记全 唐菁 杨炳儒 《计算机工程》 CAS CSCD 北大核心 2003年第17期37-39,共3页
介绍了Web文本挖掘系统WTMS的系统总体结构图,实现了其核心算法——基于距离测度函数的分类算法。同时结合现代远程教育背景实现了Web文本挖掘的原型系统。该系统可以对各类远程教育站点上收集的文本资料信息自动进行分类挖掘,从而帮... 介绍了Web文本挖掘系统WTMS的系统总体结构图,实现了其核心算法——基于距离测度函数的分类算法。同时结合现代远程教育背景实现了Web文本挖掘的原型系统。该系统可以对各类远程教育站点上收集的文本资料信息自动进行分类挖掘,从而帮助人们快速进行文本信息导航,获取重要的知识。 展开更多
关键词 WEB文本挖掘 知识发现 文本分类 信息导航
下载PDF
基于文献的知识发现的应用进展研究 被引量:47
15
作者 张树良 冷伏海 《情报学报》 CSSCI 北大核心 2006年第6期700-712,共13页
本文在对共词分析、共引分析理论、Swanson理论以及文本挖掘理论应用进展进行系统研究的基础上,将分别基于上述理论的基于相关文献发现、基于非相关文献发现和基于全文献发现统一整合于“基于文献知识发现”之下。构建起完整的基于文... 本文在对共词分析、共引分析理论、Swanson理论以及文本挖掘理论应用进展进行系统研究的基础上,将分别基于上述理论的基于相关文献发现、基于非相关文献发现和基于全文献发现统一整合于“基于文献知识发现”之下。构建起完整的基于文献知识发现的方法与应用研究体系,同时分析了其应用前景。 展开更多
关键词 知识发现 基于文献发现 共词分析 共引分析 相关文献 非相关文献 全文献 文本挖掘 应用研究
下载PDF
中文文本解构与知识发现研究 被引量:7
16
作者 文庭孝 刘晓英 《图书与情报》 CSSCI 北大核心 2009年第3期86-88,139,共4页
中文文本是一个结构化的、综合性的信息和知识集合体,对中文文本的结构和特征进行分析,并对文本结构中所包含的各类要素进行分析,或重新排列和组织,以便发现文本中蕴含的知识和信息,是文本知识发现的重要途径之一。文章通过对中文文本... 中文文本是一个结构化的、综合性的信息和知识集合体,对中文文本的结构和特征进行分析,并对文本结构中所包含的各类要素进行分析,或重新排列和组织,以便发现文本中蕴含的知识和信息,是文本知识发现的重要途径之一。文章通过对中文文本的基本结构、主要特征、知识来源、知识组织等的探讨,以期达到文本知识发现的目的。 展开更多
关键词 中文文本 结构分析 文本分析 知识发现
下载PDF
基于非相关文献知识发现中的文本挖掘研究 被引量:9
17
作者 张云秋 冷伏海 《情报理论与实践》 CSSCI 北大核心 2007年第2期194-197,共4页
文本挖掘是基于非相关文献知识发现的核心。本文将文本挖掘的过程细化为从文献源到初始文献集子过程,从初始文献集到中间词集子过程,从中间词集到关联词集子过程。并对每一个子过程中所使用的方法进行分析比较。在此基础上对文本挖掘存... 文本挖掘是基于非相关文献知识发现的核心。本文将文本挖掘的过程细化为从文献源到初始文献集子过程,从初始文献集到中间词集子过程,从中间词集到关联词集子过程。并对每一个子过程中所使用的方法进行分析比较。在此基础上对文本挖掘存在的问题进行分析,并提出改进方法。 展开更多
关键词 知识发现 文本挖掘 非相关文献
下载PDF
文本挖掘在中医药文献分析中的应用 被引量:9
18
作者 杨进 罗漫 张启蕊 《广东药学院学报》 CAS 2010年第2期216-220,共5页
文本挖掘能从海量的中医药文献中发现知识以促进中医临床研究和中药研发。本文总结现有研究指出文本分类和信息抽取是中医药文献知识发现的关键技术,指出中医药文本分类、非关联知识发现和中医药文献信息抽取为三个主要研究方向,并论述... 文本挖掘能从海量的中医药文献中发现知识以促进中医临床研究和中药研发。本文总结现有研究指出文本分类和信息抽取是中医药文献知识发现的关键技术,指出中医药文本分类、非关联知识发现和中医药文献信息抽取为三个主要研究方向,并论述了三个研究领域中需解决的关键问题和研究方向,最后展望文本挖掘在中医药学科的应用前景,指出非关联文献知识将成为中西医结合研究的热点。 展开更多
关键词 文本挖掘 中医药文献 文本分类 信息抽取 非相关文献知识发现
下载PDF
基于论文与专利整合数据的研究方向发现模型研究 被引量:8
19
作者 任智军 詹淑琳 范婷婷 《情报工程》 2015年第4期88-94,共7页
海量信息分析及基于分析结果得出相应的结论是一项非常重要的工作,该工作需要投入大量的时间和精力。本文涉及了基于论文与专利整合数据的研究方向发现模型,从论文和专利共同研究方向和新兴技术两个方面来揭示论文和专利之间关系,最后,... 海量信息分析及基于分析结果得出相应的结论是一项非常重要的工作,该工作需要投入大量的时间和精力。本文涉及了基于论文与专利整合数据的研究方向发现模型,从论文和专利共同研究方向和新兴技术两个方面来揭示论文和专利之间关系,最后,我们对电动汽车论文和专利数据进行了实例验证。 展开更多
关键词 论文 专利 知识挖掘 文本挖掘 知识发现
下载PDF
基于项权值变化的矩阵加权关联规则挖掘 被引量:9
20
作者 周秀梅 黄名选 《计算机应用研究》 CSCD 北大核心 2015年第10期2918-2923,2929,共7页
提出一种矩阵加权关联模式支持度计算方法及其相关定理,给出矩阵加权项集剪枝策略,基于该剪枝策略提出一种基于项权值变化的矩阵加权关联规则挖掘算法MWAR-Miner(matrix-weighted association rules-miner)。该算法克服现有的项无加权... 提出一种矩阵加权关联模式支持度计算方法及其相关定理,给出矩阵加权项集剪枝策略,基于该剪枝策略提出一种基于项权值变化的矩阵加权关联规则挖掘算法MWAR-Miner(matrix-weighted association rules-miner)。该算法克服现有的项无加权和项权值固定条件下挖掘关联规则的缺陷,采用新的剪枝技术和模式支持度计算方法挖掘有效的矩阵加权关联规则,避免无效的和无趣的模式产生。以中文数据集CWT200g和英文数据集NTCIR-5为实验数据,理论分析和实验结果表明,与现有矩阵加权模式挖掘算法和基于无加权的挖掘算法比较,该算法挖掘的候选项集数量和挖掘时间明显减少,挖掘效率得到极大提高。 展开更多
关键词 文本挖掘 矩阵加权关联规则 频繁项集 知识发现
下载PDF
上一页 1 2 3 下一页 到第
使用帮助 返回顶部