期刊文献+
共找到37篇文章
< 1 2 >
每页显示 20 50 100
A Survey of Web Information System and Applications
1
作者 HAN Yanbo LI Juanzi +3 位作者 YANG Nan LIU Qing XU Baowen MENG Xiaofeng 《Wuhan University Journal of Natural Sciences》 CAS 2007年第5期769-772,共4页
The fourth international conference on Web information systems and applications (WISA 2007) has received 409 submissions and has accepted 37 papers for publication in this issue. The papers cover broad research area... The fourth international conference on Web information systems and applications (WISA 2007) has received 409 submissions and has accepted 37 papers for publication in this issue. The papers cover broad research areas, including Web mining and data warehouse, Deep Web and Web integration, P2P networks, text processing and information retrieval, as well as Web Services and Web infrastructure. After briefly introducing the WISA conference, the survey outlines the current activities and future trends concerning Web information systems and applications based on the papers accepted for publication. 展开更多
关键词 Web mining data warehouse Deep Web Web integration Web services P2P computing text processing information retrieval Web security
下载PDF
Contextual Text Mining Framework for Unstructured Textual Judicial Corpora through Ontologies
2
作者 Zubair Nabi Ramzan Talib +1 位作者 Muhammad Kashif Hanif Muhammad Awais 《Computer Systems Science & Engineering》 SCIE EI 2022年第12期1357-1374,共18页
Digitalization has changed the way of information processing, and newtechniques of legal data processing are evolving. Text mining helps to analyze andsearch different court cases available in the form of digital text... Digitalization has changed the way of information processing, and newtechniques of legal data processing are evolving. Text mining helps to analyze andsearch different court cases available in the form of digital text documents toextract case reasoning and related data. This sort of case processing helps professionals and researchers to refer the previous case with more accuracy in reducedtime. The rapid development of judicial ontologies seems to deliver interestingproblem solving to legal knowledge formalization. Mining context informationthrough ontologies from corpora is a challenging and interesting field. Thisresearch paper presents a three tier contextual text mining framework throughontologies for judicial corpora. This framework comprises on the judicial corpus,text mining processing resources and ontologies for mining contextual text fromcorpora to make text and data mining more reliable and fast. A top-down ontologyconstruction approach has been adopted in this paper. The judicial corpus hasbeen selected with a sufficient dataset to process and evaluate the results.The experimental results and evaluations show significant improvements incomparison with the available techniques. 展开更多
关键词 Natural language processing judicial corpora contextual text mining ontologies information extraction information retrieval
下载PDF
基于特定领域的中文微博热点话题挖掘系统BTopicMiner 被引量:26
3
作者 李劲 张华 +1 位作者 吴浩雄 向军 《计算机应用》 CSCD 北大核心 2012年第8期2346-2349,共4页
随着微博应用的迅猛发展,自动地从海量微博信息中提取出用户感兴趣的热点话题成为一个具有挑战性的研究课题。为此研究并提出了基于扩展的话题模型的中文微博热点话题抽取算法。为了解决微博信息固有的数据稀疏性问题,算法首先利用文本... 随着微博应用的迅猛发展,自动地从海量微博信息中提取出用户感兴趣的热点话题成为一个具有挑战性的研究课题。为此研究并提出了基于扩展的话题模型的中文微博热点话题抽取算法。为了解决微博信息固有的数据稀疏性问题,算法首先利用文本聚类方法将内容相关的微博消息合成为微博文档;基于微博之间的跟帖关系蕴含着话题的关联性的假设,算法对传统潜在狄利克雷分配(LDA)话题模型进行扩展以建模微博之间的跟帖关系;最后利用互信息(MI)计算被抽取出的话题的话题词汇用于热点话题推荐。为了验证扩展的话题抽取模型的有效性,实现了一个基于特定领域的中文微博热点话题挖掘的原型系统——BTopicMiner。实验结果表明:基于微博跟帖关系的扩展话题模型可以更准确地自动提取微博中的热点话题,同时利用MI度量自动计算得到的话题词汇和人工挑选的热点词汇之间的语义相似度达到75%以上。 展开更多
关键词 数据挖掘 信息检索 微博 话题模型 文本聚类 互信息
下载PDF
A Hybrid Algorithm for Stemming of Nepali Text
4
作者 Chiranjibi Sitaula 《Intelligent Information Management》 2013年第4期136-139,共4页
In this paper, a new context free stemmer is proposed which consists of the combination of traditional rule based system with string similarity approach. This algorithm can be called as hybrid algorithm. It is languag... In this paper, a new context free stemmer is proposed which consists of the combination of traditional rule based system with string similarity approach. This algorithm can be called as hybrid algorithm. It is language dependent algorithm. Context free stemmer means that stemmer which stems the word that is not based on the context i.e., for every context such rule is applied. After stripping the words using traditional context free rule based approach, it may over stem or under stem the inflected words which are overcome by applying string similarity function of dynamic programming. For measuring the string similarity function, edit distance is used. The stripped inflected word is compared with the words stored in a text database available. That word having minimum distance is taken as the substitution of the stripped inflected word which leads to the stem of it. The concept of traditional rule based system and corpus based approach is heavily used in this approach. This algorithm is tested for Nepali Language which is based on Devanagari Script. The approach has given better result in comparison to traditional rule based system particularly for Nepali Language only. The total accuracy of this hybrid algorithm is 70.10% whereas the total accuracy of traditional rule based system is 68.43%. 展开更多
关键词 STRING SIMILARITY information retrieval text mining Natural Language Processing Dynamic PROGRAMMING
下载PDF
基于概率推理模型的博客倾向性检索研究 被引量:14
5
作者 廖祥文 曹冬林 +2 位作者 方滨兴 许洪波 程学旗 《计算机研究与发展》 EI CSCD 北大核心 2009年第9期1530-1536,共7页
近年来博客作为一种新兴的大众化新闻发布媒介越来越受到人们和业界的关注.博客之间通过互相引用、互相推荐形成一个巨大的博客空间.在博客空间中,人们既可以自由发表对现实生活各种问题的观点,表达自己的情感,也可以对市场上出现的新... 近年来博客作为一种新兴的大众化新闻发布媒介越来越受到人们和业界的关注.博客之间通过互相引用、互相推荐形成一个巨大的博客空间.在博客空间中,人们既可以自由发表对现实生活各种问题的观点,表达自己的情感,也可以对市场上出现的新产品进行评论.准确检索出博客空间中人们对重要话题、热点事件的观点看法对市场调研、网络舆情发现与预警等应用有重要意义.博客倾向性检索的目标是检索出与给定查询既要主题相关又要有与该查询相关评论的博文.为实现该目标,把概率推理模型应用于博客倾向性检索中,提出一个基于概率推理模型的博客倾向性检索算法.该算法把主题相关性评分和倾向性评分合并到一个统一的概率推理理论模型,能够有效计算博文中出现的主题描述与查询的主题相关性,合理度量倾向性词描述查询主题的倾向性强弱,并融合二者分数形成最后整体评分.实验表明,该算法能够有效地识别博客空间中与给定查询相关的观点,获得较好的结果. 展开更多
关键词 博客 倾向性检索 概率推理模型 信息检索 文本挖掘
下载PDF
基于社会标注质量的文本分类模型框架 被引量:5
6
作者 李劲 张华 +2 位作者 吴浩雄 向军 辜希武 《计算机应用》 CSCD 北大核心 2012年第5期1335-1339,共5页
社会标注是一种用户对网络资源的大众分类,蕴含了丰富的语义信息,因此将社会标注应用到信息检索技术中有助于提高信息检索的质量。研究了一种基于社会标注的文本分类改进算法以提高网页分类的效果。由于社会标注属于大众分类,标注的产... 社会标注是一种用户对网络资源的大众分类,蕴含了丰富的语义信息,因此将社会标注应用到信息检索技术中有助于提高信息检索的质量。研究了一种基于社会标注的文本分类改进算法以提高网页分类的效果。由于社会标注属于大众分类,标注的产生具有很大的随意性,标注的质量差别很大,因此首先利用文档间的语义相似度以及标注间的语义相似度来对标注的质量进行量化评估。在此基础上对标注进行质量过滤,利用质量相对较好的标注对文档向量空间模型进行扩展,将文档表示成由文档单词以及文档标注信息组成的扩展向量。同时采用支持向量机分类算法进行分类实验。实验结果表明,通过对标注进行质量评估并过滤质量差的标注,同时结合文档内容以及标注来对文档能提高分类的效果,同传统的基于文档内容的分类算法相比,分类结果的F1度量值提高了6.2%。 展开更多
关键词 社会标注 向量空间模型 文本分类 信息检索 数据挖掘
下载PDF
基于本体的Web文本挖掘与信息检索 被引量:8
7
作者 艾伟 孙四明 张峰 《计算机工程》 CAS CSCD 北大核心 2010年第22期75-77,80,共4页
针对传统Web文本挖掘技术缺少语义理解能力的不足,提出并实现一种基于本体的Web文本挖掘模型,即利用基于本体概念体系的向量空间模型替代传统的向量空间模型来表示文档,在此基础上进行Web文本挖掘,并给出一种集成语义信息检索的设计。... 针对传统Web文本挖掘技术缺少语义理解能力的不足,提出并实现一种基于本体的Web文本挖掘模型,即利用基于本体概念体系的向量空间模型替代传统的向量空间模型来表示文档,在此基础上进行Web文本挖掘,并给出一种集成语义信息检索的设计。实验结果初步验证了本体模型在Web文本挖掘技术上应用的可行性。 展开更多
关键词 本体 WEB文本挖掘 向量空间模型 信息检索
下载PDF
利用文本挖掘实现Web智能服务 被引量:4
8
作者 卢正鼎 刘芳 路松峰 《小型微型计算机系统》 CSCD 北大核心 2001年第6期703-705,共3页
目前网络服务个人化成为人们关注的焦点 ,虽然各大型网站已推出个人化主页服务 ,但是仍存在需要改进的问题 ,首先是个人化网页的自动维护 ,其次是用户的需求信息存在不完全性 .本文通过一个具体应用——实现了 Web智能服务的技术文档检... 目前网络服务个人化成为人们关注的焦点 ,虽然各大型网站已推出个人化主页服务 ,但是仍存在需要改进的问题 ,首先是个人化网页的自动维护 ,其次是用户的需求信息存在不完全性 .本文通过一个具体应用——实现了 Web智能服务的技术文档检索系统 ,提出将文本挖掘与情报检索技术相结合解决上述问题 ,该系统能够根据用户兴趣自动生成及维护个人化网页 . 展开更多
关键词 文本挖掘 网络服务个人化 WEB 主页 WWW 情报检索
下载PDF
基于项权值排序挖掘的跨语言查询扩展 被引量:11
9
作者 黄名选 蒋曹清 《电子学报》 EI CAS CSCD 北大核心 2020年第3期568-576,共9页
为了改善自然语言处理应用中长期存在的主题漂移和词不匹配问题,本文首先提出一种加权项集支持度计算方法和基于项权值排序的剪枝方法,给出面向查询扩展的基于项权值排序的加权关联规则挖掘算法,讨论关联规则混合扩展、后件扩展和前件... 为了改善自然语言处理应用中长期存在的主题漂移和词不匹配问题,本文首先提出一种加权项集支持度计算方法和基于项权值排序的剪枝方法,给出面向查询扩展的基于项权值排序的加权关联规则挖掘算法,讨论关联规则混合扩展、后件扩展和前件扩展模型,最后提出基于项权值排序挖掘的跨语言查询扩展算法.该算法采用新的支持度和剪枝策略挖掘加权关联规则,根据扩展模型从规则中提取高质量扩展词实现跨语言查询扩展.实验结果表明,与现有基于加权关联规则挖掘的跨语言扩展算法比较,本文扩展算法能有效遏制查询主题漂移和词不匹配问题,可用于各种语言的信息检索以改善检索性能,扩展模型中后件扩展获得最优检索性能,混合扩展的检索性能不如后件扩展和前件扩展,支持度对后件扩展更有效,置信度更有利于提升前件扩展和混合扩展的检索性能.本文挖掘方法可用于文本挖掘、商务数据挖掘和推荐系统以提高其挖掘性能. 展开更多
关键词 自然语言处理 文本挖掘 信息检索 跨语言检索 查询扩展 推荐系统
下载PDF
基于完全加权正负关联模式挖掘的越-英跨语言查询译后扩展 被引量:11
10
作者 黄名选 蒋曹清 《电子学报》 EI CAS CSCD 北大核心 2018年第12期3029-3036,共8页
主题漂移和词不匹配是自然语言处理中一个难题,文本挖掘与信息检索的结合有助于解决该问题.鉴于此,本文提出一种基于完全加权正负关联模式挖掘的越-英跨语言查询译后扩展算法.该算法采用新的完全加权正负项集支持度和关联度计算方法以... 主题漂移和词不匹配是自然语言处理中一个难题,文本挖掘与信息检索的结合有助于解决该问题.鉴于此,本文提出一种基于完全加权正负关联模式挖掘的越-英跨语言查询译后扩展算法.该算法采用新的完全加权正负项集支持度和关联度计算方法以及模式评价框架,对初检用户相关反馈文档集挖掘与原查询词相关的正负关联模式,从模式中提取扩展词实现跨语言查询译后扩展.与现有基于伪相关反馈、加权关联模式挖掘的跨语言扩展算法比较,本文算法能有效地减少查询主题漂移和词不匹配问题,提高跨语言信息检索性能;本文模式挖掘方法可用于推荐系统,提高其准确性. 展开更多
关键词 自然语言处理 信息检索 文本挖掘 模式挖掘 查询扩展 推荐系统
下载PDF
中文Web检索中聚类算法的改进 被引量:9
11
作者 耿玉良 陈家琪 王咏梅 《计算机工程与设计》 CSCD 北大核心 2005年第10期2685-2687,共3页
对基于混合相似度的HTFC算法进行改进,要做的预处理是:建立向量空间模型,计算文档和链接的混合相似度。算法过程是:首先随机选取√kn个文档进行层次聚类,直到剩k个聚簇为止;对这k个聚簇不断迭代直到集合元素不再变化为止;然后表示出每类... 对基于混合相似度的HTFC算法进行改进,要做的预处理是:建立向量空间模型,计算文档和链接的混合相似度。算法过程是:首先随机选取√kn个文档进行层次聚类,直到剩k个聚簇为止;对这k个聚簇不断迭代直到集合元素不再变化为止;然后表示出每类;最后通过用户对结果的反馈使得新生成的簇继续迭代,最终满足用户需求。算法第1步采用的是改进的k-means算法,可提高运行效率。反馈机制对原有模型进一步修正,从而提高精度。 展开更多
关键词 文本聚类算法 信息检索 WEB挖掘
下载PDF
生物信息学中的文本挖掘方法 被引量:2
12
作者 邹权 林琛 +1 位作者 刘晓燕 郭茂祖 《计算机工程与设计》 CSCD 北大核心 2011年第12期4075-4078,共4页
从两个角度讨论应用于生物信息学中的文本挖掘方法。以搜索生物知识为目标,利用文本挖掘方法进行文献检索,进而构建相关数据库,如在PubMed中挖掘蛋白质相互作用和基因疾病关系等知识。总结了可以应用文本挖掘技术的生物信息学问题,如蛋... 从两个角度讨论应用于生物信息学中的文本挖掘方法。以搜索生物知识为目标,利用文本挖掘方法进行文献检索,进而构建相关数据库,如在PubMed中挖掘蛋白质相互作用和基因疾病关系等知识。总结了可以应用文本挖掘技术的生物信息学问题,如蛋白质结构与功能的分析。探讨了文本挖掘研究者可以探索的生物信息学领域,以便更多的文本挖掘研究者可以将相关成果应用于生物信息学的研究中。 展开更多
关键词 生物信息学 文本挖掘 机器学习 蛋白质相互作用 文献检索
下载PDF
基于数字纸张的信息检索和数据挖掘技术 被引量:6
13
作者 施水才 孙丽华 《现代图书情报技术》 CSSCI 北大核心 2005年第1期9-11,共3页
随着数字纸张概念的提出和相关产业的日益发展,基于数字纸张的应用需求日益迫切,满足这些 应用的软件解决方案中的一个核心内容就是数字纸张的内容管理,其中最基本最核心的两项技术是信息检索 技术和数据挖掘技术,本文重点地阐述了这两... 随着数字纸张概念的提出和相关产业的日益发展,基于数字纸张的应用需求日益迫切,满足这些 应用的软件解决方案中的一个核心内容就是数字纸张的内容管理,其中最基本最核心的两项技术是信息检索 技术和数据挖掘技术,本文重点地阐述了这两项技术的最新应用成果。 展开更多
关键词 数字纸张 信息检索 数据挖掘
下载PDF
文本挖掘技术在科技管理领域热点主题抽取方向的应用研究 被引量:5
14
作者 施韶亭 曹方 《计算机应用与软件》 CSCD 北大核心 2012年第7期109-111,140,共4页
科技管理领域热点主题抽取过程主要历经文本挖掘技术中的数据采集与清洗、信息抽取、主题分析三个阶段。其中,热点主题抽取采用TF-IDF信息抽取算法,主题聚类采用共现方法中的合并聚类。通过热点主题抽取、趋势分析和聚类分析,可以实现... 科技管理领域热点主题抽取过程主要历经文本挖掘技术中的数据采集与清洗、信息抽取、主题分析三个阶段。其中,热点主题抽取采用TF-IDF信息抽取算法,主题聚类采用共现方法中的合并聚类。通过热点主题抽取、趋势分析和聚类分析,可以实现领域热点工作的提前预测和科学决策,有助于推动政务领域信息的智能化和知识化。 展开更多
关键词 科技管理 文本挖掘 信息抽取
下载PDF
基于类别分布特征的快速文本分类方法 被引量:3
15
作者 杨林波 王士同 《计算机工程与设计》 CSCD 北大核心 2009年第5期1267-1269,1281,共4页
中心和边界是类别分布的重要特征。利用训练样本类别分布特征,提出了一种基于类别分布特征的快速文本分类算法。依据类别分布特征调整文本与类别的相似度,克服了数据集类别间样本分布不均衡和类别中样本密度不均的缺点,提高分类的性能... 中心和边界是类别分布的重要特征。利用训练样本类别分布特征,提出了一种基于类别分布特征的快速文本分类算法。依据类别分布特征调整文本与类别的相似度,克服了数据集类别间样本分布不均衡和类别中样本密度不均的缺点,提高分类的性能。实验结果表明,该算法提高了文本分类的效果,显示出了较好的鲁棒性,并显著提高了文本分类效率。 展开更多
关键词 文本挖掘 文本分类 分布特征 快速分类 信息检索
下载PDF
基于数据挖掘的面向话题搜索引擎研究 被引量:4
16
作者 陈勇 张佳骥 +1 位作者 吴立德 刘海娟 《无线电通信技术》 2011年第5期38-40,共3页
为了解决面向话题的搜索问题,提出一种新的面向话题的检索技术。首先分析了面向话题的搜索技术所面临的问题,然后基于数据挖掘技术提出了解决方案。利用数据挖掘技术抽取文本的多层次语义特征,形成对文本的多精度表示,抽取的特征不仅包... 为了解决面向话题的搜索问题,提出一种新的面向话题的检索技术。首先分析了面向话题的搜索技术所面临的问题,然后基于数据挖掘技术提出了解决方案。利用数据挖掘技术抽取文本的多层次语义特征,形成对文本的多精度表示,抽取的特征不仅包括单个词特征也包括多词特征。建立了一个示例检索系统,实验表明利用多层次文本特征能够很好地实现面向话题的文本检索。 展开更多
关键词 信息检索 数据挖掘 文本分析
下载PDF
试论文本挖掘及其应用 被引量:10
17
作者 肖建国 《图书馆学研究》 CSSCI 2008年第4期22-24,共3页
本文从文本挖掘的定义着手,分析了文本挖掘的过程,包括文本预处理,文本知识发现,文本模式的评价以及文本模式的呈现,并详细介绍了文本挖掘在主动信息服务、信息检索系统、专利信息分析等方面的应用。
关键词 文本挖掘 文本预处理 文本特征 主动信息服务 信息检索
下载PDF
基于最长顺序频繁词组的Web文献检索结构 被引量:1
18
作者 王大玲 于戈 鲍玉斌 《软件学报》 EI CSCD 北大核心 2006年第10期2096-2105,共10页
目前,大多数Web文献不能满足不同层次科研人员的查询要求.分析了这一问题产生的原因,提出建立辅助的Web文献检索结构以帮助用户更准确地获取所需文献的思想.基于该思想,设计了通过挖掘最长顺序频繁词组抽取文献特征的算法,提出了能够表... 目前,大多数Web文献不能满足不同层次科研人员的查询要求.分析了这一问题产生的原因,提出建立辅助的Web文献检索结构以帮助用户更准确地获取所需文献的思想.基于该思想,设计了通过挖掘最长顺序频繁词组抽取文献特征的算法,提出了能够表现特征之间、文献之间、特征与文献之间关系的扩展的特征层次树结构及其构建方法.实验表明,挖掘最长顺序频繁词组在抽取文献特征方面比常用的TFIDF具有更大的优势.理论分析说明,扩展的特征层次树具有压缩的存储结构、词组与文献关系的表现方式和更好的辅助检索功能. 展开更多
关键词 最长顺序频繁词组 扩展的特征层次树 特征抽取 文本挖掘 信息检索
下载PDF
基于因特网的信息检索特点与发展趋势 被引量:3
19
作者 赵慧勤 《情报理论与实践》 CSSCI 北大核心 2000年第5期381-382,371,共3页
Beginning with the characteristics of information resources on the Internet,this article discusses the characteristics of information retrieval on the Web and the development trend of the information retrieval based o... Beginning with the characteristics of information resources on the Internet,this article discusses the characteristics of information retrieval on the Web and the development trend of the information retrieval based on the Internet.The relationship and differences among traditional information retrieval,data mining and text mining are emphasized. 展开更多
关键词 因特网 信息检索 特点 文本挖掘 数据挖掘
下载PDF
关联模式挖掘与词向量学习融合的伪相关反馈查询扩展 被引量:4
20
作者 黄名选 《电子学报》 EI CAS CSCD 北大核心 2021年第7期1305-1313,共9页
针对自然语言处理中查询主题漂移和词不匹配问题,提出基于CSC(Copulas-based Support and Confidence)框架的关联模式挖掘与规则扩展算法,并将基于统计学分析的关联模式与具有上下文语义信息的词向量融合,提出关联模式挖掘与词向量学习... 针对自然语言处理中查询主题漂移和词不匹配问题,提出基于CSC(Copulas-based Support and Confidence)框架的关联模式挖掘与规则扩展算法,并将基于统计学分析的关联模式与具有上下文语义信息的词向量融合,提出关联模式挖掘与词向量学习融合的伪相关反馈查询扩展模型.该模型对伪相关反馈文档集挖掘规则扩展词,对初检文档集进行词嵌入学习训练得到词向量,计算规则扩展词与原查询的向量相似度,提取向量相似度不低于阈值的规则扩展词作为最终扩展词.实验结果表明,所提扩展模型能有效地减少查询主题漂移和词不匹配问题,提高检索性能,与现有基于关联模式的和基于词向量的查询扩展方法比较,MAP(Mean Average Precision)平均增幅最大可达17.52%,对短查询更有效.所提挖掘方法可用于其他文本挖掘任务和推荐系统,以提高其性能. 展开更多
关键词 自然语言处理 信息检索 文本挖掘 词嵌入 查询扩展
下载PDF
上一页 1 2 下一页 到第
使用帮助 返回顶部