期刊文献+
共找到15篇文章
< 1 >
每页显示 20 50 100
基于文本挖掘的计算机类招聘数据分析与可视化系统设计 被引量:1
1
作者 万好 谢叶康 段志应 《电脑与电信》 2023年第8期29-35,共7页
计算机技术更迭迅速,IT市场的用人需求也在快速变化,如何准确快速洞察市场对于人才的岗位需求和技能需求,对在校大学生和高校人才培养来说都非常重要。网络校园招聘信息更新快且市场需求趋势明显,是大学生人才招聘的重要形式。聚焦计算... 计算机技术更迭迅速,IT市场的用人需求也在快速变化,如何准确快速洞察市场对于人才的岗位需求和技能需求,对在校大学生和高校人才培养来说都非常重要。网络校园招聘信息更新快且市场需求趋势明显,是大学生人才招聘的重要形式。聚焦计算机类专业,对目前主流的招聘网站校园招聘数据进行爬取,采用jieba分词、LDA主题建模、词频分析等文本挖掘方法,对计算机类专业下的6大方向进行岗位和技能的统计分析,并实现系统的可视化展现。该系统支持数据的定时采集、更新和日志监测记录,能够有效服务高校和学生。 展开更多
关键词 网络招聘 数据爬取 文本挖掘 数据可视化 日志监测
下载PDF
基于微信推文内容视域下图书馆微信服务现状研究及建议 被引量:12
2
作者 王磊 吕鹏辉 《情报杂志》 CSSCI 北大核心 2017年第9期202-206,F0003,191,共7页
[目的/意义]从爬取的海量图书馆微信公众号推送文章出发,对微信推送文章的外部特征及高传播指数推文的文本内容进行了总结,以期能从微信公众号推文内容角度为国内图书馆提供参考与借鉴。[方法/过程]利用Python语言编写爬虫系统及各种计... [目的/意义]从爬取的海量图书馆微信公众号推送文章出发,对微信推送文章的外部特征及高传播指数推文的文本内容进行了总结,以期能从微信公众号推文内容角度为国内图书馆提供参考与借鉴。[方法/过程]利用Python语言编写爬虫系统及各种计算脚本,将获取的58个图书馆的12446条推文作为数据样本,结合微信传播指数WCI、单篇推文传播指数WACI以及高频词共现网络,分析了我国图书馆微信公众号推文现状、内容及问题。[结果/结论]各图书馆应主动应对微信公众号推文中存在的问题,应着力从制定考核指标、需求挖掘、创造热点等方面让推文有价值、有趣味、有温度。 展开更多
关键词 图书馆 微信 数据爬取 文本挖掘
下载PDF
基于质心向量的增量式主题爬行 被引量:4
3
作者 王辉 左万利 +3 位作者 王晖昱 宁爱军 孙志伟 满春雷 《计算机研究与发展》 EI CSCD 北大核心 2009年第2期217-224,共8页
研究如何在一个网页内部进行有选择的爬行.使用TFIDF-2模型以及Max,Ave,Sum三个启发式规则分别计算文档特征权重和质心特征权重,在此基础上构建与根集文档相对应的质心向量,利用它作为前端分类器指导主题爬行.使用前后端分类器分别给Fro... 研究如何在一个网页内部进行有选择的爬行.使用TFIDF-2模型以及Max,Ave,Sum三个启发式规则分别计算文档特征权重和质心特征权重,在此基础上构建与根集文档相对应的质心向量,利用它作为前端分类器指导主题爬行.使用前后端分类器分别给Frontier中的各个锚文本打分,将它们的打分求和,从中选择打分最高的链接,下载其对应的网页.实验结果表明,在质心向量的指导下,爬行程序借助于锚文本便可以准确地预测链接所指向网页的相关性;另外,双分类器框架还使得爬行策略具有增量爬行的能力. 展开更多
关键词 文档特征权重 质心特征权重 主题爬行 锚文本 质心向量
下载PDF
基于文本挖掘的峨眉山风景区旅游形象感知 被引量:10
4
作者 庄小丽 程仕菊 常雪萍 《国土资源科技管理》 2020年第1期106-117,共12页
随着信息技术不断发展,社交网络逐渐普及,新技术可以更有效地研究游客对景区旅游形象的感知。以新浪微博LBS签到用户为研究对象,以微博评论为研究样本,运用Python软件获取8580条新浪微博LBS签到数据,通过ROST Content Mining、UCINET软... 随着信息技术不断发展,社交网络逐渐普及,新技术可以更有效地研究游客对景区旅游形象的感知。以新浪微博LBS签到用户为研究对象,以微博评论为研究样本,运用Python软件获取8580条新浪微博LBS签到数据,通过ROST Content Mining、UCINET软件,采用文本分析法、社会网络分析法从景区环境、佛教文化、服务设施、户外活动、气象景观5个方面探索游客对峨眉山风景区旅游形象感知。结果显示:游客对峨眉山风景区的情感态度整体上趋于良好;对景区自然景观和宗教文化评价较高;认为峨眉山风景区是锻炼身体、休闲娱乐的好场所;对景区内基础服务设施方面存有负面评价。最后,对峨眉山及同类型景区的旅游发展提出了相应的参考建议。 展开更多
关键词 Python爬取数据 网络评价 文本分析法 旅游形象感知
下载PDF
聚焦爬虫技术研究综述 被引量:154
5
作者 周立柱 林玲 《计算机应用》 CSCD 北大核心 2005年第9期1965-1969,共5页
因特网的迅速发展对万维网信息的查找与发现提出了巨大的挑战。对于大多用户提出的与主题或领域相关的查询需求,传统的通用搜索引擎往往不能提供令人满意的结果网页。为了克服通用搜索引擎的以上不足,提出了面向主题的聚焦爬虫的研究。... 因特网的迅速发展对万维网信息的查找与发现提出了巨大的挑战。对于大多用户提出的与主题或领域相关的查询需求,传统的通用搜索引擎往往不能提供令人满意的结果网页。为了克服通用搜索引擎的以上不足,提出了面向主题的聚焦爬虫的研究。至今,聚焦爬虫已成为有关万维网的研究热点之一。文中对这一热点研究进行综述,给出聚焦爬虫(Focused Crawler)的基本概念,概述其工作原理;并根据研究的发展现状,对聚焦爬虫的关键技术(抓取目标描述,网页分析算法和网页搜索策略等)作系统介绍和深入分析。在此基础上,提出聚焦爬虫今后的一些研究方向,包括面向数据分析和挖掘的爬虫技术研究,主题的描述与定义,相关资源的发现,W eb数据清洗,以及搜索空间的扩展等。 展开更多
关键词 聚焦爬虫 信息检索 链接分析 文本检索 数据抽取 协作抓取 本体描述 元搜索
下载PDF
Web语料抓取中基于相似度的URL过滤规则生成算法
6
作者 陈荟慧 舒云星 林丽 《模式识别与人工智能》 EI CSCD 北大核心 2014年第7期631-637,共7页
Web语料是语料库的重要组成部分,但对冗余URL的访问开支影响大规模语料爬取工作的质量和效率,使用高效的URL过滤规则可提高Web爬取的质量和效率.因网站虚拟目录下的文件分布不均匀,为发现目标文件聚集区域,提出一种生成URL过滤规则的方... Web语料是语料库的重要组成部分,但对冗余URL的访问开支影响大规模语料爬取工作的质量和效率,使用高效的URL过滤规则可提高Web爬取的质量和效率.因网站虚拟目录下的文件分布不均匀,为发现目标文件聚集区域,提出一种生成URL过滤规则的方法.该方法使用正则表达式将URL元素通配化,归并相同元素后划分为子集,再计算子集内URL之间的相似度,并根据相似程度较高的URL构造虚拟目录树,基于虚拟目录树生成语料爬取的URL过滤规则和分类规则.文中详细介绍虚拟目录树的生成算法,并通过实验对比不同相似度阈值对目录树生成结果和URL过滤效果的影响. 展开更多
关键词 URL相似度 Web语料爬取 URL过滤 语料分类
下载PDF
搜索引擎中分类技术研究
7
作者 万小容 马帅 刘利军 《宁波广播电视大学学报》 2008年第2期116-118,共3页
本文提出了一种基于主题采集的Web文档自动分类算法,该算法对朴素贝叶斯分类模型进行了改进。利用该算法,我们实现了一个基于主题信息采集的网页分类系统.文中着重对该系统的页面解析、中文分词和文本分类模块进行了论述,并对改进后的... 本文提出了一种基于主题采集的Web文档自动分类算法,该算法对朴素贝叶斯分类模型进行了改进。利用该算法,我们实现了一个基于主题信息采集的网页分类系统.文中着重对该系统的页面解析、中文分词和文本分类模块进行了论述,并对改进后的贝叶斯分类方法进行了评估。实验结果表明,该算法对网页分类有较高的准确性. 展开更多
关键词 主题采集 Spider采集 中文分词 文本分类 贝叶斯分类
下载PDF
基于文本语义的SA-LDA增量爬取图书选择与推介
8
作者 蓝燕 《惠州学院学报》 2020年第3期71-75,117,共6页
为满足当前图书馆各专业领域最新技术图书的采购,以网络数据为基础,构筑领域关键词的本体语义库,并与图书馆学科书目库进行相似度比较,通过聚类算法选择相似度、相关度大的图书进行推介.文章建立在语义本体库类属层次基础上,首先通过We... 为满足当前图书馆各专业领域最新技术图书的采购,以网络数据为基础,构筑领域关键词的本体语义库,并与图书馆学科书目库进行相似度比较,通过聚类算法选择相似度、相关度大的图书进行推介.文章建立在语义本体库类属层次基础上,首先通过Web网络对领域主题词的爬取,逐次对网络进行增量爬取以丰富语义库,再与当前图书目录的学科关键词计算文本相似度,提出了一种采用基于Entropy类属平均距离计算的近邻分类算法,最终实现一种基于相似度计算的图书的指派与推介策略.实验表明,该图书选取方法能有效地改善最新图书采购的准确度,进一步提升大数据在图书购买的效率. 展开更多
关键词 本体 文本语义 增量爬取 图书推介
下载PDF
基于维基百科和网页相似度分析的主题爬行策略 被引量:1
9
作者 栾霞 赵晓楠 《现代电子技术》 2014年第20期35-37,共3页
针对当前常用爬虫爬行策略的不足,提出结合维基百科和网页相似度分析的主题爬行策略。利用维基百科分类树的结构对主题进行描述;下载网页后对网页进行相应处理,结合文本相关性和Web链接分析来计算候选链接的优先级。实验表明,该爬虫搜... 针对当前常用爬虫爬行策略的不足,提出结合维基百科和网页相似度分析的主题爬行策略。利用维基百科分类树的结构对主题进行描述;下载网页后对网页进行相应处理,结合文本相关性和Web链接分析来计算候选链接的优先级。实验表明,该爬虫搜索结果与主题相关度明显高于传统爬虫,爬虫爬全率有一定提高。该主题爬虫主题描述方法和爬行策略有一定的推广价值,尤其在转基因生物领域中,该爬虫中有一定的创新性。 展开更多
关键词 维基百科 文本相关性 链接分析 相似度计算
下载PDF
智能化网页资源收集工具的设计与实现 被引量:2
10
作者 康平波 田永鸿 黄铁军 《计算机工程》 CAS CSCD 北大核心 2004年第4期88-89,92,共3页
随着互联网的普及和发展,网络上的信息资源越来越丰富,它需要高效智能的工具来完成信息资源的采集。介绍了智能化网页收集工具系统的实现方法,它把抓取器与超链分析器、文本自动分类器相结合,完成对用户要求领域的网页的收集.避免... 随着互联网的普及和发展,网络上的信息资源越来越丰富,它需要高效智能的工具来完成信息资源的采集。介绍了智能化网页收集工具系统的实现方法,它把抓取器与超链分析器、文本自动分类器相结合,完成对用户要求领域的网页的收集.避免对用户不感兴趣领域的抓取。这样可以节省硬件、网络资源和提高资源采集效率。 展开更多
关键词 网页机器人 超链分析 文本自动分类 面向主题抓取
下载PDF
基于词共现模型与DOM的石油主题采集策略
11
作者 李村合 李晗 《微计算机应用》 2008年第2期28-31,共4页
提出了一种基于DOM树的词共现模型,首先利用文档的结构信息生成DOM树,并依据DOM树的结构特点来统计文档中主题词的共现信息,最后采用向量空间模型实现对石油主题网页的采集和分类。它改进了原有的词共现模型,突出了利用位置信息来优化... 提出了一种基于DOM树的词共现模型,首先利用文档的结构信息生成DOM树,并依据DOM树的结构特点来统计文档中主题词的共现信息,最后采用向量空间模型实现对石油主题网页的采集和分类。它改进了原有的词共现模型,突出了利用位置信息来优化词共现模型的特点。实验证明该策略使采集和分类的性能都有了一定的提高。 展开更多
关键词 词共现模型 DOM树 文本分类 主题采集 向量空间模型
下载PDF
油气行业垂直搜索引擎关键问题解决方案
12
作者 王督 蔡永香 +1 位作者 李博涵 刘远刚 《计算机系统应用》 2018年第12期18-24,共7页
垂直搜索引擎构建是搜索领域的热点问题之一,应用领域广泛.现有的方法一般都只是对垂直搜索引擎构建中的某一个或几个阶段进行优化,且针对不同网站信息的获取往往需要人工配置操作,较为繁琐.本文在深入研究构建垂直搜索引擎技术的基础上... 垂直搜索引擎构建是搜索领域的热点问题之一,应用领域广泛.现有的方法一般都只是对垂直搜索引擎构建中的某一个或几个阶段进行优化,且针对不同网站信息的获取往往需要人工配置操作,较为繁琐.本文在深入研究构建垂直搜索引擎技术的基础上,运用Heritrix、Solr等JAVA开源工具,结合网页正文抽取和完整性词抽取算法,提出了一套自动化构建垂直搜索引擎的方法,对该方法实现各阶段的关键问题展开了研究,并给出相应的优化方案.实践表明,提出的方法与优化方案具有较强的实用性. 展开更多
关键词 垂直搜索引擎 信息爬取 网页正文抽取 完整词抽取 Heritrix和Solr
下载PDF
一种新的基于概念树的主题网络爬虫方法 被引量:2
13
作者 谢志妮 《计算机与现代化》 2010年第4期103-106,110,共5页
提出一种新的基于概念树的主题网络爬行方法。与传统基于关键词描述主题的方法不同,本文提出基于叙词表来构建一种称为概念树的表示方法来描述主题的概念。在此基础上,本文给出锚文本和HTML页面内容与主题相关度的计算方法。在分析URL... 提出一种新的基于概念树的主题网络爬行方法。与传统基于关键词描述主题的方法不同,本文提出基于叙词表来构建一种称为概念树的表示方法来描述主题的概念。在此基础上,本文给出锚文本和HTML页面内容与主题相关度的计算方法。在分析URL的相关度时,首先判断其锚文本的相关度是否达到一定的阈值σ,只有当锚文本的相关度达不到σ时才会去下载URL对应的页面进行分析,否则将锚文本的相关度作为URL的相关度。这样的URL相关度计算方法可以大大减少不必要的计算开销,又可以充分地利用锚文本的信息。为了比较准确合理地获得阈值σ的取值,本文采用了最小均方差(LMS)的方法。 展开更多
关键词 概念树 主题网络爬行 锚文本 主题相关度
下载PDF
抓图的方法及技巧
14
作者 张春英 《计算机光盘软件与应用》 2011年第24期108-108,共1页
屏幕截图就是把屏幕的全部或部分内容转成图片,文章列举了几种常用的抓图方法,在抓图过程中也会遇到各种问题,并提出了解决方案。
关键词 抓图 屏幕截图 抓取全屏 活动窗口 级联菜单 软件抓图 滚屏捕捉 抓取文字
下载PDF
文本大数据的智慧城市研究与分析 被引量:5
15
作者 饶加旺 王勇 马荣华 《测绘科学》 CSCD 北大核心 2020年第7期170-180,共11页
针对快速了解智慧城市当前研究的现状问题,该文基于网络爬虫手段,快速获取中国知网2009年1月—2019年3月收录的以智慧城市为关键词的各类研究文献,构建了智慧城市文本大数据与自动分词模型,基于文本挖掘技术深入分析了智慧城市的研究热... 针对快速了解智慧城市当前研究的现状问题,该文基于网络爬虫手段,快速获取中国知网2009年1月—2019年3月收录的以智慧城市为关键词的各类研究文献,构建了智慧城市文本大数据与自动分词模型,基于文本挖掘技术深入分析了智慧城市的研究热点、现状、研究主题,指出了当前智慧城市建设中的问题。结果表明:当前处于智慧城市建设与快速发展阶段,研究热点归纳为研究方法、技术手段、应用领域3个层面,研究主题主要集中在技术与应用方面;此外当前智慧城市存在着"信息孤岛""数据孤岛"问题突出、个性化设计与共享不足、缺乏运行维护长效机制、与新型智慧城市的要求还有差距等不足,研究结果可为智慧城市建设提供参考。 展开更多
关键词 智慧城市 文本挖掘 网络爬虫 文本大数据 研究现状
原文传递
上一页 1 下一页 到第
使用帮助 返回顶部