期刊文献+
共找到7篇文章
< 1 >
每页显示 20 50 100
一种面向互联网文本数据采集框架的设计 被引量:4
1
作者 贺宗平 王正路 《电子技术与软件工程》 2021年第12期187-189,共3页
本文阐述了互联网文本数据采集能力是目前各种数据集成、应用系统关注的一项核心支撑能力,在各种系统开发中有着重要的作用。各种网站、Web应用系统的文本数据的获取方式存在一定规律性和相似性,网站文本数据的利用,诸如NLP相关研究的... 本文阐述了互联网文本数据采集能力是目前各种数据集成、应用系统关注的一项核心支撑能力,在各种系统开发中有着重要的作用。各种网站、Web应用系统的文本数据的获取方式存在一定规律性和相似性,网站文本数据的利用,诸如NLP相关研究的价值较高。因此,研究面向互联网文本数据采集的框架具有重要的现实意义,并且能够提供分布式、组件化和配置化的框架能力。 展开更多
关键词 文本数据采集 Scrapy 定时调度 分布式采集
下载PDF
大数据评论采集分析系统的设计与实现 被引量:1
2
作者 韩帅康 江涛 张顺 《电脑知识与技术》 2020年第4期35-37,共3页
该设计以机器学习为基础,通过编写爬虫程序对网上各大平台公开评论信息进行采集并根据评分同时进行数据标注,以朴素贝叶斯分类算法为基础,通过对数据的分词,拟合出文本情感与文本的关系模型,从而达到一个相较于传统情感字典更好的效果... 该设计以机器学习为基础,通过编写爬虫程序对网上各大平台公开评论信息进行采集并根据评分同时进行数据标注,以朴素贝叶斯分类算法为基础,通过对数据的分词,拟合出文本情感与文本的关系模型,从而达到一个相较于传统情感字典更好的效果。同时以该算法为基础,设计开发一套大数据评论采集分析系统,通过分析互联网上的相关评论,将分析结果可视化展示给企业,帮助企业更好地了解产品的市场情况,定位产品的优缺点,从而帮助企业优化决策,制定合适的策略,获得更佳的市场表现。 展开更多
关键词 文本采集 朴素贝叶斯 机器学习 语义分析
下载PDF
网页Email信息采集器设计与实现
3
作者 陈志伟 《电脑编程技巧与维护》 2009年第24期83-86,共4页
Internet上庞大的Web数据是一笔宝贵的财富。软件针对Web数据进行分析和采集,并把采集到的数据内容保存下来,供分析和挖掘。该软件基于C#语言,开发Windows Form程序,使用多线程操作,利用WebRequest,WebResponse获取网页数据,再用正则表... Internet上庞大的Web数据是一笔宝贵的财富。软件针对Web数据进行分析和采集,并把采集到的数据内容保存下来,供分析和挖掘。该软件基于C#语言,开发Windows Form程序,使用多线程操作,利用WebRequest,WebResponse获取网页数据,再用正则表达式匹配文本值获取到页面的内容。 展开更多
关键词 正则表达式 多线程 WebRequest WebResponse Web文本采集
下载PDF
基于Python的新冠疫情“停课”期间青少年相关新闻文本分析
4
作者 高英齐 《时代人物》 2021年第23期19-22,共4页
[目的/意义] 为快速获取网页中新冠疫情期间青少年相关新闻的海量数据,借助当前数据采集和分析的热门手段—网络爬虫技术,从新闻资讯的视角挖掘和整理国内对新冠疫情期间青少年相关新闻的新热点。[方法/过程] 以人民网为目标网页,通过... [目的/意义] 为快速获取网页中新冠疫情期间青少年相关新闻的海量数据,借助当前数据采集和分析的热门手段—网络爬虫技术,从新闻资讯的视角挖掘和整理国内对新冠疫情期间青少年相关新闻的新热点。[方法/过程] 以人民网为目标网页,通过对网页的关键词检索,利用Python语言编写、设计程序对网页中的青少年相关新闻资讯进行爬取,将获取的2208条新闻作为数据样本,利用文本分析方法以及绘制Python词云图分析新冠疫情期间青少年相关新闻现状、内容及问题。[结果/结论]当前国内对新冠疫情期间青少年相关新闻的宣传和重视程度逐渐加深,新冠疫情期间青少年相关新闻与中国、网络和教育有密切的发展联系,对多方面现存的问题进行分析并提出建议。 展开更多
关键词 网络爬虫 文本采集 文本分析 疫情期间青少年
下载PDF
基于用户画像的数字化阅读推广平台设计 被引量:1
5
作者 郑素萍 《中国科技资源导刊》 2023年第1期45-51,共7页
为进一步优化数字化阅读的推广效果,设计基于用户画像的数字化阅读推广平台。从信息层、数据处理层和推广层3个方面设计数字化阅读推广平台总体架构,利用爬虫原理设计数字化阅读文本采集器,结合数字化阅读推广器的设计完成平台的硬件设... 为进一步优化数字化阅读的推广效果,设计基于用户画像的数字化阅读推广平台。从信息层、数据处理层和推广层3个方面设计数字化阅读推广平台总体架构,利用爬虫原理设计数字化阅读文本采集器,结合数字化阅读推广器的设计完成平台的硬件设计;通过构建用户画像,利用自适应学习算法设计数字化阅读推广算法,完成平台的软件设计。平台性能测试结果表明,基于用户画像的数字化阅读推广平台推广路径完成度高于0.8,召回率可以达到85%以上。由此验证了设计平台在功能上可以满足设计要求,还可以通过提高数字化阅读推广的成功率和精度满足性能设计要求。 展开更多
关键词 用户画像 推广平台 数字化阅读 文本采集 阅读流量
下载PDF
用VC++编程实现Web文本资料的抓取
6
作者 马创新 《电脑编程技巧与维护》 2012年第7期73-75,共3页
用VC++编程实现了Web文本资料的抓取。它能够获取指定网页上的所有链接,并把这些链接的网页抓取下来,以文本文件形式保存在指定文件夹中。
关键词 VC++ 文本资料采集 网页抓取
下载PDF
Research on Online Reviews Impact on Commodity Sales in B2C E-commerce
7
作者 Wu Guo-dong 《Review of Global Academics》 2015年第2期553-557,共5页
The objective of this paper was to analyze the impact of online reviews on sales. Based on dual path model of commodity sales, an online reviews impact on the relationship between various factors, and then the theoret... The objective of this paper was to analyze the impact of online reviews on sales. Based on dual path model of commodity sales, an online reviews impact on the relationship between various factors, and then the theoretical hypothesis of each factor has been put forward in the model. As it is intuitive and strongly supported empirically, data including Chinese texts captured from Tmall.com was utilized, and then analyzed by SPSS and ROST CM6. Our empirical study on the reviews of Tmall.com indicated that the hypotheses are verified. 展开更多
关键词 Online Review Commodity Sales B2C E-commerce Influencing Factor STATISTICALANALYSIS
下载PDF
上一页 1 下一页 到第
使用帮助 返回顶部