期刊文献+
共找到2篇文章
< 1 >
每页显示 20 50 100
利用Nutch设计实现生物医学信息垂直搜索引擎
1
作者 王小磊 李立 赵东升 《北京生物医学工程》 2010年第6期638-640,644,共4页
在网络的海量信息搜索过程中,医学情报研究和信息服务机构,经常需要构建面向专题的垂直搜索系统以满足特定人群的需求。本文利用Nutch和Lucene等开源软件设计了一个面向生物医学信息的垂直搜索引擎系统,并对网页信息抓取、格式处理、内... 在网络的海量信息搜索过程中,医学情报研究和信息服务机构,经常需要构建面向专题的垂直搜索系统以满足特定人群的需求。本文利用Nutch和Lucene等开源软件设计了一个面向生物医学信息的垂直搜索引擎系统,并对网页信息抓取、格式处理、内容索引和检索等关键技术进行了说明。在此搜索引擎中,通过加入中文分词和增量抓取等模块,提高了中文关键字的识别率,缩短了信息的更新周期。目前该系统已经上线测试,能够获得较为精确和及时的搜索结果。 展开更多
关键词 NUTCH 网络信息抓取 LUCENE 中文分词 增量抓取
下载PDF
从中国证监会行政处罚决定书分析证券交易市场财务造假问题特点
2
作者 兰辰牧 《中国审计》 2022年第22期52-54,共3页
随着互联网技术的快速发展,网络非结构化数据呈爆发式增长。运用Python丰富的第三方库可以实现网络信息抓取、自然语言处理、数据建模分析等,从而对网络文档进行实时抓取和深入分析,有效解决人工查阅、复制粘贴等传统方式信息利用效率... 随着互联网技术的快速发展,网络非结构化数据呈爆发式增长。运用Python丰富的第三方库可以实现网络信息抓取、自然语言处理、数据建模分析等,从而对网络文档进行实时抓取和深入分析,有效解决人工查阅、复制粘贴等传统方式信息利用效率不高、程度不深、随机性大的问题。本文以中国证监会近10年间发布的行政处罚决定书为研究对象,阐述如何利用Python的网络信息抓取。 展开更多
关键词 自然语言处理 非结构化数据 网络信息抓取 网络文档 Python 复制粘贴 数据建模 证券交易市场
原文传递
上一页 1 下一页 到第
使用帮助 返回顶部