期刊文献+
共找到2篇文章
< 1 >
每页显示 20 50 100
基于Tika语义分析的文档标题提取研究 被引量:1
1
作者 丁振凡 《长沙大学学报》 2012年第5期69-71,共3页
随着Web的爆炸性增长,更精确的内容检索受到广泛关注.文档的语义信息提取是内容检索中的关键问题.Tika是近年来出现的一个用来获取文档语义的一个工具软件,支持HTML、PDF、word、PPT、mht等众多格式的文档语义提取.给出了用Tika实现文... 随着Web的爆炸性增长,更精确的内容检索受到广泛关注.文档的语义信息提取是内容检索中的关键问题.Tika是近年来出现的一个用来获取文档语义的一个工具软件,支持HTML、PDF、word、PPT、mht等众多格式的文档语义提取.给出了用Tika实现文档元信息提取以及文档内容提取的编程调用方法;分析了Tika进行语义提取中的一些缺陷,并针对文档标题的提取处理给出了纠正解决方案,从而为基于语义的资源检索和全文内容检索提供更为准确的信息表达. 展开更多
关键词 Tika 内容语义 文档 元信息 标题提取
下载PDF
通用的行业网站资讯集成平台的设计与实现
2
作者 邓子云 《工业技术与职业教育》 2022年第2期10-14,共5页
为集成行业网站资讯并作排名参考、舆情监控、热点提取等场景应用,组织研发了一种通用的行业网站资讯集成平台。该集成平台需要研发行业网站爬虫系统、行业网站数据处理系统、行业网站数据展示系统这3个软件系统。在分析清楚这种通用的... 为集成行业网站资讯并作排名参考、舆情监控、热点提取等场景应用,组织研发了一种通用的行业网站资讯集成平台。该集成平台需要研发行业网站爬虫系统、行业网站数据处理系统、行业网站数据展示系统这3个软件系统。在分析清楚这种通用的行业网站资讯集成平台的功能需求的基础上,给出了该平台的总体技术架构和3个软件系统的设计。给出了增量式爬取网页、二分法提取资讯类网页、预测网页标题等关键技术实现的原理。经研发实现,该集成平台已应用在全国物流行业与湖南统战系统形成行业网站资讯集成平台。全国物流行业网站资讯集成平台已集成10个网站,爬取到313199个网页;湖南统战系统网站资讯集成平台已集成26个网站,爬取到64216个网页。 展开更多
关键词 行业网站 Scrapy爬虫 集成平台 网页分类 提取标题
下载PDF
上一页 1 下一页 到第
使用帮助 返回顶部