-
题名基于Tika语义分析的文档标题提取研究
被引量:1
- 1
-
-
作者
丁振凡
-
机构
华东交通大学信息工程学院
-
出处
《长沙大学学报》
2012年第5期69-71,共3页
-
文摘
随着Web的爆炸性增长,更精确的内容检索受到广泛关注.文档的语义信息提取是内容检索中的关键问题.Tika是近年来出现的一个用来获取文档语义的一个工具软件,支持HTML、PDF、word、PPT、mht等众多格式的文档语义提取.给出了用Tika实现文档元信息提取以及文档内容提取的编程调用方法;分析了Tika进行语义提取中的一些缺陷,并针对文档标题的提取处理给出了纠正解决方案,从而为基于语义的资源检索和全文内容检索提供更为准确的信息表达.
-
关键词
Tika
内容语义
文档
元信息
标题提取
-
分类号
TP393
[自动化与计算机技术—计算机应用技术]
-
-
题名通用的行业网站资讯集成平台的设计与实现
- 2
-
-
作者
邓子云
-
机构
长沙商贸旅游职业技术学院湘商学院
-
出处
《工业技术与职业教育》
2022年第2期10-14,共5页
-
基金
湖南省自然科学基金课题“一种支持多过滤方法组合的海量网页过滤智能引擎的研制与应用”(项目编号:2020JJ7091),主持人邓子云
国家自然科学青年基金“小样本驱动的风电监控系统网络攻击深度检测方法”(项目编号:62103143),主持人陈磊。
-
文摘
为集成行业网站资讯并作排名参考、舆情监控、热点提取等场景应用,组织研发了一种通用的行业网站资讯集成平台。该集成平台需要研发行业网站爬虫系统、行业网站数据处理系统、行业网站数据展示系统这3个软件系统。在分析清楚这种通用的行业网站资讯集成平台的功能需求的基础上,给出了该平台的总体技术架构和3个软件系统的设计。给出了增量式爬取网页、二分法提取资讯类网页、预测网页标题等关键技术实现的原理。经研发实现,该集成平台已应用在全国物流行业与湖南统战系统形成行业网站资讯集成平台。全国物流行业网站资讯集成平台已集成10个网站,爬取到313199个网页;湖南统战系统网站资讯集成平台已集成26个网站,爬取到64216个网页。
-
关键词
行业网站
Scrapy爬虫
集成平台
网页分类
提取标题
-
Keywords
industry website
scrapy crawler
integrated platform
webpage classification
title extraction
-
分类号
TP317.2
[自动化与计算机技术—计算机软件与理论]
-