摘要
基于本体的Web信息抽取就是以所构建的本体为核心,利用本体中已定义的概念、分类层次、关系、函数、公理和实例及一些必需的外部资料对Web页面进行信息提取,得到结构化的知识并保存的过程,这一技术已经成为国内外研究的热点之一。文章介绍了信息抽取的历史,给出了基于本体的Web信息抽取一般体系结构模型及相关实现,系统地分析比较了各种基于本体的Web信息抽取方法,指出了目前这些方法实现的关键、得到的结果及其不足之处,展望了Web信息抽取发展的方向。
Web information extraction based on ontology has become one of the hotspots at home and abroad. The method realizes web page information extraction by means of the concept, classification level, relations, functions, axioms, instances defined in the ontology, and some required external data. And the structured knowledge is acquired and saved. The history of information extraction is introduced. And the general model and the realization methods of web information extraction based on ontology are analyzed. Finally, the future of web information extraction is forecasted.
出处
《图书馆学研究》
CSSCI
北大核心
2012年第16期2-6,共5页
Research on Library Science
基金
河南省软科学研究计划项目"基于语义Web的企业知识检索方法创新研究"(项目编号:112400450172)
河南省高等学校青年骨干教师基金资助项目"Web2.0环境下网络信息检索机制及其优化研究"(项目编号:2010GGJS-011)的研究成果之一
关键词
WEB信息抽取
本体
研究综述
web information extraction ontology research review