摘要
针对煤炭监测数据的复杂多变性及Deep Web数据查询结果网页描述信息的特点,提出了一种基于蚂蚁算法和本体指导网页信息抽取的方法。首先构建基于简单本体的数据抽取系统,通过对结果页面中包含本体语义信息的数据的映像定位,结合蚂蚁算法分析信息素浓度在DOM树上的分布比较,实现数据块路径抽取规则算法及数据分割特征码的生成。以煤炭行业获取的数据进行抽取性能测试,数据实验表明,抽取算法结果具有较高的准确率。
Due to the complex of the coal monitoring data, a novel approach of web page information extraction guided by ant colony algorithm is proposed.The method first builded a simple ontology-based data extraction system. By positioning the image data on the result pages, and combined with ant algorithm, it creates extraction rules . The extraction performance test data obtained by the coal industry,and the experimental results indicate that the method gives a better accuracy according to the extraction.
出处
《煤炭技术》
CAS
北大核心
2013年第2期176-178,共3页
Coal Technology
基金
南通大学2011年自然科学课题(11Z065)
国家自然科学基金项目(61171132)
关键词
信息抽取
本体
语义
蚂蚁算法
information extraction
ontology
semantic
ant algorithm