-
题名逆序解析DOM树及网页正文信息提取
被引量:15
- 1
-
-
作者
张瑞雪
宋明秋
公衍磊
-
机构
大连理工大学系统工程研究所
-
出处
《计算机科学》
CSCD
北大核心
2011年第4期213-215,225,共4页
-
基金
国家自然科学基金项目(70671016)资助
-
文摘
一般地,从HTML网页中提取正文信息,应先将HTML网页解析成DOM树,然后遍历DOM树,依据目标信息在DOM树中的分布规律,将信息从DOM树中提取。这种传统方法将解析DOM树和从DOM树中提取信息看成两个独立的过程,制约了提取信息的速度。事实上,在准确提取目标信息的过程中,独立解析整个DOM树是没有必要的。在此,提出了逆序解析DOM树算法,并结合DOM树相似理论和传统的顺序解析算法,从部分目标信息开始分别向后顺序和向前逆序解析DOM树,同时定位并获取其他目标信息。利用该方法提取网页正文信息,一方面只需解析部分DOM树,从而减少了解析树结构花费的时间,另一方面不需要遍历整个DOM树查找目标信息,从而节省了查找时间,大大提高了信息提取速度。最后,通过实验证实了该方法的优越性。
-
关键词
DOM树
网页正文提取
结构相似性
逆序解析
-
Keywords
DOM tree
Web content extracting
Structural similarity
Parsing reversely
-
分类号
TP393.092
[自动化与计算机技术—计算机应用技术]
-