-
题名基于模板法的网页英语试卷自动抽取技术的研究
被引量:1
- 1
-
-
作者
熊惠荟
欧阳君
-
机构
华中科技大学信息存储和薄膜技术研究所
-
出处
《计算机与数字工程》
2009年第4期50-52,共3页
-
文摘
为解决在线考试系统中建立海量数据库的问题,采用基于模板法的Web信息抽取方法,提取相似网页中的正文内容。并根据包含英文试卷的网页特点,制定正文抽取规则,最终可获得完整的英语试卷及其答案。实验结果表明,该方法具有较高的准确率和提取速度。
-
关键词
WEB
信息抽取
dom抽取规则
模板
-
Keywords
Web, information extraction, dom, extraction rules, template
-
分类号
TP399
[自动化与计算机技术—计算机应用技术]
-