-
题名基于多种规则的课程元数据自动抽取
被引量:7
- 1
-
-
作者
杨宇
张铭
周宝曜
-
机构
北京大学信息科学技术学院计算机科学与技术系
惠普中国实验室
-
出处
《计算机科学》
CSCD
北大核心
2008年第3期94-96,共3页
-
基金
国家自然科学基金“网络计算环境综合试验平台”(编号90412010)
惠普大学合作基金“在线课程的组织与管理”项目
+1 种基金
国家自然科学基金(编号60573166)
广东省网络重点实验室基金的支持
-
文摘
在线课程组织和管理系统就是为了使学习更加便利而提供的一个教育资源的集成平台。作为系统中重要环节的元数据抽取模块,需要对半结构化网页能够达到较好的抽取精确性,并具有处理结构松散文档的能力。本文设计并实现了一种按照指定规则自动抽取的元数据方法。该方法能够按照多优先级规则匹配网页元数据,并按照两步抽取的方法进行精细化处理。针对不同的问题域使用不同规则抽取,不需对程序进行特定修改。实验证明,这种方法能够很好地处理半结构化网页,F测度达到85%以上,具有较好的实用价值。
-
关键词
元数据抽取
正则表达式
信息精化
-
Keywords
Metadata extraction, Regular expression, Information refinement
-
分类号
TP391.2
[自动化与计算机技术—计算机应用技术]
G423
[文化科学—课程与教学论]
-