基于多种规则的课程元数据自动抽取被引量：7

A Rule-based Metadata Extractor for Learning Materials

下载PDF

导出

摘要在线课程组织和管理系统就是为了使学习更加便利而提供的一个教育资源的集成平台。作为系统中重要环节的元数据抽取模块,需要对半结构化网页能够达到较好的抽取精确性,并具有处理结构松散文档的能力。本文设计并实现了一种按照指定规则自动抽取的元数据方法。该方法能够按照多优先级规则匹配网页元数据,并按照两步抽取的方法进行精细化处理。针对不同的问题域使用不同规则抽取,不需对程序进行特定修改。实验证明,这种方法能够很好地处理半结构化网页,F测度达到85%以上,具有较好的实用价值。 Integrating all kinds of learning material is becoming more and more significant for the teachers and students to take advantage of the online E-learning courses. As the key part of the whole Online Course Organization System,Metadata Extraction function needs to heaccurate enough when dealing with semi-structured documents, even those incompact ones. We design and !mplement a Metadata Extractor to .compare. between several rules ordered by priority,and there is another step of information refinement to help improving the final accuracy. When domain changes, users just need to input.specific rules, without considering the program. The experiment, shows that our new method can perform very well withthose semi-structured documents, with F measure higher than 85%, which indicates that this method is quite feasible in reality.

作者杨宇张铭周宝曜

机构地区北京大学信息科学技术学院计算机科学与技术系惠普中国实验室

出处《计算机科学》 CSCD 北大核心 2008年第3期94-96,共3页 Computer Science

基金国家自然科学基金“网络计算环境综合试验平台”(编号90412010) 惠普大学合作基金“在线课程的组织与管理”项目国家自然科学基金(编号60573166) 广东省网络重点实验室基金的支持

关键词元数据抽取正则表达式信息精化 Metadata extraction, Regular expression, Information refinement

分类号 TP391.2 [自动化与计算机技术—计算机应用技术] G423 [文化科学—课程与教学论]

引文网络
相关文献

参考文献7

1刘世杰,唐世渭,杨冬青,王腾蛟,李立宇.基于XML技术的Web信息提取和集成.见:第二十届全国数据库学术会议,2003
2Crescenzi V, Mecca G. Grammars have Exceptions. Information Systems 1998,23 (8): 539-565
3Garcia-Molina H, Papakonstantinou Y, Quass D, et al. The TSIMMIS Approach to Mediation: Data Models and Languages (extended abstract), In NGITS, 1995
4Arocena G, Mendelzon A. WebOQL: Restructuring Documents, Databases, and Webs. In: Proe. ICDE '98, Feb. 1998
5Huck G, Fankhauser P, Aberer K, Neuhold E J. Jedi: Exchanging and Synthesizing Information from the Web. Coopis, 1998
6Califf M E, Mooney R J. Relational Learning oI Pattern-Match Rules for Information Extraction. In; Proceedings of the Sixteenth National Conference on Artificial Intelligence and Eleventh Conference on Innovative Applications of Artificial Intelligence, Orlando, Florida, 1999. 328-334
7Freitag D. Machine Learning for Information Extraction in Informal Domains. Machine Learning, 2000,39(2-3) :169-202

同被引文献35

1李胜利,李昌清,袁平鹏,刘英书.基于Web的电子期刊元数据信息抽取方法[J].华中科技大学学报（自然科学版）,2007,35(12):13-15. 被引量：7
2游祎,赵荣.我国元数据研究现状与发展[J].图书情报工作,2008,52(S1):202-205. 被引量：7
3刘金红,夏阳,陆余良.基于Ontology的网络元数据抽取系统的研究与实现[J].安徽电子信息职业技术学院学报,2004,3(5):10-13. 被引量：3
4袁平,韩景润,党海飞.空间元数据自动生成技术研究[J].地理信息世界,2005,3(1):11-15. 被引量：3
5徐维,胡吉兵,管志宇.元数据概念的产生、发展与成熟[J].中国档案,2003(8):43-44. 被引量：13
6郭瑞华,张玉莉.语义Web上DC元数据的描述及抽取技术[J].现代情报,2005,25(6):212-214. 被引量：6
7周骏,徐林,李征.元模型驱动的企业建模[J].计算机工程与应用,2005,41(27):215-217. 被引量：8
8刘彤,彭宏.用户个性化W eb采集技术与教学资源自动采集[J].计算机应用,2005,25(B12):482-484. 被引量：4
9常娥,何琳,侯汉清.元数据自动生成技术研究[J].情报理论与实践,2006,29(5):608-611. 被引量：5
10杜晓,晋佩东,郭大海,王建超,周英杰.遥感影像快速入库和元数据提取系统的研究[J].国土资源遥感,2006,18(3):80-84. 被引量：9

引证文献7

1陈磊,韩新阳,温超,董力通.电力需求侧管理信息数据采集系统的开发与设计[J].电力信息化,2009,7(5):82-85. 被引量：1
2周亚.2001—2008年国内元数据自动抽取研究综述[J].科技情报开发与经济,2009,19(23):140-142. 被引量：3
3陈淑平,梁东魁.基于特征分析的数字化期刊元数据自动抽取算法[J].情报杂志,2010,29(3):143-146. 被引量：1
4欧阳辉,禄乐滨.基于SVM的论文元数据抽取方法研究[J].电子设计工程,2010,18(5):4-7. 被引量：6
5王怀金.油藏月报数据校验机制的设计与实现[J].中国信息界,2012(10):63-64. 被引量：2
6陈雅迪,张雪蕾,李娟.面向机构知识库的课程信息元数据抽取系统设计与实现[J].情报探索,2017(7):78-83. 被引量：1
7张金柱,胡一鸣.融合表示学习与机器学习的专利科学引文标题自动抽取研究[J].数据分析与知识发现,2019,3(5):68-76. 被引量：1

二级引证文献15

1商杰,陈德华,薛莉芳.文本元数据自动抽取算法的研究[J].计算机应用与软件,2011,28(12):148-150. 被引量：2
2李俊华.移动教师培训平台开发技术研究[J].通化师范学院学报,2011,32(12):60-62. 被引量：1
3龚立群,马宝英,常晓荣.科技文献元数据自动抽取研究述评[J].计算机系统应用,2013,22(3):11-15. 被引量：6
4于洪涛,虞海明,张付志.基于三阶条件随机场的论文元数据提取方法[J].小型微型计算机系统,2014,35(3):606-609. 被引量：1
5林霞,申端明,时迎,乔德新.可配置组合式数据校验方法[J].计算机系统应用,2015,24(5):161-166. 被引量：3
6杨海亮,徐用吉.利用VB读取方正排版文件提取元数据[J].中国科技期刊研究,2015,26(6):612-617. 被引量：8
7李雪驹,王智广,鲁强.一种规则与SVM结合的论文抽取方法[J].计算机技术与发展,2017,27(10):24-29. 被引量：4
8梁英,张伟,余知栋,史红周.学术大数据技术在科技管理过程中的应用[J].大数据,2019,5(5):3-15. 被引量：8
9李春杰,马建玲.国内外图情领域信息抽取研究文献计量分析[J].情报科学,2019,37(4):157-164. 被引量：7
10郭晓亮,景勇,张璐,吉海涛,郭雨梅,黄仲一.学术期刊元数据处理例证分析[J].编辑学报,2019,31(6):655-659. 被引量：1

1欧阳辉,禄乐滨,钱建立.基于C4.5的论文元数据抽取算法研究[J].计算机工程与设计,2010,31(16):3708-3711. 被引量：4
2陈淑平,梁东魁.基于机器学习的扫描图书元数据自动抽取研究[J].现代情报,2013,33(6):45-48. 被引量：4
3钱爱兵.期刊论文元数据自动抽取系统的设计与实现[J].计算机光盘软件与应用,2014,17(21):87-90.
4龚立群,马宝英,常晓荣.科技文献元数据自动抽取研究述评[J].计算机系统应用,2013,22(3):11-15. 被引量：6
5张铭,银平,邓志鸿,杨冬青.SVM+BiHMM:基于统计方法的元数据抽取混合模型[J].软件学报,2008,19(2):358-368. 被引量：27
6欧阳辉,禄乐滨.基于SVM的论文元数据抽取方法研究[J].电子设计工程,2010,18(5):4-7. 被引量：6
7钱堃,李芳,文益民.基于颜色和空间距离的显著性区域固定阈值分割算法[J].计算机科学,2016,43(1):103-106. 被引量：3
8李琳琳,姚超,王庆超,吴汉钊.RDF-C^2元数据方法在服务描述中的应用研究[J].科学技术与工程,2013,21(23):6918-6922.
9严磊.安卓操作系统的安全性研究[J].电脑与信息技术,2016,24(5):39-41. 被引量：3
10李宝敏.基于本体智能搜索引擎的研究[J].情报杂志,2006,25(10):60-62. 被引量：8

计算机科学

2008年第3期

浏览历史

内容加载中请稍等...

基于多种规则的课程元数据自动抽取被引量：7

参考文献7

同被引文献35

引证文献7

二级引证文献15

相关作者

相关机构

相关主题

浏览历史

基于多种规则的课程元数据自动抽取 被引量：7

参考文献7

同被引文献35

引证文献7

二级引证文献15

相关作者

相关机构

相关主题

浏览历史

基于多种规则的课程元数据自动抽取被引量：7