-
题名基于正则表达式的大规模网页术语对抽取研究
被引量:13
- 1
-
-
作者
程岚岚
-
机构
天津科技大学计算机科学与信息工程学院
-
出处
《情报杂志》
CSSCI
北大核心
2008年第11期62-64,68,共4页
-
基金
天津市高等院校科技发展基金项目"不均匀数据的自动分级聚类方法研究"(编号:20071303)
-
文摘
多语术语对的收集对于跨语言信息检索、机器翻译和语言学习等具有重要应用价值,但传统的手工方式或基于平行语料的术语收集方法均有各自的局限性。针对Web上存在的大规模术语网页,基于Web挖掘技术,提出了一种采用正则表达式的术语对抽取方法。首先是获取网页源文件,接着依据已定义的正则表达式从中抽取出正确的术语对,并存储到本地术语库中。实验结果表明,该方法可实现66.7%的术语网页的抽取,并且对于可抽取网页,抽取出的术语对准确率接近100%。
-
关键词
术语对抽取
正则表达式
WEB挖掘
-
分类号
TP391.3
[自动化与计算机技术—计算机应用技术]
-