期刊文献+
共找到1篇文章
< 1 >
每页显示 20 50 100
基于正则表达式的大规模网页术语对抽取研究 被引量:13
1
作者 程岚岚 《情报杂志》 CSSCI 北大核心 2008年第11期62-64,68,共4页
多语术语对的收集对于跨语言信息检索、机器翻译和语言学习等具有重要应用价值,但传统的手工方式或基于平行语料的术语收集方法均有各自的局限性。针对Web上存在的大规模术语网页,基于Web挖掘技术,提出了一种采用正则表达式的术语对抽... 多语术语对的收集对于跨语言信息检索、机器翻译和语言学习等具有重要应用价值,但传统的手工方式或基于平行语料的术语收集方法均有各自的局限性。针对Web上存在的大规模术语网页,基于Web挖掘技术,提出了一种采用正则表达式的术语对抽取方法。首先是获取网页源文件,接着依据已定义的正则表达式从中抽取出正确的术语对,并存储到本地术语库中。实验结果表明,该方法可实现66.7%的术语网页的抽取,并且对于可抽取网页,抽取出的术语对准确率接近100%。 展开更多
关键词 术语对抽取 正则表达式 WEB挖掘
下载PDF
上一页 1 下一页 到第
使用帮助 返回顶部