期刊文献+

正则表达式在语料库研究中的应用 被引量:2

The Application of Regular Expression in Corpus Research
下载PDF
导出
摘要 语料库技术的关键在于通过对大规模真实文本的自动化分析处理,探索自然语言的内在规律。计算机程序编辑中广泛使用的正则表达式技术,因其强大的文本批处理能力,被逐渐应用于语料库开发和复杂检索等相关技术中。本文的研究目的在于厘清正则表达式的起源、概念和构造,并以任务驱动的方法,以几款常用的语料库工具为例,探讨正则表达式在文本清理、语料标注和检索等技术环节中的具体应用,从而进一步推动正则表达式在语料库研究中的普及和应用。 The essence of corpus technology lies in the exploration of the inherent laws of natural language by means of automated processing and analysis of large-scale real texts. Regular expression, a technology widely used in computer program editing, has been gradually applied to the corpus construction, advanced retrieval and other related technologies because of its powerful text processing capability. Driven by specific tasks and based on several corpus tools, this article aims to tease apart the origin, concept and structure of regular expression, explore the application of regular expression in text processing, annotation, retrieval and other aspects of corpus technology, and thus further promote the application of regular expression in corpus research.
作者 吴进善
出处 《河南理工大学学报(社会科学版)》 2015年第1期68-72,共5页 Journal of Henan Polytechnic University:Social Sciences
基金 河南省软科学研究计划项目(132400410996) 河南省教育厅人文社科研究项目(2013-QN-527)
关键词 正则表达式 语料库研究 文本处理 语料标注 索引分析 regular expression corpus research text processing corpus annotation concordance
  • 相关文献

参考文献10

二级参考文献26

共引文献32

同被引文献10

引证文献2

二级引证文献1

相关作者

内容加载中请稍等...

相关机构

内容加载中请稍等...

相关主题

内容加载中请稍等...

浏览历史

内容加载中请稍等...
;
使用帮助 返回顶部