-
题名大规模真实文本处理的理论与方法
- 1
-
-
作者
黄昌宁
-
机构
清华大学计算机科学与技术系
-
出处
《国际学术动态》
1998年第4期14-16,共3页
-
文摘
背景随着因特网和光盘等大容量存储技术的普及,机储文本语料库的规模已冲破1万亿(10~(12)字节。它一方面带来了巨大的商业利益,促进了信息咨询业的空前发展;另一方面也向学术界和企业界提出了挑战,呼唤着大规模真实文本处理技术的革新。据美国Lexis-Nexis公司John Rausch高级工程师在第5届国际大规模语料库研讨会(The Fifth workshop on Verylarge Corpora,简称WVLC-5)上披露,这家提供信息检索服务的公司今年的机储文档已达15亿件,相当于15000亿字符,是该公司1993年机储文档的7.5倍,并且持续以每周950万件的速度递增。此外Lexis—Nexis公司平均每天要接受50万次客户查询,每次查询平均访问182个不同数据库,而每次查询的响应时间平均为4.8秒,公司每天为客户打印的文档多达37.5万件。从以上数据中不难看到,信息资源在当今社会中的重要性,以及文本语料库(或数据库)所达到的巨大规模和相应的处理技术。
-
关键词
大规模语料库
真实文本处理
文本处理
文本分析
-
分类号
TP391
[自动化与计算机技术—计算机应用技术]
-