期刊文献+
共找到1篇文章
< 1 >
每页显示 20 50 100
大规模真实文本处理的理论与方法
1
作者 黄昌宁 《国际学术动态》 1998年第4期14-16,共3页
背景随着因特网和光盘等大容量存储技术的普及,机储文本语料库的规模已冲破1万亿(10~(12)字节。它一方面带来了巨大的商业利益,促进了信息咨询业的空前发展;另一方面也向学术界和企业界提出了挑战,呼唤着大规模真实文本处理技术的革新... 背景随着因特网和光盘等大容量存储技术的普及,机储文本语料库的规模已冲破1万亿(10~(12)字节。它一方面带来了巨大的商业利益,促进了信息咨询业的空前发展;另一方面也向学术界和企业界提出了挑战,呼唤着大规模真实文本处理技术的革新。据美国Lexis-Nexis公司John Rausch高级工程师在第5届国际大规模语料库研讨会(The Fifth workshop on Verylarge Corpora,简称WVLC-5)上披露,这家提供信息检索服务的公司今年的机储文档已达15亿件,相当于15000亿字符,是该公司1993年机储文档的7.5倍,并且持续以每周950万件的速度递增。此外Lexis—Nexis公司平均每天要接受50万次客户查询,每次查询平均访问182个不同数据库,而每次查询的响应时间平均为4.8秒,公司每天为客户打印的文档多达37.5万件。从以上数据中不难看到,信息资源在当今社会中的重要性,以及文本语料库(或数据库)所达到的巨大规模和相应的处理技术。 展开更多
关键词 大规模语料库 真实文本处理 文本处理 文本分析
下载PDF
上一页 1 下一页 到第
使用帮助 返回顶部