期刊文献+

一种藏语语料网页数据的采集方法 被引量:1

下载PDF
导出
摘要 语料库是自然语言处理的基础,其建设方式从传统手工输入法转移到网页数据的采集。网页爬虫方法能够快速有效地从网页上获取大量的藏文网页文本信息。本文给出了一种藏语网页爬虫算法及URL的广度优先遍历选取策略,为藏语语料库的建设、藏文搜索引擎、网页信息提取等提供了理论基础。
出处 《通讯世界》 2017年第9期115-116,共2页 Telecom World
基金 国家自然科学基金资助项目(61163018 61262051 61363055) 国家社科基金项目(13BYY141 16BYY167) 教育部"春晖计划"合作科研项目(Z2012093 Z2016077)
  • 相关文献

参考文献11

二级参考文献135

共引文献238

同被引文献17

引证文献1

相关作者

内容加载中请稍等...

相关机构

内容加载中请稍等...

相关主题

内容加载中请稍等...

浏览历史

内容加载中请稍等...
;
使用帮助 返回顶部