一种藏语语料网页数据的采集方法被引量：1

下载PDF

导出

摘要语料库是自然语言处理的基础,其建设方式从传统手工输入法转移到网页数据的采集。网页爬虫方法能够快速有效地从网页上获取大量的藏文网页文本信息。本文给出了一种藏语网页爬虫算法及URL的广度优先遍历选取策略,为藏语语料库的建设、藏文搜索引擎、网页信息提取等提供了理论基础。

作者扎西吉才智杰

机构地区青海师范大学计算机学院

出处《通讯世界》 2017年第9期115-116,共2页 Telecom World

基金国家自然科学基金资助项目(61163018 61262051 61363055) 国家社科基金项目(13BYY141 16BYY167) 教育部"春晖计划"合作科研项目(Z2012093 Z2016077)

关键词藏语自然语言处理语料库网页爬虫深度优先遍历

分类号 TP391 [自动化与计算机技术—计算机应用技术]

引文网络
相关文献

参考文献11

1高红梅,陈金悬,潘佳平.藏文网页爬虫设计与实现[J].信息与电脑（理论版）,2012(9):36-37. 被引量：5
2刘汇丹,诺明花,马龙龙,吴健,贺也平.Web藏文文本资源挖掘与利用研究[J].中文信息学报,2015,29(1):170-177. 被引量：6
3刘徽,黄宽娜,余建桥.一种Deep Web爬虫爬行策略[J].计算机工程,2012,38(11):284-286. 被引量：4
4陈琪,李永宏,于洪志.藏文网页抓取及编码统一转换的系统研究[J].西北民族大学学报（自然科学版）,2009,30(2):22-26. 被引量：4
5荣光,张化祥.一种Deep Web爬虫的设计与实现[J].计算机与现代化,2009(3):31-34. 被引量：5
6孙立伟,何国辉,吴礼发.网络爬虫技术的研究[J].电脑知识与技术（过刊）,2010,0(15):4112-4115. 被引量：133
7才让加.藏语语料库加工方法研究[J].计算机工程与应用,2011,47(6):138-139. 被引量：13
8才藏太.藏文语料库深加工方法研究[J].计算机工程与应用,2012,48(26):127-130. 被引量：2
9李盛韬,余智华,程学旗,白硕.Web信息采集研究进展[J].计算机科学,2003,30(2):151-157. 被引量：25
10姜杉彪,黄凯林,卢昱江,张俊杰,曾志高,刘强.基于Python的专业网络爬虫的设计与实现[J].企业科技与发展,2016(8):17-19. 被引量：31

二级参考文献135

1凌妍妍,刘伟,王仲远,艾静,孟小峰.Deep Web数据集成中的实体识别方法[J].计算机研究与发展,2006,43(z3):46-53. 被引量：4
2郑冬冬,赵朋朋,崔志明.Deep Web爬虫研究与设计[J].清华大学学报（自然科学版）,2005,45(S1):1896-1902. 被引量：28
3王维兰,陈万军.藏文字丁、音节频度及其信息熵[J].术语标准化与信息技术,2004(2):27-31. 被引量：17
4才藏太,李毛措.网络版班智达藏汉英电子词典的设计[J].计算机工程与应用,2005,41(17):126-128. 被引量：6
5才让加,吉太加.基于藏语语料库的词类分类方法研究[J].西北民族大学学报（自然科学版）,2005,26(2):39-42. 被引量：5
6彭建荣,罗永会.搜索引擎的基本原理及发展趋势[J].电脑知识与技术,2006,1(1):84-85. 被引量：7
7刘华.超大规模分类语料库构建[J].现代图书情报技术,2006(1):71-73. 被引量：6
8郑冬冬,崔志明.Deep Web爬虫爬行策略研究[J].计算机工程与设计,2006,27(17):3154-3158. 被引量：13
9陈珂,陈小英,徐科.Hidden Web信息获取[J].计算机时代,2007(5):54-56. 被引量：3
10黄昌宁,赵海.中文分词十年回顾[J].中文信息学报,2007,21(3):8-19. 被引量：248

共引文献238

1周璐,杨保岑,李伟凡,张秋实.内河航道综合信息服务中助航数据获取的方法研究与应用[J].中国水运（下半月）,2021(2):10-12.
2彭新林,赵辉.恶意网络爬虫行为的刑事规制及其完善[J].刑法论丛,2022(1):217-236.
3饶传平.论数据抓取法律风险的流程化管理[J].东方法学,2023(6):28-42. 被引量：1
4金静梅.基于网络爬虫的城市天气服务系统设计与实现[J].办公自动化,2021,26(19):58-59. 被引量：2
5朱素媛,马溪俊,梁昌勇.人工智能技术在搜索引擎中的应用[J].合肥工业大学学报（自然科学版）,2003,26(z1):657-661. 被引量：17
6高定国,索郎桑姆.大型藏语平衡语料库建设中样本类别号的研究[J].西藏大学学报（社会科学版）,2013,28(4):54-58. 被引量：1
7熊海灵,伍胜,余建桥,李航.一种基于RPUC的Web文档索引库的更新算法[J].计算机科学,2004,31(8):95-96. 被引量：1
8刘红,邵晓良,胡吉兵.基于页面内容和链接结构的超链接主题预测算法[J].现代图书情报技术,2005(5):41-45. 被引量：1
9李春旺.Web信息主题采集技术研究[J].图书情报工作,2005,49(4):77-80. 被引量：17
10杨宝森,来玲.面向学科的网络信息挖掘系统研究[J].情报理论与实践,2006,29(2):240-242. 被引量：3

同被引文献17

1金澎,吴云芳,俞士汶.词义标注语料库建设综述[J].中文信息学报,2008,22(3):16-23. 被引量：17
2黄立波,朱志瑜.国内英汉双语平行语料库建构与研究现状及展望[J].当代外语研究,2013(1):45-49. 被引量：21
3张振虹,何美,韩智.大学公共英语多模态语料库的构建与应用[J].山东外语教学,2014,35(3):50-55. 被引量：27
4黄立鹤.语料库4.0:多模态语料库建设及其应用[J].解放军外国语学院学报,2015,38(3):1-7. 被引量：62
5范俊军.中国濒危语言有声语档数据规则[J].西北民族大学学报（哲学社会科学版）,2016(3):53-61. 被引量：6
6张晓,丽娜.EXMARaLDA在濒危语言语料库建设中的应用[J].伊犁师范学院学报（自然科学版）,2017,11(1):85-88. 被引量：2
7刘剑.国外多模态语料库建设及相关研究述评[J].外语教学,2017,38(4):40-45. 被引量：27
8操镭,尹蔚彬,孙沁瑶,王志,于重重,李道玮.濒危语言口语语料库的研究与构建——以吕苏语为范例[J].计算机工程与应用,2018,54(2):234-238. 被引量：6
9刘连芳,海银花,那顺乌日图,黄家裕,吐尔根·依布拉音,玄龙云.壮、蒙古、维、哈、柯、朝语信息处理研究进展[J].广西科学院学报,2018,34(1):18-26. 被引量：7
10徐健,热依曼.吐尔逊,吾守尔.斯拉木.在线多语种语音语料库平台的研究与实现[J].信息通信,2018,31(4):150-153. 被引量：3

引证文献1

1张晓.一种网络多模态语料库构建方法[J].软件导刊,2018,17(11):49-51.

1王利霞,高丽婷,李建华.身份认证技术在网站中的应用[J].河北建筑工程学院学报,2009,27(2):110-113. 被引量：2
2王芳,陈海建.深入解析Web主题爬虫的关键性原理[J].微型电脑应用,2011(7):32-34. 被引量：8
3李光杰,王聪.基于栈的非递归深度优先遍历算法设计与实现[J].电脑知识与技术,2014,10(1X):470-472. 被引量：2
4林尚垣.图的深度优先遍历智能化分析与实现[J].海南大学学报（自然科学版）,2005,23(2):150-157. 被引量：2
5张云洋.藏文网页搜索关键技术研究[J].计算机时代,2017(6):22-25.
6戚利娜,刘建东.基于Python的简单网络爬虫的实现[J].电脑编程技巧与维护,2017(8):72-73. 被引量：9
7张锦,林亚平,王雷,陈治平.传感器网络中关键点选取策略研究[J].计算机工程与应用,2004,40(20):146-148.
8刘书影.基于Node.JS的轻量级定向爬虫算法的设计与应用[J].哈尔滨师范大学自然科学学报,2016,32(6):26-29. 被引量：1
9王玉英.基于程序依赖图的软件植入范围选取策略[J].西安文理学院学报（自然科学版）,2005,8(4):61-64.
10付敬鼎,张建勇,贾晓强.Web文本分类中的反作弊研究[J].网友世界,2013(18):7-7.

通讯世界

2017年第9期

浏览历史

内容加载中请稍等...

一种藏语语料网页数据的采集方法被引量：1

参考文献11

二级参考文献135

共引文献238

同被引文献17

引证文献1

相关作者

相关机构

相关主题

浏览历史

一种藏语语料网页数据的采集方法 被引量：1

参考文献11

二级参考文献135

共引文献238

同被引文献17

引证文献1

相关作者

相关机构

相关主题

浏览历史

一种藏语语料网页数据的采集方法被引量：1