藏文搜索引擎中的分词算法研究被引量：4

Research on Algorithm of Word Segmentation in Tibetan Search Engine

下载PDF

导出

摘要随着藏文信息技术的不断普及和发展,搜索引擎技术成为藏文信息处理一项新的研究课题。对搜集到的藏文网页文本或用户查询关键词进行理解、提取和组织等处理是搜索引擎的一项基础性工作,其中藏文分词的准确与否,直接影响到搜索引擎查询效果及查询结果列表的排序问题,因此分词成为藏文搜索引擎技术中需要解决的关键问题。文章针对藏文搜索引擎中基于字符串匹配的藏文分词技术进行研究并提出相应的解决算法。 The search engine technology has become a new research topic in the Tibetan information processing with the growing popularity of information technology and its development. The understanding of gathered Tibetan web page text or user inquiring keywords and its extraction and processing are the basic work of the search engine, which cannot be avoided Tibetan word segmentation. The accuracy of Tibetan word segmentation directly affects on the efficiency of inquiring with search engine and the list order of sorted information. As the result, Tibetan word segmentation becomes the key point in the Tibetan search engine process. In the present paper, the technique of identifying the Tibetan word segmentation in Tibetan search engine process was analyzed based on character string match and provided an appropriate solution.

作者才让叁智

机构地区西藏大学藏文信息技术研究中心

出处《西藏大学学报（社会科学版）》 CSSCI 2013年第5期53-57,共5页 Journal of Tibet University

基金 2013年度西藏大学青年科研培育基金项目"藏文搜索引擎倒排索引模块的设计与实现"(项目号:ZDPJZK201310) 2011年度国家自然科学基金项目"基于虚词的藏语基本句型的形式化研究"(项目号:61063015) 2011年度国家自然科学基金项目"藏语依存树库的构建"(项目号:61163043)阶段性成果

关键词藏文搜索引擎藏文文本藏文分词 Tibetan search engine Tibetan text Tibetan word segmentation

分类号 TP391.1 [自动化与计算机技术—计算机应用技术]

引文网络
相关文献

参考文献5

1俞士汶.计算语言学概论[M]北京:商务印书馆.
2毛尔盖?桑木旦.藏文文法概论[M]西宁:青海民族出版社.
3Michael Ekedahl;Viaual Basic.NET程序员教程[M]北京:清华大学出版社.
4刘奕群;马少平;洪涛;刘子正.搜索引擎技术基础[M]北京:清华大学出版社.
5李晓明;闫宏飞;王继民.搜索引擎--原理、技术与系统[M]北京:科学出版社.

同被引文献49

1普布旦增,欧珠.藏文分词中交集型歧义字段的切分方法研究[J].西藏大学学报（社会科学版）,2010,25(S1):196-197. 被引量：2
2才华.基于小字符集的藏文自动分词技术研究[J].西藏大学学报（社会科学版）,2013,28(5):43-47. 被引量：3
3高定国,龚育昌.现代藏字全集的属性统计研究[J].中文信息学报,2005,19(1):71-75. 被引量：32
4孙茂松,黄昌宁,高海燕,方捷.中文姓名的自动辨识[J].中文信息学报,1995,9(2):16-27. 被引量：87
5崔维梅,范荣鹏.搜索引擎技术的现状和热点[J].青年记者,2006(16):116-117. 被引量：7
6张文静.搜索引擎的分类及发展趋势[J].焦作大学学报,2006,20(3):76-78. 被引量：5
7才智杰.藏文自动分词系统中紧缩词的识别[J].中文信息学报,2009,23(1):35-37. 被引量：70
8江涛,于洪志,徐涛.互联网藏文内容安全检测过滤系统研究[J].信息网络安全,2009(10):47-48. 被引量：4
9江荻,燕海雄.藏文字符的分类与功能描述[J].西藏研究,2010(5):75-85. 被引量：2
10陆玉清,洪宇,陆军,姚建民,朱巧明.基于上下文的真词错误检查及校对方法[J].中文信息学报,2011,25(1):85-90. 被引量：5

引证文献4

1鲍永庆,袁建,达娃卓玛,格桑央吉.藏文搜索引擎关键技术分析[J].西藏科技,2016(2):79-80. 被引量：1
2才让叁智,关白.基于规则的现代藏文音节字检错研究[J].西藏大学学报（社会科学版）,2017,32(2):70-77. 被引量：5
3刘晓彤,赵小兵.藏文自动分词技术研究[J].中央民族大学学报（自然科学版）,2022,31(2):63-66. 被引量：2
4刘永志,吴刚,才藏太.基于Vague相似性的文献推荐研究[J].贵州大学学报（自然科学版）,2023,40(1):70-74.

二级引证文献8

1王福钊,周雁.藏文音节的错误检测方法研究[J].计算机时代,2020,0(1):5-9. 被引量：1
2更桑吉,安见才让.基于有限状态自动机的藏文音节组织研究[J].计算机时代,2021(1):65-67.
3刘泽军,杨士伟.藏文文本错误检错系统的设计与实现[J].数字技术与应用,2022,40(2):173-176. 被引量：1
4王蒙,彭展,杨涵刈.基于藏文元音构件的字符串匹配算法[J].电子技术与软件工程,2022(18):137-142.
5王蒙,彭展.一种基于AC自动机的藏文多模式匹配算法[J].电子技术与软件工程,2023(1):143-148.
6普哇拉毛,尼玛扎西,道吉扎西,王超.藏文文本校对技术研究进展[J].高原科学研究,2023,7(2):99-104.
7才让草.浅析甘南州藏文科技文献资源共享平台建设[J].科技经济导刊,2016(13).
8次仁白玛,尼玛扎西.藏文拼写检查技术研究综述[J].高原科学研究,2019,3(2):93-102. 被引量：1

1刘晋.藏文信息技术在民族语文现代化进程中的作用[J].中国民族,2003(5):52-53. 被引量：1
2刘晋.藏文信息技术在民族语文现代化进程中的作用[J].甘肃民族研究,2003(1):80-82.
3我校1项科技成果获国家科技进步二等奖[J].西藏大学学报（社会科学版）,2012,27(1):150-150.
4尕玛草.藏文信息技术标准化研究[J].硅谷,2010,3(19):187-187.
5吴刚,德熙嘉措,黄鹤鸣.印刷体藏文识别技术[J].青海师范大学学报（自然科学版）,2006,22(1):32-37. 被引量：7
6高强.高原人才立新功古老文字展新颜--西藏大学藏文信息技术研究中心[J].科技成果管理与研究,2014,0(9):49-49.
7珠杰,欧珠,格桑多吉.基于DOM修剪的藏文Web信息提取[J].计算机工程,2008,34(24):58-60. 被引量：7
8马达,哇彭措.面向信息处理的藏语人名研究[J].管理学家（学术版）,2014(2).
9王国栋,翟东海,班旦次仁,沈淑涛.藏语文本自动校对系统的设计与实现[J].中国科技纵横,2011(24):338-338.

西藏大学学报（社会科学版）

2013年第5期

浏览历史

内容加载中请稍等...

藏文搜索引擎中的分词算法研究被引量：4

参考文献5

同被引文献49

引证文献4

二级引证文献8

相关作者

相关机构

相关主题

浏览历史

藏文搜索引擎中的分词算法研究 被引量：4

参考文献5

同被引文献49

引证文献4

二级引证文献8

相关作者

相关机构

相关主题

浏览历史

藏文搜索引擎中的分词算法研究被引量：4