期刊文献+

全文检索系统中语种识别与索引技术研究 被引量:3

原文传递
导出
摘要 在新疆应用的全文检索系统中,需要区分文本的语种。由于国际编码规则的原因,新疆的维吾尔文、哈萨克文、柯尔克孜文借用了阿拉伯语系的部分字母,三种文字的字符集编码有大部分的重叠。本文通过研究三种文字的字符集编码,结合文字组词规则,设计了区分三种语种的算法,为进一步建立索引提供基础。
出处 《网络安全技术与应用》 2009年第12期49-51,共3页 Network Security Technology & Application
  • 相关文献

同被引文献29

  • 1艾赛提江.艾拜都拉.维文搜索引擎设计及实现[J].新疆教育学院学报,2004,20(4):102-106. 被引量:3
  • 2维尼拉.木沙江,吐尔地.托合提,吐尔洪.吾司曼.基于重定位的维、哈、柯文Unicode编码及多文种索引技术研究[J].郑州大学学报(理学版),2009,41(1):48-49. 被引量:2
  • 3阿布力米提.阿不都热依木.WindowsXP维吾尔文平台的研究[J].计算机工程与应用,2005,41(11):158-159. 被引量:9
  • 4冯冲,黄河燕,陈肇雄,张亮.基于字符层马尔科夫模型的多语种识别[J].计算机科学,2006,33(1):226-228. 被引量:5
  • 5哈力克·尼亚孜,吾买尔·阿皮孜.基础维吾尔语[M].新疆大学,1995:1-2.
  • 6Imad Saleh, Waris Abdukerim Janbaz. Web Development Considerations for Unicode-based Text Processing in Uyghur Language[C]//Proeeedings of the 30th Internationalization and Unicode Conference, November 2006, Washington, DC USA:15-17.
  • 7Shanjian Li, Katsuhiko Momoi. A composite approach to language/encoding detection[OL], http://www-archive. mozilla, org/projects/intl/UniversalCharsetDetection. html.
  • 8Seungbeom Kim, Jongsoo Park. Automatic Detection of Character Encoding and Language[R],CS 229, Machine Learning, Autumn 2007, Stanford University.
  • 9R D Lins and P. Gonsalves. Automatic language identi_cation of written texts [C]//Proceedings of SAC-2004, the 2004 ACM symposium on Applied compu-ting, ACM Press, 2004:1128-1133.
  • 10Chew Y Choong, Yoshiki Mikami, C A Marasinghe etal. Optimizing ngram Order of an ngram Based Lan-guage Identification Algorithm for 68 Written Langua-ges[J]. The International Journal on Advances in ICTfor Emerging Regions 2009 .02 (02) : 21-28.

引证文献3

二级引证文献10

相关作者

内容加载中请稍等...

相关机构

内容加载中请稍等...

相关主题

内容加载中请稍等...

浏览历史

内容加载中请稍等...
;
使用帮助 返回顶部