全文检索系统中语种识别与索引技术研究被引量：3

导出

摘要在新疆应用的全文检索系统中,需要区分文本的语种。由于国际编码规则的原因,新疆的维吾尔文、哈萨克文、柯尔克孜文借用了阿拉伯语系的部分字母,三种文字的字符集编码有大部分的重叠。本文通过研究三种文字的字符集编码,结合文字组词规则,设计了区分三种语种的算法,为进一步建立索引提供基础。

作者薛亚平袁保社

机构地区新疆大学信息科学与工程学院

出处《网络安全技术与应用》 2009年第12期49-51,共3页 Network Security Technology & Application

关键词全文检索语种识别索引

分类号 TP391.3 [自动化与计算机技术—计算机应用技术]

引文网络
相关文献

同被引文献29

1艾赛提江.艾拜都拉.维文搜索引擎设计及实现[J].新疆教育学院学报,2004,20(4):102-106. 被引量：3
2维尼拉.木沙江,吐尔地.托合提,吐尔洪.吾司曼.基于重定位的维、哈、柯文Unicode编码及多文种索引技术研究[J].郑州大学学报（理学版）,2009,41(1):48-49. 被引量：2
3阿布力米提.阿不都热依木.WindowsXP维吾尔文平台的研究[J].计算机工程与应用,2005,41(11):158-159. 被引量：9
4冯冲,黄河燕,陈肇雄,张亮.基于字符层马尔科夫模型的多语种识别[J].计算机科学,2006,33(1):226-228. 被引量：5
5哈力克·尼亚孜,吾买尔·阿皮孜.基础维吾尔语[M].新疆大学,1995:1-2.
6Imad Saleh, Waris Abdukerim Janbaz. Web Development Considerations for Unicode-based Text Processing in Uyghur Language[C]//Proeeedings of the 30th Internationalization and Unicode Conference, November 2006, Washington, DC USA:15-17.
7Shanjian Li, Katsuhiko Momoi. A composite approach to language/encoding detection[OL], http://www-archive. mozilla, org/projects/intl/UniversalCharsetDetection. html.
8Seungbeom Kim, Jongsoo Park. Automatic Detection of Character Encoding and Language[R],CS 229, Machine Learning, Autumn 2007, Stanford University.
9R D Lins and P. Gonsalves. Automatic language identi_cation of written texts [C]//Proceedings of SAC-2004, the 2004 ACM symposium on Applied compu-ting, ACM Press, 2004:1128-1133.
10Chew Y Choong, Yoshiki Mikami, C A Marasinghe etal. Optimizing ngram Order of an ngram Based Lan-guage Identification Algorithm for 68 Written Langua-ges[J]. The International Journal on Advances in ICTfor Emerging Regions 2009 .02 (02) : 21-28.

引证文献3

1倪耀群,曹鹏,许洪波,唐慧丰,程学旗.网络维吾尔文判别及其文本长度下界的探讨[J].中文信息学报,2012,26(6):109-115. 被引量：2
2王超,森干,杜守洪,罗雪琼,王爽,陈国忠,周毅.维医药信息平台维文模块的研究与开发[J].现代医院,2013,13(12):135-137. 被引量：3
3买买提依明.哈斯木,吾守尔.斯拉木,维尼拉.木沙江,努尔麦麦提.尤鲁瓦斯.基于统计专用字符的维、哈、柯文文种识别研究[J].中文信息学报,2015,29(2):111-117. 被引量：5

二级引证文献10

1买买提依明.哈斯木,吾守尔.斯拉木,维尼拉.木沙江,努尔麦麦提.尤鲁瓦斯.基于统计专用字符的维、哈、柯文文种识别研究[J].中文信息学报,2015,29(2):111-117. 被引量：5
2马志强,张泽广,闫瑞,杨双涛.面向蒙古文主题的网络爬虫采集策略模型[J].北京工业大学学报,2015,41(7):1012-1019.
3张剑,买买提江.吾布力,李俊红.恩替卡韦联合护肝布祖热颗粒治疗维吾尔族、汉族慢性乙型肝炎患者的疗效比较[J].中国肝脏病杂志（电子版）,2016,8(1):44-48. 被引量：1
4刘旭.双向文本元素在SVG中的显示技术[J].计算机系统应用,2017,26(4):246-251. 被引量：2
5何峻青,黄娴,赵学敏,张克亮.利用领域外数据对口语风格短文本的相近语种识别研究[J].中文信息学报,2019,33(3):71-78. 被引量：2
6李顺,木特力铺.马木提,吾尔尼沙.买买提,阿力木江.艾沙,库尔班.吾布力.基于离散曲波变换的多文种文档图像文种识别[J].计算机工程与设计,2019,40(5):1376-1382. 被引量：4
7王群,贾连群,郑思成,杨关林.基于文献计量学的动脉粥样硬化中西医研究进展可视化分析[J].世界中医药,2019,14(8):2166-2176. 被引量：7
8吴正健,木特力甫·马木提,吾尔尼沙·买买提,阿力木江·艾沙,库尔班·吾布力.基于LTP和HOG纹理特征融合的中亚文档图像文种识别[J].山东大学学报（工学版）,2021,51(2):115-121. 被引量：3
9熊黎剑,吾守尔·斯拉木,许苗苗.基于Django印刷体维吾尔文识别系统的设计与实现[J].郑州大学学报（理学版）,2021,53(3):9-14. 被引量：2
10曲超,石岩,杨宇峰.基于知识图谱的法尼醇X受体在糖尿病领域国际研究现状分析[J].中华中医药学刊,2019,37(9):2290-2294. 被引量：4

1朱德平.Java字符集编码应用探讨[J].电脑编程技巧与维护,2013(14):10-11.
2何华,卜佳俊.数据库管理系统的多字符集支持[J].计算机应用研究,2005,22(12):79-81. 被引量：2
3仁庆道尔吉,王宇平.有限字符集编码下的模式定理及其证明[J].西安电子科技大学学报,2012,39(6):99-103. 被引量：1
4杨昭兵.基于JSP WEB动态网页技术中中文乱码问题及解决方案[J].甘肃科技纵横,2010,39(6):40-41. 被引量：5
5肖诗源,许毅平,周曼丽,刘贤德.一种BACnet协议的多字符集方案[J].计算机工程与应用,2004,40(24):131-133.
6丁志义,马希荣.西夏字符集编码和字库构造方法[J].固原师专学报,1999,20(6):1-5.
7刘继峰,王一五.Java中文编码问题的产生与处理[J].大连大学学报,2006,27(4):108-111.
8陈小莹,艾金勇.基于小字符集编码的藏文音节结构判定[J].西北民族大学学报（自然科学版）,2015,36(4):33-36. 被引量：2
9彭利民,孙素云.JSP和Servlet网络编程设计中汉字编码的研究[J].计算机与现代化,2006(3):43-44. 被引量：4
10新疆报纸达到一百种[J].新疆新闻出版,2006,0(5):22-22.

网络安全技术与应用

2009年第12期

浏览历史

内容加载中请稍等...

全文检索系统中语种识别与索引技术研究被引量：3

同被引文献29

引证文献3

二级引证文献10

相关作者

相关机构

相关主题

浏览历史

全文检索系统中语种识别与索引技术研究 被引量：3

同被引文献29

引证文献3

二级引证文献10

相关作者

相关机构

相关主题

浏览历史

全文检索系统中语种识别与索引技术研究被引量：3