基于语料库的藏语高频词抽取研究被引量：3

Study on Corpus-based Tibetan High-frequency Words Extraction

下载PDF

导出

摘要在借鉴汉语基于语料的词抽取技术研究成果的基础上,给出藏语文本预处理方法,并提出一种基于语料库的藏语高频词抽取算法,其中包括藏语文本预处理用噪音字表、紧缩词及其预处理方法和基于语料库的藏语高频词抽取算法。实验结果表明,该算法的准确率达86.22%,召回率达89.79%,F值达87.94%。 Based on the research foundlings of Chinese corpus’ extraction,this paper presents the Tibetan preprocessing method and the high-frequency words extraction algorithm,which consists of the tables of noise words,tighten-word,preprocessing method and high-frequency words extraction algorithm.Experimental results show that this algorithm achieves a precision of 86.22%,a recall of 89.79%,and an F-measure of 87.94%.

作者才让卓玛才智杰

机构地区青海师范大学藏文信息处理省部共建教育部重点实验室

出处《计算机工程》 CAS CSCD 2012年第15期56-58,共3页 Computer Engineering

基金国家自然科学基金资助项目(61163018) 国家"973"计划前期研究专项基金资助项目(2010CB334708) 国家社会科学基金资助项目(09XYY024) 青海省科技厅应用基础研究计划基金资助项目(2011-Z-755 2011-Z-753) 青海师范大学科研创新计划基金资助项目青海师范大学中青年科研基金资助项目

关键词信息处理高频词藏语抽词自动分词语料库预处理 information processing high-frequency words Tibetan words extraction automatic words segmentation corpus preprocessing

分类号 TP391 [自动化与计算机技术—计算机应用技术]

引文网络
相关文献

参考文献22

1李庆虎,陈玉健,孙家广.一种中文分词词典新机制——双字哈希机制[J].中文信息学报,2003,17(4):13-18. 被引量：108
2黄昌宁,赵海.中文分词十年回顾[J].中文信息学报,2007,21(3):8-19. 被引量：249
3孙茂松,邹嘉彦.汉语自动分词研究评述[J].当代语言学,2001,3(1):22-32. 被引量：101
4陈玉忠,李保利,俞士汶.藏文自动分词系统的设计与实现[J].中文信息学报,2003,17(3):15-20. 被引量：51
5陈玉忠,李保利,俞士汶,兰措吉.基于格助词和接续特征的藏文自动分词方案[J].语言文字应用,2003(1):75-82. 被引量：49
6才智杰.藏文自动分词系统中紧缩词的识别[J].中文信息学报,2009,23(1):35-37. 被引量：70
7才智杰,才让卓玛.班智达藏文标注词典设计[J].中文信息学报,2010,24(5):46-49. 被引量：15
8高定国,龚育昌.现代藏字全集的属性统计研究[J].中文信息学报,2005,19(1):71-75. 被引量：32
9艾金勇,于洪志,李永宏.藏文字形结构计量统计分析[J].计算机应用,2009,29(7):2029-2031. 被引量：6
10才智杰,才让卓玛.基于语料库的藏文字属性分析系统设计[J].计算机工程,2011,37(22):270-272. 被引量：10

二级参考文献162

1孙茂松.谈谈汉语分词语料库的一致性问题[J].语言文字应用,1999(2):90-93. 被引量：20
2陈小荷.自动分词中未登录词问题的一揽子解决方案[J].语言文字应用,1999(3):103-109. 被引量：26
3黄昌宁.中文信息处理中的分词问题[J].语言文字应用,1997(1):74-80. 被引量：83
4孙茂松,张磊.人机并存,“质”“量”合一—谈谈制定信息处理用汉语词表的策略[J].语言文字应用,1997(1):81-88. 被引量：7
5黄居仁,陈克健,陈凤仪,魏文真,张丽丽.《资讯处理用中文分词规范》设计理念及规范内容[J].语言文字应用,1997(1):94-102. 被引量：6
6刘开瑛.现代汉语自动分词评测技术研究[J].语言文字应用,1997(1):103-108. 被引量：15
7董振东.汉语分词研究漫谈[J].语言文字应用,1997(1):109-114. 被引量：11
8孙茂松,邹嘉彦.汉语自动分词研究中的苦干理论问题[J].语言文字应用,1995(4):40-46. 被引量：45
9郑家恒,刘开瑛.汉语姓名自动辨识初探[J].语言文字应用,1994(2):65-68. 被引量：4
10格桑居冕.藏文字性法与古藏语音系[J].民族语文,1991(6):12-22. 被引量：9

共引文献1009

1唐琳,郭崇慧,陈静锋.中文分词技术研究综述[J].数据分析与知识发现,2020,4(2):1-17. 被引量：43
2李斌,袁义国,芦靖雅,冯敏萱,许超,曲维光,王东波.第一届古代汉语分词和词性标注国际评测[J].中文信息学报,2023,37(3):46-53. 被引量：5
3才智杰,才让卓玛,孙茂松.一种多基元联合训练的藏文词向量表示方法[J].中文信息学报,2020(5):44-49. 被引量：4
4李对红,王裴岩 ,张桂平,张少阳.基于字簇的多模型中文分词方法研究[J].计算机应用研究,2020,37(2):355-359. 被引量：2
5王蔚,吴建明,刘磊.汉字的理据性[J].汉字文化,2024(5):129-133.
6宋凯丽,李云岭,姚露露.基于条件随机场的分词标注一体化地址解析方法[J].测绘地理信息,2021,46(S01):185-187. 被引量：4
7姚露露,李云岭,宋凯丽.中文地名地址标注方法研究[J].测绘地理信息,2021,46(S01):182-184. 被引量：1
8沈芳婷,于艳华,李志强,李劼.基于Attention-Comprehension OpenTag的人物属性抽取算法[J].新一代信息技术,2022,5(6):1-5.
9段小斌,林雯,阮百尧,陈基漓.一种基于三级索引词库结构的中文分词方法研究[J].计算机与数字工程,2007,35(7):47-49. 被引量：5
10周蕾,朱巧明,李培峰.一种基于统计和规则的未登录词识别方法[J].南京大学学报（自然科学版）,2005,41(z1):819-825. 被引量：1

同被引文献65

1陈保亚.汉越(侗台黎)六畜词文化有阶分析[J].民族语文,2000(4):34-42. 被引量：6
2蔡荣男.傣语长短元音的声学分析[J].南开语言学刊,2003(1):43-48. 被引量：6
3周学文.内爆音发音机理的声学表现——壮语内爆音的声学分析[J].南开语言学刊,2010(1):37-44. 被引量：5
4陈保亚.再论核心关系词的有阶分布[J].民族语文,1998(3):35-41. 被引量：8
5杨鉴,刘兵,普圆媛.纳西语辅音的声学分析[J].民族语文,1998(5):37-41. 被引量：1
6陈保亚.汉台关系词双向相对有阶分析[J].语言研究,1998,18(2):171-188. 被引量：3
7倪大白.中国的壮侗语与南岛语[J].中央民族大学学报（哲学社会科学版）,1988,15(3):54-64. 被引量：19
8石锋,石林,廖荣蓉.高坝侗语五个平调的实验分析[J].民族语文,1988(5):14-23. 被引量：5
9董为光.汉语侗台语语源联系举例[J].语言研究,1984,4(2):205-214. 被引量：4
10宋金兰.汉语和藏缅语住所词的同源关系[J].民族语文,1994(1):41-49. 被引量：4

引证文献3

1李建平.手法治疗骶髂关节错缝52例[J].按摩与导引,2000,16(3):52-53.
2韦树关.新时期中国少数民族语言研究方法创新与实践[J].广西民族大学学报（哲学社会科学版）,2013,35(6):2-6. 被引量：1
3白曙光,林民,李艳玲,张树钧.文本关键词抽取方法及在几种民族语言上的应用[J].内蒙古师范大学学报（自然科学版）,2021,50(2):134-144. 被引量：1

二级引证文献2

1覃玉荣,靳晓斌.“一带一路”建设下广西与东盟多元文化融合的思考——基于跨文化交际视角[J].广西社会科学,2017(12):67-70. 被引量：11
2孔令云,陈进东.全国电子电器行业质量安全现状与对策建议[J].系统科学与数学,2022,42(10):2602-2615. 被引量：1

1李亚超,加羊吉,宗成庆,于洪志.基于条件随机场的藏语自动分词方法研究与实现[J].中文信息学报,2013,27(4):52-58. 被引量：27
2才智杰.藏文自动分词系统中紧缩词的识别[J].中文信息学报,2009,23(1):35-37. 被引量：70
3李江华,时鹏,郑剑.一种基于语料的本体评价方法[J].情报杂志,2012,31(7):187-190. 被引量：5
4完么扎西,尼玛扎西.藏语自动分词中的几个关键问题的研究[J].中文信息学报,2014,28(4):132-139. 被引量：7
5郑家恒,杜永萍,刘昌钰.基于语料的动态获取专业词汇方法初探[J].计算机工程,2002,28(5):64-66. 被引量：4
6李湘东,巴志超,黄莉.基于语料信息度量的文本分类性能影响研究[J].情报杂志,2014,33(9):157-162. 被引量：5
7应志伟,柴佩琪,陈其晖.文语转换系统中基于语料的汉语自动分词研究[J].计算机应用,2000,20(2):8-11. 被引量：8
8陆剑江,钱培德.基于语料的Web页面抽取器的研究与实现[J].计算机工程,2003,29(6):34-35. 被引量：4
9曾依灵,许洪波,吴高巍,白硕.一种基于语料特性的聚类算法[J].软件学报,2010,21(11):2802-2813. 被引量：8
10杨锦锋,关毅.基于免疫原理词表示的词相似度计算[J].智能计算机与应用,2015,5(3):61-64.

计算机工程

2012年第15期

浏览历史

内容加载中请稍等...

基于语料库的藏语高频词抽取研究被引量：3

参考文献22

二级参考文献162

共引文献1009

同被引文献65

引证文献3

二级引证文献2

相关作者

相关机构

相关主题

浏览历史

基于语料库的藏语高频词抽取研究 被引量：3

参考文献22

二级参考文献162

共引文献1009

同被引文献65

引证文献3

二级引证文献2

相关作者

相关机构

相关主题

浏览历史

基于语料库的藏语高频词抽取研究被引量：3