藏文文本分类特征基元选择被引量：1

Feature Primitives Selection for Tibetan Text Classification

下载PDF

导出

摘要文本分类是指根据预先定义的主题类别,按照一定的规则将文档集合中未知类别的文档按内容自动确定某种类别的技术,是自然语言处理中最基本、最重要的研究内容之一,在信息检索、智能推荐、舆情分析、新闻分类等领域具有极高的应用价值。现阶段,藏文文本分类的主要研究集中在借用英汉等语言文本分类技术构建分类器,英汉等语言以词做分类特征基元构建分类器。由于受藏文分词技术制约,直接以词做藏文文本分类特征基元,其性能有较大的影响。该文在分析文本分类流程及藏文文本构成的基础上,研究了藏文文本分类特征基元选择方法,提出了一种融合词和音节的藏文文本分类特征基元选择方法,并以CNN模型构建的分类器验证了该方法的有效性。 Text classification refers to automatically determining a document for its category according to the predefined topic categories.At present,the most existing researches on Tibetan text classification are focused on using English and Chinese text classification technology to build classifiers,which are usually based on word features.Due to the restriction of Tibetan word segmentation technology,the performance of Tibetan text classification is greatly affected by using word features.This paper proposes a feature primitives selection method for Tibetan text classification by combining words and syllables,and the classifier constructed by CNN model verifies the effectiveness of the method.

作者才智杰道吉扎西 CAI Zhijie;DAO Jizhaxi(College of Computer Science and Technology,Qinghai Normal University,Xi ning,Qinghai 810016,China;The State Key Laboratory of Tibetan Intelligent Information Processing and Application,Xi ning,Qinghai 810008,China;School of Information Science and Technology,Tibetan University,Lhasa,Tibetan 850000,China)

机构地区青海师范大学计算机学院省部共建藏语智能信息处理及应用国家重点实验室西藏大学信息科学技术学院

出处《中文信息学报》 CSCD 北大核心 2023年第1期64-70,共7页 Journal of Chinese Information Processing

基金国家自然科学基金(61866032,61966031) 青海省科技厅资助项目(2019-SF-129) “长江学者和创新团队发展计划”创新团队资助项目(IRT1068) 藏文信息处理教育部重点实验室项目(2013-Z-Y17,2014-Z-Y32,2015-Z-Y03) 青海省藏文信息处理与机器翻译重点实验室项目(2020-ZJ-Y05)。

关键词自然语言处理藏文基元文本分类 natural language processing Tibetan primitives text classification

分类号 TP391 [自动化与计算机技术—计算机应用技术]

引文网络
相关文献

参考文献17

1才智杰.藏文自动分词系统中紧缩词的识别[J].中文信息学报,2009,23(1):35-37. 被引量：70
2才智杰.班智达藏文自动分词系统的设计与实现[J].青海师范大学民族师范学院学报,2010,21(2):75-77. 被引量：18
3才智杰,才让卓玛.藏文自动分词系统的设计[J].计算机工程与科学,2011,33(5):151-154. 被引量：14
4才智杰,才让卓玛.班智达藏文标注词典设计[J].中文信息学报,2010,24(5):46-49. 被引量：15
5史晓东,卢亚军.央金藏文分词系统[J].中文信息学报,2011,25(4):54-56. 被引量：30
6李亚超,加羊吉,宗成庆,于洪志.基于条件随机场的藏语自动分词方法研究与实现[J].中文信息学报,2013,27(4):52-58. 被引量：28
7李亚超,江静,加羊吉,于洪志.TIP-LAS：一个开源的藏文分词词性标注系统[J].中文信息学报,2015,29(6):203-207. 被引量：28
8李亚超,加羊吉,江静,何向真,于洪志.融合无监督特征的藏文分词方法研究[J].中文信息学报,2017,31(2):71-75. 被引量：9
9才让卓玛,才智杰.基于词性约束的藏文分词策略与算法[J].中文信息学报,2020,34(2):33-37. 被引量：7
10Mohamed Goudjil,Mouloud Koudil,Mouldi Bedda,Noureddine Ghoggali.A Novel Active Learning Method Using SVM for Text Classification[J].International Journal of Automation and computing,2018,15(3):290-298. 被引量：24

二级参考文献99

1J.Alamelu Mangai,V.Santhosh Kumar,S.Appavu alias Balamurugan.A Novel Feature Selection Framework for Automatic Web Page Classification[J].International Journal of Automation and computing,2012,9(4):442-448. 被引量：3
2李艾林,李照耀.基于朴素贝叶斯技术的藏文文本分类[J].中文信息,2013(11). 被引量：4
3孙茂松,邹嘉彦.汉语自动分词研究评述[J].当代语言学,2001,3(1):22-32. 被引量：102
4王维兰,陈万军.藏文字丁、音节频度及其信息熵[J].术语标准化与信息技术,2004(2):27-31. 被引量：17
5宋金兰.汉藏语形态变体的分化[J].民族语文,2002(1):29-33. 被引量：5
6才智杰.藏汉英电子词典的开发研究[J].青海师范大学学报（自然科学版）,2005,21(2):48-50. 被引量：8
7顾益军,樊孝忠,王建华,汪涛,黄维金.中文停用词表的自动选取[J].北京理工大学学报,2005,25(4):337-340. 被引量：35
8才让加,吉太加.藏语语料库的词性分类方法研究[J].青海师范大学学报（哲学社会科学版）,2005,27(4):112-114. 被引量：5
9孙茂松,黄昌宁,高海燕,方捷.中文姓名的自动辨识[J].中文信息学报,1995,9(2):16-27. 被引量：87
10才藏太,华关加.班智达汉藏公文翻译系统中基于二分法的句法分析方法研究[J].中文信息学报,2005,19(6):7-12. 被引量：10

共引文献177

1沙九,冯冲,周鹭琴,李洪政,张天夫,慧慧.面向司法领域的高质量开源藏汉平行语料库构建[J].中文信息学报,2021,35(11):51-59. 被引量：4
2Shengxiang Zhang,Chao Shi,Xin Jiang,Ying Zhang,Lu Zhang.Analysis of the trend of global power sources based on comment emotion mining[J].Global Energy Interconnection,2020,3(3):283-291. 被引量：3
3才华.基于小字符集的藏文自动分词技术研究[J].西藏大学学报（社会科学版）,2013,28(5):43-47. 被引量：3
4拥措.基于朴素贝叶斯算法的藏文垃圾短信过滤初探[J].西藏大学学报（社会科学版）,2013,28(4):59-64.
5李艾林,李照耀.基于朴素贝叶斯技术的藏文文本分类[J].中文信息,2013(11). 被引量：4
6完么扎西.藏语词语兼类情况及识别规则库[J].西藏大学学报（社会科学版）,2014,29(5):87-94.
7高定国,关白.回顾藏文信息处理技术的发展[J].西藏大学学报（社会科学版）,2009,24(3):18-27. 被引量：17
8才智杰,才让卓玛.基于建构主义学习理论的藏文音素拼读法MCAI设计[J].微计算机信息,2010,26(6):220-221. 被引量：1
9才让卓玛,才智杰.现代藏文字构件分解方法[J].青海大学学报（自然科学版）,2010,28(4):83-86. 被引量：7
10才智杰,才让卓玛.班智达藏文标注词典设计[J].中文信息学报,2010,24(5):46-49. 被引量：15

同被引文献9

1闫健卓,李鹏英,方丽英,龙丽英,刘欣悦.基于X^2统计的改进文本特征选择方法[J].计算机工程与设计,2016,37(5):1391-1394. 被引量：8
2叶敏,汤世平,牛振东.一种基于多特征因子改进的中文文本分类算法[J].中文信息学报,2017,31(4):132-137. 被引量：11
3高宝林,周治国,杨文维,肖泽力.基于类别和改进的CHI相结合的特征选择方法[J].计算机应用研究,2018,35(6):1660-1662. 被引量：8
4王振,邱晓晖.混合CHI和MI的改进文本特征选择方法[J].计算机技术与发展,2018,28(4):87-90. 被引量：6
5马莹,赵辉,李万龙,庞海龙,崔岩.结合改进的CHI统计方法的TF-IDF算法优化[J].计算机应用研究,2019,36(9):2596-2598. 被引量：22
6蔡镇,高健,秦晓军.基于改进CHI和带权ECE结合的特征选择方法[J].计算机应用研究,2019,36(10):2962-2964. 被引量：4
7杨新怡,肖利雪.基于信息增益与CHI卡方统计的情感文本特征选择[J].计算机与数字工程,2020,48(11):2560-2563. 被引量：2
8文武,万玉辉,张许红,文志云.基于改进CHI和PCA的文本特征选择[J].计算机工程与科学,2021,43(9):1645-1652. 被引量：5
9宋阿羚,刘海峰,刘守生.基于位置及词频信息的优化CHI文本特征选择方法[J].计算机科学与应用,2015,5(9):322-330. 被引量：6

引证文献1

1冷婷,叶仁玉,徐思蓉.最大相关最小冗余两阶段文本特征选择方法[J].安徽理工大学学报（自然科学版）,2024,44(3):83-89.

1李晨希.国际中文教育领域研究热点与发展趋势可视化计量分析[J].长春师范大学学报,2023,42(1):152-158. 被引量：1
2郝婷,王薇.融合Bert和BiLSTM的中文短文本分类研究[J].软件工程,2023,26(3):58-62. 被引量：10
3韩爽爽.系统功能语言学视角下“然后”的语用分析[J].汉字文化,2023(1):105-108.
4胥桂仙,刘兰寅,张廷,董玉双.基于预训练模型和图神经网络的藏文文本分类研究[J].东北师大学报（自然科学版）,2023,55(1):52-64. 被引量：6
5丁云涛,才让卓玛,贡保加,才智杰.一种基于WaveNet的藏语语音合成方法[J].计算机仿真,2023,40(1):295-299. 被引量：4
6石洪影.厨余垃圾分类及减量化处理探讨[J].中文科技期刊数据库（文摘版）工程技术,2021(6):199-200.
7公保加羊,拉玛杰,官却多杰,索南多杰.基于深度学习的藏文舆情分析研究[J].青海科技,2023,30(1):56-60.
8张九玲.疑伪经文本构成的复杂和奇特——-以《十王经》为中心的考察[J].宝鸡文理学院学报（社会科学版）,2023,43(1):26-32. 被引量：1
9王春东,孙嘉琪,杨文军.基于矫正理解的中文文本对抗样本生成方法[J].计算机工程,2023,49(2):37-45. 被引量：1
10夏军,刘洪江,朱林富,段捷.基于GEE和机器学习的不透水面提取研究——以成渝地区为例[J].测绘工程,2023,32(2):21-29. 被引量：1

中文信息学报

2023年第1期

浏览历史

内容加载中请稍等...

藏文文本分类特征基元选择被引量：1

参考文献17

二级参考文献99

共引文献177

同被引文献9

引证文献1

相关作者

相关机构

相关主题

浏览历史

藏文文本分类特征基元选择 被引量：1

参考文献17

二级参考文献99

共引文献177

同被引文献9

引证文献1

相关作者

相关机构

相关主题

浏览历史

藏文文本分类特征基元选择被引量：1