基于改进卡方统计量的藏文文本表示方法被引量：4

Tibetan Document Representation Method Based on Improved Chi-squared Statistic

下载PDF

导出

摘要藏文文本表示是将非结构化的藏文文本转换为计算机能够处理的数据形式,是藏文文本分类、文本聚类等领域特征抽取的前提。传统的藏文文本表示方法较少考虑特征项之间的关联度,容易造成语义损失。为此,结合向量空间模型,提出一种新的藏文文本表示方法。提取文本中词频统计TF-IDF值较高的部分词项作为对比词项,对藏文文本进行断句处理,以每个句子作为一个语境主题,利用卡方统计量计算文本中词项与对比词项的关联程度。实验结果表明,与传统的向量空间模型相比,该方法能更准确地表示藏文文本。 Tibetan document representation is to transfer the non-structure Tibetan text into an information form which can be processed by the computer, which is the premise of the categorization and clustering of the Tibetan text. Traditional Tibetan document representation methods take little relational degree of the feature items into account. As a result, some semantic information will be lost, and the accuracy of the document representation will be reduced. Integrated with the Vector Space Model（VSM） which is a classical model in information retrieval, this paper proposes a new document representation method. The terms with high value of TF-IDF are extracted as compared terms first, and then Tibetan sentences are segmented from Tibetan document as context subject, and the Chi-square statistic is used to compute the degree of bias between each term and the compared terms. Experimental results show that this method works more accurately than the traditional VSM in Tibetan document representation.

作者徐涛于洪志加羊吉

机构地区西北民族大学中国民族语言文字信息技术重点实验室

出处《计算机工程》 CAS CSCD 2014年第6期185-189,共5页 Computer Engineering

基金国家"973"计划基金资助项目(2013CB329303) 国家自然科学基金资助项目(61032008) 国家科技支撑计划基金资助项目(2009BAH41B07) 中央高校基本科研业务费专项基金资助项目(ycx13014)

关键词藏文信息处理改进卡方统计量文本表示自动断句向量空间模型 Tibetan information processing improved Chi-squared statistic document representation auto sentence segmentation Vector Space Model（VSM）

分类号 TP18 [自动化与计算机技术—控制理论与控制工程]

引文网络
相关文献

参考文献12

1Salton G, Wong A, Yang C S. A Vector Space Model for Automatic Indexing[J]. Communications of the ACM, 1975, 18(11): 613-620.
2Calvo R A, Partridge M. A Comparative Study of Principal Component Analysis Techniques[C]//Proceedings of the 9th Australian Conference on Neural Networks. Brisbane, Australia: [s. n.], 1998: 121-125.
3常鹏,冯楠.基于词共现的文档表示模型[J].中文信息学报,2012,26(1):51-57. 被引量：8
4John G H, Kohavi R, Pfleger K. Irrelevant Features and the Subset Selection Problem[C]//Proceedings of the 11th International Conference on Machine Learning. New Brunswick, USA: [s. n.], 1994: 121-129.
5武建华,宋擒豹,沈均毅,谢建文.基于关联规则的特征选择算法[J].模式识别与人工智能,2009,22(2):256-262. 被引量：9
6唐雅媛,徐德智,赖雅.基于概念特征的语义相似度计算方法[J].计算机工程,2012,38(5):170-172. 被引量：5
7张艳霞,张英俊,潘理虎,谢斌红,陈立潮.一种改进的概念语义相似度计算方法[J].计算机工程,2012,38(12):176-178. 被引量：5
8邱云飞,王威,刘大有,邵良杉.基于方差的CHI特征选择方法[J].计算机应用研究,2012,29(4):1304-1306. 被引量：30
9李响,才藏太,姜文斌,吕雅娟,刘群.最大熵和规则相结合的藏文句子边界识别方法[J].中文信息学报,2011,25(4):39-44. 被引量：17
10格桑居冕.藏语复句的句式[J].中国藏学,1996(1):132-141. 被引量：10

二级参考文献66

1晋耀红.基于语境框架的文本相似度计算[J].计算机工程与应用,2004,40(16):36-39. 被引量：26
2唐焕玲,孙建涛,陆玉昌.文本分类中结合评估函数的TEF-WA权值调整技术[J].计算机研究与发展,2005,42(1):47-53. 被引量：26
3张莉,孙钢,郭军.基于K-均值聚类的无监督的特征选择方法[J].计算机应用研究,2005,22(3):23-24. 被引量：29
4格桑居冕.藏语复句的句式[J].中国藏学,1996(1):132-141. 被引量：10
5吴健,吴朝晖,李莹,邓水光.基于本体论和词汇语义相似度的Web服务发现[J].计算机学报,2005,28(4):595-602. 被引量：218
6徐德智,郑春卉,K. Passi.基于SUMO的概念语义相似度研究[J].计算机应用,2006,26(1):180-183. 被引量：56
7周宇,覃征.聚类分析中特征选择的研究[J].计算机应用研究,2006,23(5):55-57. 被引量：2
8苏金树,张博锋,徐昕.基于机器学习的文本分类技术研究进展[J].软件学报,2006,17(9):1848-1859. 被引量：381
9祁坤钰.信息处理用藏文自动分词研究[J].西北民族大学学报（哲学社会科学版）,2006(4):92-97. 被引量：34
10王诗文.汉、藏语句子结构对比研究[J].西南民族大学学报（人文社会科学版）,2007,28(4):50-55. 被引量：4

共引文献81

1骆魁永.一种面向不均衡数据集的CHI特征选择改进算法[J].商丘师范学院学报,2021,37(6):9-13.
2李永斌.西藏语言研究概况述评[J].天中学刊,2009,24(4):104-109. 被引量：1
3郑敏姜.基于数据立方体的特征提取方法[J].福建电脑,2010,26(3):18-20.
4蒋盛益,王连喜.基于特征相关性的特征选择[J].计算机工程与应用,2010,46(20):153-156. 被引量：16
5李响,才藏太,姜文斌,吕雅娟,刘群.最大熵和规则相结合的藏文句子边界识别方法[J].中文信息学报,2011,25(4):39-44. 被引量：17
6黄智,陈宁,董红召.BRT综合评价体系的关联规则挖掘分析[J].公路工程,2011,36(4):22-25. 被引量：3
7曹晓军,彭会萍.基于粒度计算的Web日志关联规则挖掘[J].计算机应用与软件,2012,29(4):156-158.
8吴双,张文生,徐海瑞.基于词间关系分析的文本特征选择算法[J].计算机工程与科学,2012,34(6):140-145. 被引量：3
9马伟珍,完么扎西,尼玛扎西.藏语句子边界识别方法[J].西藏大学学报（社会科学版）,2012,27(5):70-76. 被引量：8
10徐涛,加羊吉,于洪志.统计与规则相结合的藏文句子自动断句方法[J].云南大学学报（自然科学版）,2012,34(6):653-657. 被引量：7

同被引文献41

1伍洋,钟鸣,姜艳,李石君.面向审计领域的短文本分类技术研究[J].微电子学与计算机,2015,32(1):5-10. 被引量：7
2张晓辉,李莹,常桂然,赵宏.适于Internet新闻文本实时分类的动态向量空间模型DVSM[J].计算机科学,2004,31(6):64-67. 被引量：1
3金博,史彦军,滕弘飞.基于语义理解的文本相似度算法[J].大连理工大学学报,2005,45(2):291-297. 被引量：79
4顾益军,樊孝忠,王建华,汪涛,黄维金.中文停用词表的自动选取[J].北京理工大学学报,2005,25(4):337-340. 被引量：33
5胡毅.通过数据分析强化监理信息的管理工作[J].中山大学学报论丛,2005,25(4):271-274. 被引量：1
6刘远超,王晓龙,徐志明,关毅.文档聚类综述[J].中文信息学报,2006,20(3):55-62. 被引量：65
7祁坤钰.信息处理用藏文自动分词研究[J].西北民族大学学报（哲学社会科学版）,2006(4):92-97. 被引量：34
8化柏林.知识抽取中的停用词处理技术[J].现代图书情报技术,2007(8):48-51. 被引量：38
9孙双,贺樑,杨静,顾君忠.An improved algorithm for weighting keywords in web documents[J].Journal of Shanghai University(English Edition),2008,12(3):235-239. 被引量：1
10才智杰.藏文自动分词系统中紧缩词的识别[J].中文信息学报,2009,23(1):35-37. 被引量：70

引证文献4

1江涛,于洪志.一种面向藏文聚类的文本建模方法[J].西北民族大学学报（自然科学版）,2016,37(3):24-28. 被引量：1
2张小川,于旭庭,张宜浩.一种改进的向量空间模型的文本表示算法[J].重庆理工大学学报（自然科学）,2017,31(1):87-92. 被引量：8
3陈庄,杨春玉.面向监理工程的文本分类技术研究[J].重庆理工大学学报（自然科学）,2017,31(10):187-191. 被引量：1
4李玖一,于洪志,徐涛.藏文文本聚类及其相关技术综述[J].广西科学院学报,2018,34(1):39-45.

二级引证文献10

1王红霞,钟爱琳.基于本体的协同过滤信息推送算法研究[J].沈阳理工大学学报,2020,0(1):44-48. 被引量：1
2蓝海英,何昊林,李玉翠,李千颖,李伊苧.基于文本聚类的煤矿安全事故类型分析[J].长江技术经济,2021(S01):199-202. 被引量：1
3李玖一,于洪志,徐涛.藏文文本聚类及其相关技术综述[J].广西科学院学报,2018,34(1):39-45.
4耿巧曼,徐小力,吴国新,夏欣雨.一种改进空间向量模型的东巴文本表示方法[J].北京信息科技大学学报（自然科学版）,2018,33(3):57-60. 被引量：3
5吕建新,郑伟,马林,李明,谷翠梅.基于词向量语义扩展的网络文本特征选择方法研究[J].情报科学,2019,37(12):47-51. 被引量：8
6徐安德,赵亚康,张月群,鲁杨.基于相异性空间和多分类器融合的文本分类方法[J].兵器装备工程学报,2019,40(12):136-141. 被引量：1
7吴龙峰,于瓅,王峰.向量空间模型的文本分类研究进展与应用[J].宿州学院学报,2019,34(12):69-72. 被引量：6
8高爽,刘梅,屈加豹,王苏滨,韩鑫勇,康运峰,吕巍,卢力.智能查重方法在建设项目环评文件技术复核中的应用探讨[J].环境影响评价,2021,43(6):28-32. 被引量：4
9张振海,张湘婷.基于关联规则的铁路信号设备故障诊断方法[J].铁道标准设计,2022,66(4):175-181. 被引量：7
10李凯,毛文卉,孙晶晶,刘雅琴,吴驰.基于人工智能技术的内容分类仿真实验平台[J].电子技术与软件工程,2023(6):246-250.

1贾会强.基于KNN算法的藏文文本分类关键技术研究[J].西北民族大学学报（自然科学版）,2011,32(3):24-29. 被引量：12
2郑亚楠,珠杰.基于词向量的藏文词性标注方法研究[J].中文信息学报,2017,31(1):112-117. 被引量：10
3李艾林,李照耀.基于朴素贝叶斯技术的藏文文本分类[J].中文信息,2013(11). 被引量：3
4王娴,周宇,云挺,邓玉和.基于Curvelet变换的荻草细胞图像分割[J].计算机科学,2012,39(11):277-279. 被引量：6
5王进,陈恩红,张振亚,王煦法.基于本体的跨语言信息检索模型[J].中文信息学报,2004,18(3):1-8. 被引量：10
6杜根远,严灵毓.面向图像拷贝检测的局部搜索哈希算法[J].武汉大学学报（理学版）,2015,61(6):525-530. 被引量：1
7程世辉,龙金辉.基于IN算法的剪枝优化算法[J].信阳师范学院学报（自然科学版）,2007,20(2):237-240. 被引量：1
8欧阳和平,阳晖.VS环境下假设检验Web应用程序开发[J].计算机与现代化,2012(10):187-190. 被引量：2
9张雅轩,何路,房鼎益.针对文本水印摘要攻击的语义损失量评估方法[J].计算机应用研究,2012,29(9):3483-3485. 被引量：2
10曾春秋,唐常杰,李川,段磊.MPSQAR:无损语义的量化关联规则挖掘算法(英文)[J].计算机科学与探索,2009,3(4):392-404.

计算机工程

2014年第6期

浏览历史

内容加载中请稍等...

基于改进卡方统计量的藏文文本表示方法被引量：4

参考文献12

二级参考文献66

共引文献81

同被引文献41

引证文献4

二级引证文献10

相关作者

相关机构

相关主题

浏览历史

基于改进卡方统计量的藏文文本表示方法 被引量：4

参考文献12

二级参考文献66

共引文献81

同被引文献41

引证文献4

二级引证文献10

相关作者

相关机构

相关主题

浏览历史

基于改进卡方统计量的藏文文本表示方法被引量：4