期刊文献+

基于改进卡方统计量的藏文文本表示方法 被引量:4

Tibetan Document Representation Method Based on Improved Chi-squared Statistic
下载PDF
导出
摘要 藏文文本表示是将非结构化的藏文文本转换为计算机能够处理的数据形式,是藏文文本分类、文本聚类等领域特征抽取的前提。传统的藏文文本表示方法较少考虑特征项之间的关联度,容易造成语义损失。为此,结合向量空间模型,提出一种新的藏文文本表示方法。提取文本中词频统计TF-IDF值较高的部分词项作为对比词项,对藏文文本进行断句处理,以每个句子作为一个语境主题,利用卡方统计量计算文本中词项与对比词项的关联程度。实验结果表明,与传统的向量空间模型相比,该方法能更准确地表示藏文文本。 Tibetan document representation is to transfer the non-structure Tibetan text into an information form which can be processed by the computer, which is the premise of the categorization and clustering of the Tibetan text. Traditional Tibetan document representation methods take little relational degree of the feature items into account. As a result, some semantic information will be lost, and the accuracy of the document representation will be reduced. Integrated with the Vector Space Model(VSM) which is a classical model in information retrieval, this paper proposes a new document representation method. The terms with high value of TF-IDF are extracted as compared terms first, and then Tibetan sentences are segmented from Tibetan document as context subject, and the Chi-square statistic is used to compute the degree of bias between each term and the compared terms. Experimental results show that this method works more accurately than the traditional VSM in Tibetan document representation.
出处 《计算机工程》 CAS CSCD 2014年第6期185-189,共5页 Computer Engineering
基金 国家"973"计划基金资助项目(2013CB329303) 国家自然科学基金资助项目(61032008) 国家科技支撑计划基金资助项目(2009BAH41B07) 中央高校基本科研业务费专项基金资助项目(ycx13014)
关键词 藏文信息处理 改进卡方统计量 文本表示 自动断句 向量空间模型 Tibetan information processing improved Chi-squared statistic document representation auto sentence segmentation Vector Space Model(VSM)
  • 相关文献

参考文献12

二级参考文献66

共引文献81

同被引文献41

引证文献4

二级引证文献10

相关作者

内容加载中请稍等...

相关机构

内容加载中请稍等...

相关主题

内容加载中请稍等...

浏览历史

内容加载中请稍等...
;
使用帮助 返回顶部