基于多策略的维吾尔文网页识别方法

An Approach to Uyghur Webpage Recognition Based on Multi-strategy

下载PDF

导出

摘要经过对大量维吾尔文网站的调查与分析,该文从多语种混合网页中针对维吾尔文网页识别进行了研究,这对维吾尔语信息处理工作起着关键作用。首先该文探讨了维吾尔文不规范网页的字符编码转换规则及原理,以此对不规范维吾尔文字符进行了相应的处理,之后介绍了基于修改的N-Gram方法和基于维吾尔语常用词特征向量的两种方法,其中后者融合了维吾尔文常用候选词语料库及向量空间模型(Vector Space Model)。使用三种不同类型的维吾尔文网页文本作为本研究的数据集,在此基础上验证了该文提出的网页识别方法,以及采用不同的方法进行了网页识别的实验。实验结果表明,基于N-Gram的方法对正文较长的新闻或论坛网页的识别性能最佳,反而基于常用词特征向量的方法对短文本的网页识别性能优越N-Gram。所提方法对维吾尔文网页识别的整体性能达到90%以上,并验证了这两种方法的有效性。 This paper studies the web-page identification task for Uyghur. It first develops the the character encoding conversion rules for non-standard Uyghur characters in the webpages. Then, two identification approaches are described： one is the modified N-Gram method （MNG） method and the other is that a feature vector method （utilizing the frequent Uyghur words via an VSM ）. The experimental datasets constitute of three different types of Uyghur web-pages. The results show that N-Gram based approach performs better in identifying web-pages with long texts as in news site and forum, while the feature vector approach out-performes in web-pages of short text. Combining these two methods yields above 90% F1 score in the experiment.

作者阿力木.木拉提艾孜尔古丽杨雅婷李晓

机构地区中国科学院新疆理化技术研究所新疆民族语音语言信息处理重点实验室中国科学院大学新疆师范大学计算机科学技术学院

出处《中文信息学报》 CSCD 北大核心 2017年第1期133-139,共7页 Journal of Chinese Information Processing

基金国家自然科学基金(61662081) 新疆维吾尔自治区青年科技创新人才培养工程项目-面向维汉机器翻译的维吾尔语命名实体识别研究(2014711006) 新疆维吾尔自治区青年科技创新人才培养工程项目-维汉机器翻译模型关键技术研究(2014721032) 新疆维吾尔自治区自然科学基金-基于多特征融合的复杂形态语言建模研究(2015211B034) 中科院战略性先导科技专项-新疆少数民族信息处理(XDA06030400)

关键词维吾尔文网页识别 N-Gram方法常用词向量空间模型 Uyghur Web-page Identification N-Gram method common word vec.tor space model

分类号 TP391 [自动化与计算机技术—计算机应用技术]

引文网络
相关文献

参考文献5

1樊兴华,孙茂松.一种高性能的两类中文文本分类方法[J].计算机学报,2006,29(1):124-131. 被引量：70
2庞景安.Web文本特征提取方法的研究与发展[J].情报理论与实践,2006,29(3):338-340. 被引量：17
3艾孜尔古丽,齐向卫,玉素甫.艾白都拉.基于网站用词调查的现代维吾尔语词干提取和应用研究[J].计算机应用与软件,2012,29(3):32-34. 被引量：11
4艾孜尔古丽,努尔艾合买提,玉素甫.艾白都拉.现代维吾尔语常用词统计关键技术研究[J].中文信息学报,2014,28(5):192-197. 被引量：8
5艾孜尔古丽,艾山江.阿不力孜,玉素甫.艾白都拉.现代维吾尔文网络媒体用词研究[J].计算机应用与软件,2012,29(2):67-68. 被引量：7

二级参考文献40

1赵林,胡恬,黄萱菁,吴立德.基于知网的概念特征抽取方法[J].通信学报,2004,25(7):46-54. 被引量：17
2于津凯,王映雪,陈怀楚.一种基于N-Gram改进的文本特征提取算法[J].图书情报工作,2004,48(8):48-50. 被引量：17
3刘明吉.基于协同演化的文本特征获取算法[J].计算机工程,2005,31(4):85-87. 被引量：3
4唐晓文.基于本体论的文本特征提取[J].电脑与信息技术,2005,13(1):36-38. 被引量：11
5张鹏飞,李赟,刘建毅,钟义信.基于相对词频的文本特征抽取方法[J].计算机应用研究,2005,22(4):23-26. 被引量：9
6苏新春,杨尔弘.2005年度汉语词汇统计的分析与思考[J].厦门大学学报（哲学社会科学版）,2006,56(6):84-91. 被引量：13
7Lewis D. D.. An evaluation of phrasal and clustered representalions on a text categorization task. In: Proceedings of SIGIR'92,the 15st ACM International Conference on Research and Development in Information Retrieval, Copenhagen, Denmark,1992, 37-50.
8Sebastiani F,. Machine learning in automated text categorization. ACM Computing Surveys, 2002, 34(1): 1-47.
9Lewis D.. Naive bayes at forty: The independence assumption in information retrieval. In: Proceedings of the 10th European Conference on Machine Learning, Chemnitz, Germany, 1998,4-15.
10Salton G.. Automatic Text Processing: The Transformation,Analysis, and Retrieval of Information by Computer. Reading,MA: Addison Wesley, 1989.

共引文献100

1孙登林,李生红,荆涛,刘功申.一种针对不良主题的文本过滤方法[J].信息安全与通信保密,2008,30(2):92-93. 被引量：4
2王细薇,樊兴华,赵军.一种基于特征扩展的中文短文本分类方法[J].计算机应用,2009,29(3):843-845. 被引量：36
3彭昱忠,元昌安,王艳,覃晓.基于内容理解的不良信息过滤技术研究[J].计算机应用研究,2009,26(2):433-438. 被引量：19
4彭京,杨冬青,唐世渭,王腾蛟,高军.基于概念相似度的文本相似计算[J].中国科学（F辑:信息科学）,2009,39(5):534-544. 被引量：17
5张雪英.基于机器学习的文本自动分类研究进展[J].情报学报,2006,25(6):730-739. 被引量：11
6LI Yanling,DAI Guanzhong,ZHU Yehang,QIN Sen.A High-Performance Extraction Method for Public Opinion on Internet[J].Wuhan University Journal of Natural Sciences,2007,12(5):902-906. 被引量：3
7刘磊,刘克彬,韩颖,李芳.基于两次分类的校友搜索系统的设计与实现[J].小型微型计算机系统,2007,28(10):1916-1920.
8耿焕同,李杰.范例推理在文本自动分类中的应用研究[J].情报理论与实践,2007,30(6):837-840. 被引量：1
9廖浩,李志蜀,王秋野,张意.基于词语关联的文本特征词提取方法[J].计算机应用,2007,27(12):3009-3012. 被引量：10
10李艳玲,戴冠中,朱烨行.基于类别空间模型的文本倾向性分类方法[J].计算机应用,2007,27(9):2194-2196. 被引量：12

1李运田,吴琼,郑献卫.改进的TF-IDF模型在特征抽取中的应用[J].工业控制计算机,2014,27(2):51-51. 被引量：3
2朱明,王军,王俊普.Web网页识别中的特征选择问题研究[J].计算机工程,2000,26(8):35-37. 被引量：29
3阿力木.木拉提,艾孜尔古丽,玉素甫.艾拜都拉.维吾尔语网站识别方法[J].计算机工程与设计,2016,37(5):1417-1420.
4张莉.网页自动分类技术概念分析[J].娄底职业技术学院学报（职教与经济研究）,2007(2):58-62.
5王鸿,余建桥.基于N-Gram的Deep Web接口属性抽取[J].计算机与现代化,2010(12):135-138. 被引量：1
6吴秀清,韩彬斌.基于Bayes算法的Web网页识别[J].计算机工程,2000,26(3):6-7. 被引量：3
7沙泓州,刘庆云,柳厅文,周舟,郭莉,方滨兴.恶意网页识别研究综述[J].计算机学报,2016,39(3):529-542. 被引量：40
8邓俊,吾守尔.斯拉木,艾尼宛尔.托乎提,袁廷磊,赵志成.维吾尔文网页研究及Android维文浏览器的实现[J].中文信息学报,2014,28(1):118-124.
9熊磊,谭庆平.网页中信息部分识别研究[J].计算机与数字工程,2008,36(10):140-144.
10熊伟,吴钊,李兵,谷琼,宁彬.一种基于语义的时空敏感社会关系模型[J].小型微型计算机系统,2016,37(6):1207-1211. 被引量：1

中文信息学报

2017年第1期

浏览历史

内容加载中请稍等...

基于多策略的维吾尔文网页识别方法

参考文献5

二级参考文献40

共引文献100

相关作者

相关机构

相关主题

浏览历史