基于字频分布的中文网页编码识别算法被引量：2

Chinese Webpage Encoding Identification Algorithm Based on Word Frequency Distribution

下载PDF

导出

摘要编码识别是网页内容过滤的必要前提,多种中文编码共存给中文网页的内容过滤带来不便。针对上述问题,提出一种基于字频分布的中文网页编码识别算法。根据汉字的使用频率,选取使用频度较高的字符构成高频字符编码表,以高频字符编码作为关键字,使用改进的模式匹配算法查找待识别网页,并统计匹配次数。将编码的匹配结果作为分析的依据,最终判定待识别网页的真实码制。实验结果证明,与Unigram算法相比,该算法对目前通用的中文编码识别率较高,适合对未知编码的中文网页进行快速编码识别。 Web coding identification is the premise of webpage content filtering,and coexistence of a variety of Chinese encoding makes Chinese webpage coded identification inconvenient. This paper presents a Chinese Web encoding identification algorithm———FKI （ Frequency Keyword Identification ） which is based on the frequency of Chinese character used. FKI selects the frequency of high character to construct high frequency character encoding tables, according to the frequency of the use of Chinese characters. Using high frequency character encoding as a keyword,FKI algorithm scans the Webpage by improved pattern matching algorithm, statistical matching number, and determines the real code of webpage based on the matching result. Experimental results show that, compared with the Unigram algorithm,this algorithm has a higher recognition rate. FKI algorithm is suitable for Chinese webpage which is unknown code to identify code quickly and accurately.

作者侯整风张浩张娜

机构地区合肥工业大学计算机与信息学院安徽移动淮南分公司

出处《计算机工程》 CAS CSCD 2014年第12期199-204,共6页 Computer Engineering

基金教育部广东省产学研基金资助项目(2009B090200049)

关键词中文编码网页过滤高频字符模式匹配有限状态自动机 Chinese encoding Web filtering high frequency characters pattern matching finite state automata

分类号 TP18 [自动化与计算机技术—控制理论与控制工程]

引文网络
相关文献

参考文献13

1国家标准总局.GB2312-1980信息交换用汉字编码字符集基本集[S].1980.
2国家标准总局.GB13000.1-1993汉字扩展内码规范[S].1993.
3Unicode Consortium.The Unicode Standard Version4.0[M].[S.l.]:Addison-wesely,2003.
4International Organization for Standardization.ISO/IEC10646-1:1993(E)/10646-1:2000(E)/10646-2:2001(E)Universal Multiple-octet Coded Character Set(UCS)[S].2001.
5李培峰,朱巧明,钱培德.多文种环境下汉字内码识别算法的研究[J].中文信息学报,2004,18(2):73-79. 被引量：16
6于明俭.GB/BIG5文件识别[EB/OL].(2012-10-20).http://www.ibiblio.org/pub/packages/ccic/software/data/chrecog.gb.html.
7贺敏,张华平,程学旗.基于贝叶斯分类的汉字编码识别方法[C] //第九届"计算机科学与技术"研究生学术研讨会.青岛:[s.n.] ,2006:1067-1073.
8李继锋,刘群.基于N-Gram模型的高速汉字编码识别系统[J].计算机工程与应用,2004,40(3):39-41. 被引量：4
9王昊,李思舒,邓三鸿.基于N-Gram的文本语种识别研究[J].现代图书情报技术,2013(4):54-61. 被引量：6
10He Gang,Peng Peidong,Wu Xiaochun,et al.Chinese Coding Type Identification Based on Subsentence Length Observation[C]//Proceedings of2009IEEE International Conference on Natural Language Processing and Knowledge Engineering.Dalian,China:[s.n.],2009:1-5.

二级参考文献26

1冯冲,黄河燕,陈肇雄,张亮.基于字符层马尔科夫模型的多语种识别[J].计算机科学,2006,33(1):226-228. 被引量：5
2王永成.中文信息处理技术及其基础[M].上海:上海交通大学出版社,1990..
3尹宝生潘峰徐立军等.中日韩大字符集文字编码的比较研究.http://www.ge-soft .com/research/paper/he4.ht m.,.
4于明俭(中国科学院高能物理研究所计算中心).GB/BIG5文件识别.http ://ftp.cityu.edu.hk/pub/chinese/ifcss/data/chrecog.gb.html.,.
5张轴材.ISO/ IEC 10646-1 and Unicode标准与实现.CharacterCode amp Data To Come研讨会[R].,1996..
6Bauer D, Segond F, Zaenen A. LOCOLEX: The Translation Rolls off Your Tongue [ C ]. In : Proceedings of ACH - ALLC, Santa - Barbara, California, USA. 1995.
7Grefenstette G. Comparing Two Language Identification Schemes [ C ]. In: Proceedings of the 3rd International Conference on Statis- tical Analysis of Textual Data, Rome, Italy. 1995.
8Dunning T. Statistical Identification of Language [ R ]. Technical Report CRL MCCS -94 -273. Computing Research Laboratory, New Mexico State University, 1994.
9Pingali P, Varma V. Multi -lingual Indexing Support for CLIR U- sing Language Modeling [ J ]. IEEE Data Engineering Bulletin, 2007,30(1) : 70-85.
10Makiu R, Pandey N, Pingafi P, et al. Experiments in Cross -lin- gual IR Among Indian Languages [ C ]. In : Proceedings of the Inter- national Workshop on Cross Language Information Processing (CLIP) , Genova,Italy. 2007.

共引文献27

1张玉华,周克兰.基于规则库的汉字输入法自动评测系统的设计[J].中文信息学报,2004,18(4):50-54. 被引量：5
2祝佳,李生红,李建华.邮件内容过滤的中文编码盲识别算法[J].计算机工程与应用,2005,41(10):131-133. 被引量：1
3祝佳,李生红,李建华.Web内容过滤中的数据预处理模块设计[J].通信学报,2005,26(B01):141-144. 被引量：1
4李培峰,朱巧明,钱培德.一个基于多代码页的中文屏幕实时解释引擎的设计[J].中文信息学报,2005,19(5):90-96. 被引量：2
5李培峰,朱巧明,钱培德.一个基于ISO/IEC10646的汉字输入模型[J].中文信息学报,2006,20(5):91-96. 被引量：4
6张玉华,杨季文,周克兰.汉字编码输入法动态评测系统的设计和实现[J].计算机工程与应用,2006,42(25):93-97. 被引量：3
7李培峰,朱巧明,钱培德.一个应用于手持设备的汉字通用输入模型[J].计算机工程,2006,32(18):258-260. 被引量：3
8李培峰,朱巧明,钱培德.基于Pocket PC的汉字输入系统的设计与实现[J].小型微型计算机系统,2006,27(11):2167-2171. 被引量：3
9李培峰,朱巧明,钱培德.一个面向信息处理的双向文字处理算法IBidi[J].计算机应用,2007,27(6):1513-1517. 被引量：2
10韩卓平,李培峰,朱巧明,钱培德.基于Symbian的智能手机中文输入法的设计[J].计算机应用与软件,2007,24(9):85-87. 被引量：2

同被引文献30

1张宁,贾自艳,史忠植.使用KNN算法的文本分类[J].计算机工程,2005,31(8):171-172. 被引量：98
2Law M R, Mintzes B, Morgan S G. The sources and popularity ofonline drug information: an analysis of top search engine resultsand web page views[J]. Annals of Pharmacotherapy, 2011,45(3):350-356.
3许玉贏.常用开源中文分词工具[EB/OL]. (2014-04-20)[2016-01-15] http: //www. scholat. com/vpost. html?pid=4477.
4Mathew M, Shine N D, Lakshmi T R. A novel approach for near-duplicate detection of Web pages using TDW matrix[J]. Interna-tional Journal of Computer Applications, 2011,19(7): 16-21.
5Agrawal A, Husain M, Tiwari R G. A novel technique for data-base selection and document selection[J]. International Journal ofComputer Applications, 2011,17(8): 22-26.
6Cafarella M, Cutting D. Building nutch: Open source search[J].ACM Queue, 2004, 2(2): 21-24.
7HACIB T, Le Bihan Y. Microwave characterization using ridgepolynomial neural networks and least-square support vector ma-chines[J]. IEEE Transactions on Magnetics, 2011, 47(5): 990-993.
8Deng N, Tian Y,Zhang C. Support vector machines: Optimizationbased theory, algorithms, and extensions[M]. Boca raton: CRCPress, 2012.
9Chang C C, Lin C J. LIBSVM: A library for support vectormachines[J]. ACM Transactions on Intelligent Systems and Tech-nology, 2011,2(3) : 27-36.
10Habibi Y, Sheisi G H, Abdi H. Voltage instability detection inpower system using support vector machine (SVM)[J]. TechnicalJournal of Engineering and Applied Sciences, 2015(2): 22-26.

引证文献2

1孟繁疆,姬祥,袁琦,刘东,侯哲鹏.农产品价格主题搜索引擎的研究与实现[J].东北农业大学学报,2016,47(9):64-71. 被引量：6
2田喜平,赵红丹.一种用于汉字识别的字形编码系统设计与实现[J].现代电子技术,2017,40(2):60-63. 被引量：3

二级引证文献9

1李道亮,杨昊.农业物联网技术研究进展与发展趋势分析[J].农业机械学报,2018,49(1):1-20. 被引量：210
2李乔宇,尚明华,王富军,刘淑云.基于Scrapy的农业网络数据爬取[J].山东农业科学,2018,50(1):142-147. 被引量：12
3张倩,林安成,廖秀秀.自动结构化数据的电商网站主题爬虫研究[J].计算机系统应用,2018,27(7):90-95.
4王媛.基于视觉传达的商品包装编码自动识别系统设计[J].自动化与仪器仪表,2019,0(10):22-25.
5高毅.基于长短时神经网络的古汉语分词系统[J].自动化与仪器仪表,2020,0(2):128-131. 被引量：1
6潘晓英,陈柳,余慧敏,赵逸喆,肖康泞.主题爬虫技术研究综述[J].计算机应用研究,2020,37(4):961-965. 被引量：42
7孙怀义,莫斌,杨璟,李小明.芯片表面检测自动化系统的设计与实现[J].自动化与仪器仪表,2020(6):57-58. 被引量：1
8欧非凡,张超群.农业信息处理技术研究与应用进展[J].中国农学通报,2021,37(20):113-118. 被引量：7
9丁晟春,刘凯,方振.融合动态主题词库和改进Shark-Search算法的主题爬虫方法——以武器装备领域为例[J].数据分析与知识发现,2022,6(8):52-60. 被引量：1

1中原.熊猫看书[J].电子世界,2010(1):53-54.
2Delight.操作系统多内码支持[J].计算机应用文摘,2000(5):53-56.
3祝佳,李生红,李建华.邮件内容过滤的中文编码盲识别算法[J].计算机工程与应用,2005,41(10):131-133. 被引量：1
4BETMAN.我来听E-Mail[J].电脑界（应用文萃）,2001(2):60-61.
5李江华,赵国辉.Java中文编码问题研究[J].软件导刊,2009,8(3):49-50. 被引量：1
6姚竟发,唐小强.jsp中文编码乱码的分析与解决[J].科技传播,2011,3(24):183-183.
7包竹苇,李淼,张建.Java网络传输中字符编码问题的研究[J].计算机工程与应用,2007,43(4):93-95. 被引量：10
8廉育功.细谈IE5的多语言支持功能[J].多媒体世界,2000(12):89-89.
9黄孝平,林雯.基于计算机视觉图像的物流编号智能识别技术[J].物流技术,2013,32(3):449-451. 被引量：8
10李霞.Email乱码问题浅析[J].微型电脑应用,2004,20(12):61-63.

计算机工程

2014年第12期

浏览历史

内容加载中请稍等...

基于字频分布的中文网页编码识别算法被引量：2

参考文献13

二级参考文献26

共引文献27

同被引文献30

引证文献2

二级引证文献9

相关作者

相关机构

相关主题

浏览历史

基于字频分布的中文网页编码识别算法 被引量：2

参考文献13

二级参考文献26

共引文献27

同被引文献30

引证文献2

二级引证文献9

相关作者

相关机构

相关主题

浏览历史

基于字频分布的中文网页编码识别算法被引量：2