Web汉语料的智能抽取与词汇切分被引量：4

Intelligent extraction and Chinese word segmentation of Web corpus

下载PDF

导出

摘要提出一种Web汉语料智能抽取和汉语词切分的包装器。用户无需打开网站,无需点击链接,只需键入URL(UnitResourceLocation,统一资源定位符),即可获取Web汉语料并切分词到汉词库中。给出了系统的总体构架,阐述了各功能模块的设计原理和技术实现。测试结果表明,该包装器能快速、有效地抓取Web页面并分离其中的汉语料,对歧义句、新词汇的识别率分别达到70%和60%,可应用于Web上汉语词汇的收集与分离。 The wrapper with intelligentextraction and Chinese word segmentation based on web corpus are proposed. Users can get web Chinese corpus and segment Chinese word into glossary corpus database after inputing URL (unit resource location), without opening websites or clicking link. The architecture of system is presented and the design theory and technology implementation for every function module was dissertated. The result shows that it can snatch at Web pages fleetly and separate Chinese Corpus in them efficiently. The identification precision is 70% to divergentsentence and 60% to new glossary on web, respectively, it can apply to Chinese new-glossary compiling and separation.

作者陈展荣曾毅平

机构地区暨南大学信息与技术学院暨南大学华文学院

出处《计算机工程与设计》 CSCD 北大核心 2005年第6期1422-1424,共3页 Computer Engineering and Design

基金国务院侨办人文社会科学研究基金项目(04CQBYB0011)

关键词 Web语料 HTML格式包装器 Web页面抓取器词汇分离器 web corpus html format wrapper web page-snatcher glossary separator

分类号 TP391 [自动化与计算机技术—计算机应用技术]

引文网络
相关文献

参考文献10

1Joachim Hammer. Semi-structured information from the web[C].Proceedings of the First Workshop on Management of Semistructured Data, Tucson,Arizona, 1997.18-25.
2Arnaud Sahuguet, Fabien Azavant. Building light-weight wrappers for legacy web data-sources using W4F[C]. International Conference on Very Large Database, Edinburgh, Scotland,1997.738-741.
3Hammer J, McHugh J. Semi-structured data: The TSIMMIS experience[C].In: Proceeding of the First East-European Symposium on Advance in Database and Information System, 1997.1-8.
4Sahugurt A, Azavant F. Building intelligent web applications using lightweight wrappers [J]. Data and Knowledge Engineering, 2001, 36(3):283-316.
5Valter Crescenzi, Giansalvatore Mecca. Road runner:Towards automatic data extration from large eb site[C].In: Proceeding of the 26th International Conference on Data Engineering, 2000.611-620.
6Alberto H F Laender, Berthier A Ribeiro-Neto. A brief survey of web data extraction tools[J]. SIGMODRecord,2002, 31(2):84-93.
7郭庆琳,樊孝忠.基于NLU的智能搜索和信息提取技术的研究[J].计算机应用研究,2004,21(2):14-16. 被引量：2
8Daisuke Ikeda, Yasuhiro Yamada. Expressive power of tree and string based wrapper[C].In: On-Line Proceeding of IJCAI' 03Workshop on Information Integration on the Web,2003.
9刘源梁南元.汉语处理的基础工程—现代汉语词频统计[J].中文信息学报,1986,(1):17-25.
10黄萱菁,吴立德,王文欣,叶丹瑾.基于机器学习的无需人工编制词典的切词系统[J].模式识别与人工智能,1996,9(4):297-303. 被引量：24

二级参考文献6

1徐秉铮,詹剑,贺前华.基于神经网络的分词方法[J].中文信息学报,1993,7(2):36-44. 被引量：15
2刘伟权,钟义信.自然语言处理与全文情报检索[J].情报理论与实践,1997,20(1):43-46. 被引量：15
3团体著者，概率论.数理统计分册，1979年
4姚天顺,张桂平,吴映明.基于规则的汉语自动分词系统[J].中文信息学报,1990,4(1):37-43. 被引量：43
5梁南元.汉语计算机自动分词知识[J].中文信息学报,1990,4(2):29-41. 被引量：30
6孙斌.信息提取技术概述(下)[J].术语标准化与信息技术,2003(1):34-37. 被引量：11

共引文献29

1孙茂松,肖明,邹嘉彦.基于无指导学习策略的无词表条件下的汉语自动分词[J].计算机学报,2004,27(6):736-742. 被引量：37
2孙茂松,邹嘉彦.汉语自动分词研究评述[J].当代语言学,2001,3(1):22-32. 被引量：101
3张春霞,郝天永.汉语自动分词的研究现状与困难[J].系统仿真学报,2005,17(1):138-143. 被引量：60
4LiuGongshen LiJianhua LiShenghong.Fast algorithm on string cross pattern matching[J].Journal of Systems Engineering and Electronics,2005,16(1):179-186.
5孙霞,郑庆华,王朝静,张素娟.一种基于生语料的领域词典生成方法[J].小型微型计算机系统,2005,26(6):1088-1092. 被引量：11
6刘迁,贾惠波.中文信息处理中自动分词技术的研究与展望[J].计算机工程与应用,2006,42(3):175-177. 被引量：68
7姜韶华,党延忠.基于长度递减与串频统计的文本切分算法[J].情报学报,2006,25(1):74-79. 被引量：14
8党延忠.基础研究学科发展的宏观知识挖掘[J].管理工程学报,2006,20(2):102-107. 被引量：3
9吴绍根.汉语自动分词模式自动机构造研究[J].现代图书情报技术,2006(5):47-49. 被引量：3
10施水才,俞鸿魁,吕学强,李渝勤.基于大规模语料的新词语识别方法[J].山东大学学报（理学版）,2006,41(3):89-91. 被引量：5

同被引文献32

1酆晓杰,刘亚军.智能答疑系统中基于聚类的问题分类研究[J].微机发展,2005,15(2):69-72. 被引量：3
2郭晓燕,张博锋,方爱国,周传飞.智能答疑中问题相关度算法研究及系统实现[J].计算机应用,2005,25(2):449-452. 被引量：11
3曹二堂,刘玉林.基于语义理解的智能搜索引擎的研究[J].情报杂志,2005,24(6):58-59. 被引量：7
4袁占亭,张秋余,李威.数据抽取及语义分析在Web数据挖掘中的应用[J].计算机工程与设计,2005,26(6):1425-1427. 被引量：6
5余刚,陈华月,朱征宇,高原.基于词同现频率的文本特征描述[J].计算机工程与设计,2005,26(8):2180-2182. 被引量：8
6John D. The Anatomy of Large-Scale Hypertertextual Web Search Engine[C].In:Proc of the 7th Int'l world wide web conf. Brishane. Austrilian, 1999.
7Voert A. Automatic Extraction of Information Blocks Using PAT Trees[C]. Proc. of the National Computer Symposium, Taipei, Taiwan, 1999(6):223-226.
8John Lafferty,Andrew McCallum,Fernando Pereira.Conditional random fields:Probabilistic models for segmenting and labeling sequence data[C].Proc of ICML,2001.282-289.
9Andrew McCallum.Efficiently inducing features of conditional random fields[C].Nineteenth Conference on Uncertainty in Artificial Intelligence(UAI03),2003.
10Fuchun Peng,Fangfang Feng,Andrew McCallum.Chinese segmentation and new word detection using conditional random fields(to appear)[C].Proc of COLING,2004.

引证文献4

1王继曾,罗恒,刘宽,任浩征.应用条件随机场进行汉语词法分析研究[J].计算机工程与设计,2007,28(2):486-488. 被引量：2
2牛强,王志晓,陈岱,夏士雄.基于SVM的中文网页分类方法的研究[J].计算机工程与设计,2007,28(8):1893-1895. 被引量：22
3郑耿忠.自动分词算法在智能答疑系统中的应用研究[J].计算机工程与设计,2007,28(9):2224-2226. 被引量：4
4邱云飞,邵良杉,那宝贵.面向合作伙伴选择的中文Web信息获取系统研究[J].电子商务,2010,11(7):44-46.

二级引证文献28

1童亚拉,陈益.一种基于混沌粒子群算法的网页分类规则抽取方法[J].微电子学与计算机,2009,26(2):193-196. 被引量：2
2冀胜利,李波.基于SVM的中文文本分类算法[J].重庆工学院学报（自然科学版）,2008,22(7):84-87. 被引量：5
3王凡秀.基于条件随机场的中文地名识别[J].中国西部科技,2008,7(28):8-8.
4童亚拉.结合链接结构聚类的混沌粒子群网页分类规则抽取[J].华中师范大学学报（自然科学版）,2008,42(4):535-538.
5王永智,滕至阳,王鹏,聂江涛.基于LSA和SVM的文本分类模型的研究[J].计算机工程与设计,2009,30(3):729-731. 被引量：10
6阎红灿,李敏强,任蕴丽,阎少宏.结构和内容联合提取的XML网页分类研究[J].天津大学学报（社会科学版）,2009,11(3):272-276. 被引量：2
7宋军涛,周铜,杜庆灵.支持向量机和蚁群算法的网页分类研究[J].计算机工程与应用,2009,45(17):122-124. 被引量：6
8佟欣,韩玉琢.房产自动应答系统的分析与设计[J].赤峰学院学报（自然科学版）,2010,26(1):31-33.
9包剑,冀明,冯军.基于模糊支持向量机的文本分类[J].辽宁工程技术大学学报（自然科学版）,2010,29(5):974-977. 被引量：3
10谭德坤.基于混沌微粒群算法的文本分类研究[J].计算机应用研究,2010,27(12):4464-4466. 被引量：2

1余蕾,曹存根.基于Web语料的概念获取系统的研究与实现[J].计算机科学,2007,34(2):161-165. 被引量：6
2王珺.浅析现代汉语中的歧义句的现象[J].科技致富向导,2014(9):146-146.
3华镕.下一代防火墙:六、十大评估标准[J].中国仪器仪表,2015(8):19-21.
4彭赓,范明钰.基于改进网络爬虫技术的SQL注入漏洞检测[J].计算机应用研究,2010,27(7):2605-2607. 被引量：19
5管丽.网络基本术语ABC[J].河南税务,2002,0(2):38-38.
6葛锐.汉语分词技术初探[J].软件,2013,34(3):140-141. 被引量：4
7陈荟慧,舒云星,林丽.Web语料抓取中基于相似度的URL过滤规则生成算法[J].模式识别与人工智能,2014,27(7):631-637.
8张霄军,张凌岚,刘军.基于Web语料挖掘技术及其系统设计[J].上海电力学院学报,2004,20(2):39-43. 被引量：5
9杨抒,伊波.基于后加词典利用句法语义知识的汉语词切分检纠错方法[J].计算机科学,1989,16(5):41-44.
10白栓虎.汉语词切分及词性自动标注一体化方法[J].中文信息,1996(2):46-48. 被引量：2

计算机工程与设计

2005年第6期

浏览历史

内容加载中请稍等...

Web汉语料的智能抽取与词汇切分被引量：4

参考文献10

二级参考文献6

共引文献29

同被引文献32

引证文献4

二级引证文献28

相关作者

相关机构

相关主题

浏览历史

Web汉语料的智能抽取与词汇切分 被引量：4

参考文献10

二级参考文献6

共引文献29

同被引文献32

引证文献4

二级引证文献28

相关作者

相关机构

相关主题

浏览历史

Web汉语料的智能抽取与词汇切分被引量：4