基于正则表达式的大规模网页术语对抽取研究被引量：13

The Study of Large-scale Web Term-pairs Extraction based on Regular Expressions

下载PDF

导出

摘要多语术语对的收集对于跨语言信息检索、机器翻译和语言学习等具有重要应用价值,但传统的手工方式或基于平行语料的术语收集方法均有各自的局限性。针对Web上存在的大规模术语网页,基于Web挖掘技术,提出了一种采用正则表达式的术语对抽取方法。首先是获取网页源文件,接着依据已定义的正则表达式从中抽取出正确的术语对,并存储到本地术语库中。实验结果表明,该方法可实现66.7%的术语网页的抽取,并且对于可抽取网页,抽取出的术语对准确率接近100%。

作者程岚岚

机构地区天津科技大学计算机科学与信息工程学院

出处《情报杂志》 CSSCI 北大核心 2008年第11期62-64,68,共4页 Journal of Intelligence

基金天津市高等院校科技发展基金项目"不均匀数据的自动分级聚类方法研究"(编号:20071303)

关键词术语对抽取正则表达式 WEB挖掘

分类号 TP391.3 [自动化与计算机技术—计算机应用技术]

引文网络
相关文献

参考文献9

1孙乐,金友兵,杜林,孙玉芳.平行语料库中双语术语词典的自动抽取[J].中文信息学报,2000,14(6):33-39. 被引量：30
2杨沐昀,刘晓月,李生.基于汉英双语语料库的汉英词典编撰研究[J].情报学报,2003,22(3):310-314. 被引量：7
3Lars Ahrenberg, Mikael Andersson, Magnus Merkel. A Simple Hybrid Aligner for Generating Lexical Correspondences in Parallel Texts [C]. In 36th Annual Meeting of the Association for Computational Linguistics and 17th International Conference on Computational Linguistics (COLING - ACL' 98), Montreal, 1998 : 29 - 35
4Jorg Tiedemann. Extraction of Translation Equivalents From Parallel Corpora[ C]. In 11th Nordic Conference of Computational Linguistics, Copenhagen, Denmark, 1998 :120 - 128
5D. Hiemstra, F. de Jong, W. Kraaij. A Domain Specific Lexicon Acquisition Tool for Cross- Language Information Retrieval[ C]. In Proceedings of RIAO97, Montreal ,Canada, 1997:217 - 232
6W. A. Gale, K. W. Church. Identifying Word Correspondences in Parallel Texts [ C ]. Proceedings of the 4th DARPA Workshop on Speech and Natural Language. 1991 : 152 - 157
7I. Dagan, K. W. Church, W. A. Gale. Robust Bilingual Word Alignment for Machine Aided Translation[ C]. Proceedings of Workshop on Very Large Corpora, 1993 : 1 - 8
8Nagata. M, Sailo. T,Suzuki. K. Using the Web as a Bilingual Dictionary[C]. Proceeding of workshop on Data- driven Methods in Machine Translation, 2001 : 95 - 102
9Jian - Cheng Wu, Tracy Lin, Jason S. Chang. Learning Source - Target Surface Patterns for Web - Based Terminology Translation [C]. Proceedings of the ACL Interactive Poster and Demonstration Sessions, 2005 : 37 - 40

二级参考文献22

1王斌.汉语语料库自动对齐研究（博士学位论文）[M].北京:中国科学院计算技术研究所,1999..
2J Nie, M Simard, et al. Cross-language information retrieval based on parallel texts and automatic mining parallel texts from the Web. ACM-SIGIR Conference, Berkeley, California,1999.
3D Lonsdale, E Mitamura, E Nyberg. Acquisition of large lexicons for practical knowledge-based MT. Machine Translation,1995, 9(3) : 101 - 133.
4M Barlow. Parallel texts in language reaching. In: A M McEnery, et al. ed. Corpora and Language Reasearch: A Selection of Papers from Talc96. Lancaster University. 1996.
5W A Gale, K W Church. Identifying word correspondences in parallel texts. Proceedings of the 4th DARPA Workshop on Speech and Natural Language. 1991: 152- 157.
6P F Brown, J Cocke and S A Pietra, et al. A statistical approach to machine translation. Computational Linguistics,1990, 16(2) :79 - 85.
7I Dagan, K W Church and W A Gale. Robust bilingual word alignment for machine aided translation. Proc. of Workshop on Very Large Corpora. 1993 : 1 - 8.
8A Chen, K Kishida, et al. Automatic construction of a japanese-english lexicon and its application in cross-lanague information retrieval. In Joint ACM DIdACM SIGIR Workshop on Muhilingual Information Discovery and Access (MIDAS).
9R C Moore. Towards a simple and accurate statistical approach to learning translation relationships among words. Proceedings of Workshop on Data-driven Machine Translation of 39th ACL and 10th ACL European Chapter. 2001:79 - 86.
10K W Church, P Hanks. Word association norms, mutual information and lexicography. Computational Linguistics, 1991, 16(1).

共引文献35

1于娟,张晨.基于Kernel-XGBoost的跨语言术语对齐方法[J].计算机科学,2022,49(S02):126-131. 被引量：1
2蒋晓玲.中国EFL学习者对doubt的使用研究——一项基于BROWN、LOB和WECCL语料库的研究[J].绍兴文理学院学报,2020(6):84-88.
3许勇,荀恩东,贾爱平,宋柔.基于互连网的术语定义获取系统[J].中文信息学报,2004,18(4):37-43. 被引量：13
4张永臣,孙乐,李飞,李文波,西野文人,于浩,方高林.基于Web数据的特定领域双语词典抽取[J].中文信息学报,2006,20(2):16-23. 被引量：11
5于海江.平行语料库与双语词典编纂[J].辞书研究,2006(1):108-114. 被引量：2
6刘鹏远,赵铁军,李生,杨沭昀.利用语义相似度解决双语词汇知识获取的错误累计问题[J].哈尔滨工程大学学报,2006,27(B07):575-579. 被引量：1
7李德俊.基于英汉平行语料库的词典编写系统CpsDict的研制[J].现代外语,2006,29(4):371-381. 被引量：14
8任成梅,李春英.汉英跨语言信息检索探讨[J].图书馆理论与实践,2006(6):51-53. 被引量：5
9陈国华,王立欣,梁茂成,刘树杰,许家金.英汉/汉英对译语料库对应词检索器[J].外语电化教学,2006(6):11-16. 被引量：13
10陈爽,陈福,杜天苍.一种启发式网络信息采集系统设计与实现[J].北京石油化工学院学报,2007,15(4):38-42.

同被引文献123

1陈挺,刘嘉勇,夏天,范刚.基于平板型Web论坛的信息抽取研究[J].成都信息工程学院学报,2009,24(1):1-4. 被引量：9
2常育红,姜哲,朱小燕.基于标记树表示方法的页面结构分析[J].计算机工程与应用,2004,40(16):129-132. 被引量：24
3王琦,唐世渭,杨冬青,王腾蛟.基于DOM的网页主题信息自动提取[J].计算机研究与发展,2004,41(10):1786-1792. 被引量：81
4奚伟鹏,李昕,蒋凯,武港山.面向网上论坛的信息抽取技术[J].计算机工程,2005,31(4):66-68. 被引量：8
5于满泉,陈铁睿,许洪波.基于分块的网页信息解析器的研究与设计[J].计算机应用,2005,25(4):974-976. 被引量：55
6顾益军,樊孝忠,王建华,汪涛,黄维金.中文停用词表的自动选取[J].北京理工大学学报,2005,25(4):337-340. 被引量：35
7杜波,田怀凤,王立,陆汝占.基于多策略的专业领域术语抽取器的设计[J].计算机工程,2005,31(14):159-160. 被引量：26
8张健,欧红.应用正则式抽取Google网页内容[J].现代图书情报技术,2005(9):50-53. 被引量：6
9陈琼,苏文健.基于网页结构树的Web信息抽取方法[J].计算机工程,2005,31(20):54-55. 被引量：24
10丁晟春,顾德访.Ontology及其在信息检索中的应用研究[J].情报理论与实践,2006,29(1):101-104. 被引量：6

引证文献13

1王东波,苏新宁.英汉双语句子级平行语料库自动构建[J].现代图书情报技术,2009(12):47-51. 被引量：4
2廖开际,易聪.基于Web挖掘的商业信息抽取研究[J].情报杂志,2010,29(5):159-162.
3周文海,黄雅萍,周震,刘晓强,李锋,李金茂,王瑜.本体驱动的企业知识检索系统研究与实现[J].计算机应用,2010,30(A01):40-43. 被引量：2
4王东波,谢靖.英汉对照语言对自动获取[J].图书情报工作,2010,54(17):108-112.
5张素智,李宝燕,樊得强.面向用户的本体爬虫研究与设计[J].郑州轻工业学院学报（自然科学版）,2010,25(6):62-66.
6孙明柱,魏海平.基于结构树的网页正文内容抽取方法[J].科学技术与工程,2011,11(28):6990-6993. 被引量：2
7严灿勋,刘慧敏,宋兰.基于C#正则表达式的英汉翻译对抽取[J].科技信息,2011(26):1-2. 被引量：1
8徐川,施水才,房祥,吕学强.中文专利文献术语抽取[J].计算机工程与设计,2013,34(6):2175-2179. 被引量：10
9王雨辰,敬茂华.正则表达式在论坛信息抽取整合中应用[J].电脑编程技巧与维护,2013(12):23-24.
10化柏林.针对中文学术文献的情报方法术语抽取[J].现代图书情报技术,2013(6):68-75. 被引量：30

二级引证文献59

1严灿勋,刘慧敏,宋兰.基于C#正则表达式的英汉翻译对抽取[J].科技信息,2011(26):1-2. 被引量：1
2朱宁,杨洋,冯磊.基于本体的电网知识地图实现[J].黑龙江科技信息,2013(8):92-92.
3唐晓波,胡华.中文UGC信息源的本体概念抽取研究[J].现代图书情报技术,2014(5):41-49. 被引量：4
4张雅,卢华国,陈志杰.网络词典出版中的伦理问题研究[J].编辑之友,2014(11):17-21.
5屈鹏,张均胜,曾文,乔晓东,王惠临.国内外专利挖掘研究(2005-2014)综述[J].图书情报工作,2014,58(20):131-137. 被引量：15
6侯婷,吕学强,李卓.专利术语抽取的层次过滤方法[J].现代图书情报技术,2015(1):24-30. 被引量：6
7阳广元.国内基于本体的知识检索研究综述[J].图书馆工作与研究,2015(6):18-21. 被引量：7
8化柏林.学术论文中方法知识元的类型与描述规则研究[J].中国图书馆学报,2016,42(1):30-40. 被引量：41
9刘彤,倪维健,柳梅.面向搜索引擎查询日志的领域术语自动识别方法[J].现代图书情报技术,2016(2):25-33. 被引量：2
10曾镇,吕学强,李卓.一种面向专利摘要的领域术语抽取方法[J].计算机应用与软件,2016,33(3):48-51. 被引量：5

1WOWO.查看网页源文件有绝招[J].玩电脑（在线技术）,2005(12):87-87.
2为什么无法查看网页源文件？[J].少年电世界,2003(8):95-96.
3黄金凤.基于Web挖掘技术在电子商务中的应用[J].福建教育学院学报,2007,8(1):113-115.
4韩冬梅.基于Web挖掘技术的远程教育个性化服务应用研究[J].计算机光盘软件与应用,2013,16(23):226-227.
5王滨华,石志刚.基于散列关键词的大规模网页去重算法[J].高性能计算技术,2004,0(5):35-38. 被引量：1
6陈智慧,苏明.通用网页源文件加密软件的设计与实现[J].沿海企业与科技,2008(7):40-42.
7廖开际,易聪.基于Web挖掘的商业信息抽取研究[J].情报杂志,2010,29(5):159-162.
8董武,李晓辉.图像转换代理服务器及其在Internet中的应用[J].微机发展,2003,13(10):74-76.
9尹竹.找出隐身的流媒体地址[J].大众软件,2003(15):94-94.
10侯雪亚.Web挖掘技术在远程教学系统中的应用[J].电脑知识与技术（过刊）,2009,15(2X):1222-1223. 被引量：1

情报杂志

2008年第11期

浏览历史

内容加载中请稍等...

基于正则表达式的大规模网页术语对抽取研究被引量：13

参考文献9

二级参考文献22

共引文献35

同被引文献123

引证文献13

二级引证文献59

相关作者

相关机构

相关主题

浏览历史

基于正则表达式的大规模网页术语对抽取研究 被引量：13

参考文献9

二级参考文献22

共引文献35

同被引文献123

引证文献13

二级引证文献59

相关作者

相关机构

相关主题

浏览历史

基于正则表达式的大规模网页术语对抽取研究被引量：13