基于机器可读词典的词汇知识抽取

LEXICAL KNOWLEDGE EXTRACTION BASED ON MACHINE READABLE DICTIONARY

下载PDF

导出

摘要越来越多的实践证明,词汇知识将是未来自然语言处理系统中不可或缺的组成部分。利用机器可读词典作为资源,首先通过对释义项进行分类,然后基于释义分析自动生成用于抽取词汇知识的模板,然后采用模板匹配的方法,实现词汇知识的自动抽取。通过一种基于最大熵模型的有监督的机器学习方法,对结果进行过滤。在应用到《应用汉语词典》中后,取得了良好的抽取效果。 It has been proved by more and more practices that lexical information will be an indispensable part for natural language processing system in the future. This article introduces a method to realize the automatic extraction for lexical knowledge with the machine readable dictionary as the resource. Firstly to divide the words into groups according to their definition, then to set automatically the patterns of extraction for lexical knowledge based on the definition analysis, at last to realize the extraction by matching the patterns. The result was filtered by a supervised machine learning method based on the maximum entropy model, The method was tested on ＂Applied Chinese Dictionary＂ and turned out good extraction outcomes.

作者樊玉俊胡熠陆汝占

机构地区上海交通大学计算机科学系

出处《计算机应用与软件》 CSCD 北大核心 2008年第6期8-10,共3页 Computer Applications and Software

基金国家自然科学基金重大项目"非规范知识的基本理论和核心技术"(60496326)的支持

关键词词汇知识机器可读词典模板抽取最大熵 Lexical knowledge Machine readable dictionary Pattern extraction Maximum Entropy

分类号 TP311.13 [自动化与计算机技术—计算机软件与理论] TP391.1 [自动化与计算机技术—计算机应用技术]

引文网络
相关文献

参考文献9

1Lu Ruzhan. Intensional Logic In Chinese and Its Applications. Proceedings of Conference of The 20th Anniversary of CIPSC, 2001. 11, The Press of Tsinghua University.
2陈笑蓉,秦进.基于最大熵原理的汉语词义消歧[J].计算机科学,2005,32(5):174-176. 被引量：7
3董振东.HowNet.http://www.keenage.com/.
4常宝宝.自然语言处理的最大熵模型.北京大学计算语言学研究所,100871.
5李保利,陈玉忠,俞士汶.信息抽取研究综述[J].计算机工程与应用,2003,39(10):1-5. 被引量：178
6朱靖波,姚天顺.中文信息自动抽取[J].东北大学学报（自然科学版）,1998,19(1):52-54. 被引量：24
7于江生,俞士汶.中文概念词典的结构[J].中文信息学报,2002,16(4):12-20. 被引量：67
8Thomas Paul O'Hara 2005 Empirical Acquisition of Conceptual Distinctions via Dictionary Definitions.
9李素建,刘群,张志勇,程学旗.语言信息处理技术中的最大熵模型方法[J].计算机科学,2002,29(7):108-110. 被引量：10

二级参考文献42

1鲁川,缑瑞隆,刘钦荣.交易类四价动词及汉语谓词配价的分类系统[J].汉语学习,2000(6):7-17. 被引量：24
2周强.规则和统计相结合的汉语词类标注方法[J].中文信息学报,1995,9(3):1-10. 被引量：43
3周强.一个汉语短语自动界定模型[J].软件学报,1996,7(A00):315-322. 被引量：9
4[16]Hobbs J,Appelt D,Bear J et al.FASTUS:A Cascaded Finite-State Transducer for Extracting Information from Natural-Language Text[C].In:Roche,Schabes eds. Finite State Devices for Natural Language Processing, MIT Press,Cambridge MA, 1996
5[17]Appelt D E.Introduction to Information Extraction[J].AI COMMUNICATIONS, 1999; 12(3)
6[18]Yangarber R.Scenario Customization for Information Extraction[D].Ph D Thesis.New York University,2001-01
7[19]Cowie J, Lehnert W.Information Extraction[J].Communications of the ACM, 1996;39(1)
8[20]Grishman R Adaptive information extraction and sublangu age analysis[C].In:Proceedings of IJCAI-2001 Workshop on Adaptive Text Extraction and Mining,2001
9[1]Applet D E,Israel D J.Introduction to Information Extraction Technology. A Tutorial for IJCAI-99,1999
10[2]Gaizauskas R,Wilks Y.Information Extraction:Beyond Document Retrieval[J].Journal of Documentation, 1997

共引文献276

1卢雪晖,徐会丹,李斌,陈思瑜.先秦词网构建及梵汉对比研究[J].中文信息学报,2023,37(3):36-45. 被引量：1
2沈芳婷,于艳华,李志强,李劼.基于Attention-Comprehension OpenTag的人物属性抽取算法[J].新一代信息技术,2022,5(6):1-5.
3王睿,张洁,张由仪,于禛,姚天昉.基于混合模型的中文命名实体抽取系统[J].清华大学学报（自然科学版）,2005,45(S1):1908-1914. 被引量：10
4叶正,林鸿飞,苏绥,刘菁菁.基于支持向量机的人物属性抽取[J].计算机研究与发展,2007,44(z2):271-275. 被引量：11
5岳国伟,梁永全.基于Agent的Web页面结构化信息抽取[J].计算机研究与发展,2007,44(z2):344-349.
6张向喆,王明辉,赵洪波,王起山,潘玉春.生物医学文本中命名实体识别研究[J].上海交通大学学报（农业科学版）,2010,28(2):132-139. 被引量：6
7李万辉,林瑞明,张文德.台湾科技文献信息抽取与检索平台的设计与实现[J].图书馆学研究（应用版）,2010(6):71-75.
8宋远君,赵铭远,马静.基于本体的无人机情报获取与分析系统研究[J].计算机科学,2012,39(S3):215-219. 被引量：1
9贺胜.信息抽取技术内涵及应用[J].南京师范大学文学院学报,2004(2):184-188. 被引量：3
10吴云芳.V+V形成的并列结构[J].语言研究,2004,24(3):45-51. 被引量：4

1张永奎,Cowie,JR.机器可读词典的快速查找技术[J].中文信息学报,1994,8(2):20-25. 被引量：2
2宋孜攀,陆汝占.机器可读词典中词汇属性信息的获取[J].计算机工程与应用,2009,45(5):138-140.
3“作声”还是“做声”[J].中华活页文选（高一年级版）,2012(8):80-80.
4章成志,苏新宁.面向信息检索的词汇知识发现[J].现代图书情报技术,2007(1):10-14. 被引量：3
5郝秀兰,杨尔弘.基于小规模语料库和机器可读词典的二元分布语义获取[J].中文信息学报,2004,18(6):23-29. 被引量：2
6陈佳,罗振声.一种基于语义搭配的汉语词义消歧方法[J].微计算机信息,2008,24(3):187-188. 被引量：1
7林彬.关注语言知识提高阅读理解能力[J].中学生英语（教师版）,2011(10):60-62.
8刘春梅,郭岩,俞晓明,赵岭,刘悦,程学旗.针对开源论坛网页的信息抽取研究[J].计算机科学与探索,2017,11(1):114-123. 被引量：10
9黄志丽,白润菊.整体把握知识体系提高综合运用能力[J].河北教育（综合版）,2010(5):37-37.
10高艳艳,梁钢.词汇深度测试探讨[J].科技信息,2011(8). 被引量：1

计算机应用与软件

2008年第6期

浏览历史

内容加载中请稍等...

基于机器可读词典的词汇知识抽取

参考文献9

二级参考文献42

共引文献276

相关作者

相关机构

相关主题

浏览历史