一种基于生语料的领域词典生成方法被引量：11

Method of Special Domain Lexicon Construction Based on Raw Materials

下载PDF

导出

摘要为了实现准确分词,实用的汉语信息处理系统都需有其专用的领域词典.针对现有词典构造方法存在的不足,本文提出了一种领域词典的构造方法:利用通用词典对领域生语料进行分词处理,并提出了基于切分单元的最大匹配算法,从而得到候选词串集,然后利用规则对其进行优化,最终生成领域词典.词典的生成过程基本上是自动完成的,人工干预少,易于更新;目前,本方法生成的领域词典已经应用于我们自主开发的"基于Web的智能答疑系统"中,并取得了较好的效果. Special domain lexicon is very vital to any practical Chinese information processing system, especially to Chinese word segmentation. Aiming at the limitation of the current methods of special domain lexicon construction, a novel Chinese lexicon construction approach for word segmentation is proposed in this paper. It is based on a large amount of raw materials for some one special domain collected ahead, the longest repeated string patterns are extracted from each raw material after word segmentation based on open domain lexicon. Then, the non-meaningful words are trimmed to improve word extraction accuracy from possible candidate word set, moreover, using some optimization rules to filter the non-meaningful words further and finally the special domain lexicon is constructed. The proposed method has already been implemented and applied in our Web answering system. The experimental result shows it is practical, effective and extendable.

作者孙霞郑庆华王朝静张素娟

机构地区西安交通大学计算机系

出处《小型微型计算机系统》 CSCD 北大核心 2005年第6期1088-1092,共5页 Journal of Chinese Computer Systems

基金国家自然科学基金项目(60373105)资助国家"十五"重大科技攻关项目(2001BA101A01)资助教育部优秀青年教师基金项目资助.

关键词领域词典通用词典词频统计最大匹配 special domain lexicon open domain lexicon word frequency maximum match

分类号 TP391 [自动化与计算机技术—计算机应用技术]

引文网络
相关文献

参考文献11

1韩客松,王永成,陈桂林.无词典高频字串快速提取和统计算法研究[J].中文信息学报,2001,15(2):23-30. 被引量：36
2刘挺,吴岩,王开铸.串频统计和词形匹配相结合的汉语自动分词系统[J].中文信息学报,1998,12(1):17-25. 被引量：65
3黄萱菁,吴立德,王文欣,叶丹瑾.基于机器学习的无需人工编制词典的切词系统[J].模式识别与人工智能,1996,9(4):297-303. 被引量：24
4金翔宇,孙正兴,张福炎.一种中文文档的非受限无词典抽词方法[J].中文信息学报,2001,15(6):33-39. 被引量：28
5张华平,刘群.基于N-最短路径方法的中文词语粗分模型[J].中文信息学报,2002,16(5):1-7. 被引量：99
6傅兴岭.现代汉语通用字典[M].汉语教学与研究出版社,1987..
7Ge Xian-ping, Wanda Pratt, Padhraic Smyth. Discovering Chinese words from unsegmented text[C]. In: Proceedings of the 22nd Annual International ACM SIGIR Conference on Research and Development in Information Retrieval, 1999:271-272.
8Chien Lee-feng. PAT-tree-based adaptive keyphrase extraction for intelligent Chinese information retrieval [A]. Information Processing and Magagement (IPM) [M]. Elsevier Press, 1999,35(4):501-521.
9Christopher S G. Khoo Yubin Dai. Using statistical and contextual information to identify two-and three-character words in Chinese text [J]. Journal of the American Society for Information Science and Technology. 2002,53(5) :365-377.
10Honglan Jin, Kam-Fai Wong. A Chinese dictionary construction algorithm for information retrieval [ EB/OL ]. 2002http://www. se. cuhk. edu. hk/dn/TALIP-02-a35. doc.

二级参考文献22

1徐秉铮,詹剑,贺前华.基于神经网络的分词方法[J].中文信息学报,1993,7(2):36-44. 被引量：15
2孙茂松,黄昌宁,高海燕,方捷.中文姓名的自动辨识[J].中文信息学报,1995,9(2):16-27. 被引量：87
3周强.规则和统计相结合的汉语词类标注方法[J].中文信息学报,1995,9(3):1-10. 被引量：43
4黄萱菁,吴立德,王文欣,叶丹瑾.基于机器学习的无需人工编制词典的切词系统[J].模式识别与人工智能,1996,9(4):297-303. 被引量：24
5孙茂松,黄昌宁,邹嘉彦,陆方,沈达阳.利用汉字二元语法关系解决汉语自动分词中的交集型歧义[J].计算机研究与发展,1997,34(5):332-339. 被引量：66
6团体著者，概率论.数理统计分册，1979年
7黄昌宁，语言信息处理专论，1996年
8Li Junjie，J Harbin Inst Technol，1995年，2卷，2期
9何克抗，中文信息学报，1995年，5卷，2期，1,28页
10李俊杰，博士学位论文，1995年

共引文献214

1战疆,冯月利,王珊.PostgreSQL中文全文索引技术研究与实现[J].华中科技大学学报（自然科学版）,2005,33(z1):213-216. 被引量：3
2周蕾,朱巧明,李培峰.一种基于统计和规则的未登录词识别方法[J].南京大学学报（自然科学版）,2005,41(z1):819-825. 被引量：1
3隋丽萍,徐承韬,李瑞芳.一个中文全文检索系统的设计与实现[J].科技资讯,2007,5(18):244-245. 被引量：1
4张素娟,郑庆华,胡云华,孙霞.一种面向网络答疑的汉语切分歧义消除算法[J].计算机工程与应用,2004,40(25):55-58. 被引量：4
5王朝静,郑庆华.面向答疑文本的词类标注方法的研究与实现[J].计算机工程与应用,2004,40(16):57-60. 被引量：2
6刘群,张华平,俞鸿魁,程学旗.基于层叠隐马模型的汉语词法分析[J].计算机研究与发展,2004,41(8):1421-1429. 被引量：197
7孙茂松,肖明,邹嘉彦.基于无指导学习策略的无词表条件下的汉语自动分词[J].计算机学报,2004,27(6):736-742. 被引量：37
8张雷生 ,万绍俊 ,许鹏文 .简单中文自动摘要系统研究[J].装备指挥技术学院学报,2004,15(3):105-109. 被引量：1
9李素建,王厚峰,俞士汶,辛乘胜.关键词自动标引的最大熵模型应用研究[J].计算机学报,2004,27(9):1192-1197. 被引量：92
10黎铭,薛晓冰,周志华.基于多示例学习的中文Web目录页面推荐[J].软件学报,2004,15(9):1328-1335. 被引量：17

同被引文献67

1王朝静,郑庆华.面向答疑文本的词类标注方法的研究与实现[J].计算机工程与应用,2004,40(16):57-60. 被引量：2
2李善平,尹奇韡,胡玉杰,郭鸣,付相君.本体论研究综述[J].计算机研究与发展,2004,41(7):1041-1052. 被引量：273
3邹纲,刘洋,刘群,孟遥,于浩,西野文人,亢世勇.面向Internet的中文新词语检测[J].中文信息学报,2004,18(6):1-9. 被引量：59
4孙霞,郑庆华.教育资源元数据语义扩展查找方法的研究[J].计算机研究与发展,2004,41(12):2170-2174. 被引量：9
5郑庆华,胡云华,张素娟.自然语言网络答疑系统的研究与实现[J].小型微型计算机系统,2005,26(3):554-560. 被引量：10
6郑泽之,张普,杨建国.基于语料库的字母词语自动提取研究[J].中文信息学报,2005,19(2):78-85. 被引量：10
7郑庆华,王朝静,孙霞.一种基于结构化语料库的概念语义网络自动生成算法[J].计算机研究与发展,2005,42(3):478-485. 被引量：7
8张敏,马少平,宋睿华.DF还是IDF?主特征模型在Web信息检索中的使用[J].软件学报,2005,16(5):1012-1020. 被引量：13
9凌祺,樊孝忠.领域词汇自动获取的研究[J].微机发展,2005,15(8):148-150. 被引量：6
10许静芳,李星,李粤.信息检索中主题式词典的构建方法[J].计算机工程,2005,31(21):143-145. 被引量：5

引证文献11

1江有福,袁繁华,郑庆华.自然语言网络答疑系统中倒排索引技术的研究与实现[J].浙江海洋学院学报（自然科学版）,2005,24(4):353-358.
2刘慧,马军,雷景生,连莉.基于特征域词频的邮件过滤方法的研究[J].山东大学学报（理学版）,2006,41(3):134-138. 被引量：1
3刘慧,马军,雷景生,宋玲.基于词频的权值计算在邮件过滤算法中的应用[J].计算机工程,2006,32(17):60-62.
4姜韶华,党延忠.自动提取含字母词语的领域新术语的研究[J].计算机工程,2007,33(2):47-49. 被引量：3
5孙霞,郑庆华.一种面向非平衡数据的邻居词特征选择方法[J].小型微型计算机系统,2008,29(12):2334-2338. 被引量：2
6孙霞,洪华,王欣.网络答疑本体的生成与匹配方法研究[J].计算机应用研究,2009,26(6):2288-2290.
7王宏伟,冯霞,郇秀霞,杨春宝.民航安全词典构建研究[J].微计算机信息,2009,25(21):53-54.
8李素建,宋涛,高杰,幺鹏跃,李文捷.一种基于使用差异的词语领域性分析方法[J].中文信息学报,2009,23(6):72-78. 被引量：5
9孙霞,王小凤,董乐红,吴江.术语关系自动抽取方法研究[J].计算机科学,2010,37(2):189-191. 被引量：7
10朱婷婷,郑德俊.移动图书馆词典构建与应用[J].图书馆理论与实践,2019,0(11):75-78. 被引量：1

二级引证文献26

1林源,陈志泊,孙俏.计算机领域术语的自动获取与层次构建[J].计算机工程,2011,37(2):172-174. 被引量：4
2曾晶晶,王亚平,奉国和.2000—2009年国内链接分析研究文献计量分析[J].图书馆界,2011(2):82-88. 被引量：3
3郑泽芝,敖婷.基于底表的多层扫描术语自动标注算法[J].厦门大学学报（自然科学版）,2011,50(3):546-552.
4唐涛,周俏丽,张桂平.统计与规则相结合的术语抽取[J].沈阳航空航天大学学报,2011,28(5):71-74. 被引量：7
5李国和,岳翔,李雪,吴卫江,李洪奇.一种面向连续型属性的特征选取方法[J].山东大学学报（工学版）,2011,41(6):1-6.
6冯筠,李刚,孙霞,冯宏伟.一种面向教学的知识点库自动生成方法[J].计算机工程,2012,38(2):201-203. 被引量：2
7朱朝勇,黄河燕,史树敏.Hierarchical Domain Assignment BaseC on Word-Gloss[J].China Communications,2012,9(3):19-27. 被引量：1
8Ma Jianjun,Huang Degen,Liu Haixia,Sheng Wenfeng.MT-Oriented English PoS Tagging and Its Application to Noun Phrase Chunking[J].China Communications,2012,9(3):58-67.
9李亚红,赵冬玲.半结构化数据的形式化描述及数据抽取方法研究[J].计算机应用与软件,2013,30(4):145-148. 被引量：3
10韩红旗,徐硕,桂婕,乔晓东,朱礼军,安小米.基于词形规则模板的术语层次关系抽取方法[J].情报学报,2013,32(7):708-715. 被引量：11

1刘育楠,陈越,王光霞.基于FOXPRO下的一个通用调典管理程序[J].微型机与应用,1997,16(8):49-51.
2张大方,方琼玲.多国通用词典管理系统的设计与实现[J].电脑与信息技术,1995,3(6):11-13.
3孙玉方.Requirements and Issues for Handling Chinese in Internationalized Applications[J].Journal of Computer Science & Technology,1992,7(1):68-74.
4许静芳,李星,李粤.信息检索中主题式词典的构建方法[J].计算机工程,2005,31(21):143-145. 被引量：5
5叶忠杰.基于课程本体的智能FAQ系统的设计[J].计算机时代,2007(12):25-27.
6罗浩,魏祖宽,金在弘.面向GIS基于专有名词优先的中文分词方法[J].计算机应用,2010,30(7):1941-1943. 被引量：1
7陈健.PDOS 95及其应用[J].计算机时代,1997(12):26-27.
8方高林,于浩,孟遥,邹纲.基于字单元分析的中文辅助阅读系统[J].中文信息学报,2008,22(2):92-98. 被引量：1
9杨文峰,陈光英,李星.基于PATRICIA tree的汉语自动分词词典机制[J].中文信息学报,2001,15(3):44-49. 被引量：29
10苑春法,黄昌宁.基于语素数据库的汉语语素及构词研究[J].语言文字应用,1998(3):86-91. 被引量：47

小型微型计算机系统

2005年第6期

浏览历史

内容加载中请稍等...

一种基于生语料的领域词典生成方法被引量：11

参考文献11

二级参考文献22

共引文献214

同被引文献67

引证文献11

二级引证文献26

相关作者

相关机构

相关主题

浏览历史

一种基于生语料的领域词典生成方法 被引量：11

参考文献11

二级参考文献22

共引文献214

同被引文献67

引证文献11

二级引证文献26

相关作者

相关机构

相关主题

浏览历史

一种基于生语料的领域词典生成方法被引量：11