基于自然语言网络教学答疑中无词典分词算法的研究

Research on segmentation algorithm without dictionary based on natural language question answering system

下载PDF

导出

摘要提出了一种面向网络答疑系统的无词典分词方法.该方法用统计的手段从大规模未进行任何切分的领域语料中获取算法所需的参数,并结合一定的规则进行分词.该算法具有自学习的能力,适应性强,只要改变训练所用的语料,就能切分出不同领域的词.实验结果表明,该分词方法有较高的召回率和精度. A segmentation algorithm without dictionary based on network-oriented natural language question answering system is proposed. This algorithm can acquire the necessary parameters from large-scale and being not cut Off field language material by statistical means, and cut off word with certain rules（ maximum pseudo-ambiguity field）. This algorithm has the ability of self-learning and good adaptability. If language material is changed,this algorithm can cut off different fields of word. The experimental results show that the segmentation algorithm improves recall and accuracy of cut off word.

作者高晓梅杨旭

机构地区西安航空职业技术学院计算机工程系西安市特种设备检验检测院

出处《西安工程大学学报》 CAS 2009年第3期95-98,共4页 Journal of Xi’an Polytechnic University

关键词领域语料规则无词典分词方法 field language material rules segmentation algorithm without dictionary

分类号 TP391.43 [自动化与计算机技术—计算机应用技术]

引文网络
相关文献

参考文献7

1邹海山,吴勇,吴月珠,陈阵.中文搜索引擎中的中文信息处理技术[J].计算机应用研究,2000,17(12):21-24. 被引量：35
2赵曾贻,陈天娥,朱兰.一种基于语词的分词方法[J].苏州大学学报（自然科学版）,2002,18(3):44-48. 被引量：17
3蒋澄,马范援,蒋思杰.中英文WWW搜索引擎的信息处理[J].计算机工程,1999,25(4):37-38. 被引量：20
4胥桂仙,苏筱蔚,陈淑艳.中文文本挖掘中的无词典分词的算法及其应用[J].吉林工学院学报（自然科学版）,2002,23(1):16-18. 被引量：26
5陈小荷.现代汉语自动分析[M].北京:北京语言文化大学出版社,1999年.
6GE Xian-ping,PRATT Wanda,SMYTH Padhraie. Discovering Chinese words from unsegmented text [ C]//SIGIR (Proceedings on the 22nd Annual International ACMSIGIR Conference on Research and Development in Information Retrieval. USA:Berkeley, 1999 : 271-272.
7孙茂松,左正平,邹嘉彦.高频最大交集型歧义切分字段在汉语自动分词中的作用[J].中文信息学报,1999,13(1):27-34. 被引量：51

二级参考文献18

1刘开瑛.现代汉语自动分词评测技术研究[J].语言文字应用,1997(1):103-108. 被引量：15
2孙茂松邹嘉彦等.汉语真实文本中的交集型切歧义.汉语计量与计算研究[M].香港城市大学语言资讯科学研究中心,1998..
3王忠效范植华.汉字自适应散列分住查找算法[J].中文信息学报,1999,15:16-19.
4黄昌宁夏莹.语言信息处理专论[M].北京:清华大学出版社,1995..
5孙茂松，汉语计量与计算研究，1998年
6刘开瑛，语言文字应用，1997年，1期
7黄昌宁，语言信息处理专论，1995年
8周强,张伟,俞士汶.汉语树库的构建[J].中文信息学报,1997,11(4):42-51. 被引量：32
9蒋澄,马范援,蒋思杰.中英文WWW搜索引擎的信息处理[J].计算机工程,1999,25(4):37-38. 被引量：20
10严威,赵政.开发中文搜索引擎汉语处理的关键技术[J].计算机工程,1999,25(6):5-6. 被引量：24

共引文献135

1冯裕静,赵一美子.基于词频分析的国家级创新创业项目研究方向及趋势研究[J].产业科技创新,2020(6):26-27. 被引量：1
2张恒,杨文昭,屈景辉,卢虹冰,张亮,赵飞.基于词典和词频的中文分词方法[J].微计算机信息,2008,24(3):239-240. 被引量：19
3郭海凤.基于网页的图像检索技术研究[J].科技信息,2008(26):66-66.
4曲维光.汉语自动分词的方法选择[J].计算机科学,2002,29(z1):54-56. 被引量：2
5曹娟,周经野.一种计算汉字串之间相关程度的新方法[J].中文信息学报,2004,18(4):55-59. 被引量：6
6戴文军,朱立谷,孙志伟,任勇,曾赛峰,郝玮.一种基于搜索引擎的对象存储系统的扩展技术[J].计算机研究与发展,2007,44(z1):126-129.
7曹倩,丁艳,王超,潘金贵.汉语自动分词研究及其在信息检索中的应用[J].计算机应用研究,2004,21(5):71-74. 被引量：18
8苏菲,王丹力,戴国忠.基于标记的规则统计模型与未登录词识别算法[J].计算机工程与应用,2004,40(15):43-45. 被引量：13
9孙茂松,邹嘉彦.汉语自动分词研究评述[J].当代语言学,2001,3(1):22-32. 被引量：101
10赵艳红,费洪晓.一个基于改进的反序分词词典的中文分词算法[J].深圳职业技术学院学报,2004,3(4):28-31. 被引量：2

1张长利,赫枫龄,左万利.一种基于后缀数组的无词典分词方法[J].吉林大学学报（理学版）,2004,42(4):548-553. 被引量：14
2刘京城,刘锋.一种改进的基于后缀数组的无词典分词方法[J].计算机技术与发展,2011,21(11):49-52.
3钱树人.专用领域语料的分析及其理解[J].小型微型计算机系统,1993,14(5):20-24.
4季永华,许华虎,沈敏,万杰.自动答疑系统的研究与实现[J].计算机工程与应用,2005,41(14):224-225. 被引量：15
5傅赛香,袁鼎荣,黄柏雄,钟智.基于统计的无词典分词方法[J].广西科学院学报,2002,18(4):252-255. 被引量：24
6杨晓霞.教学答疑专家系统的设计[J].广西教育,2010(15):124-125.
7肖立峰.画法几何网络答疑系统的开发与研究[J].工程图学学报,2000,21(4):86-89. 被引量：4
8李晋.基于Struts与Hibernate教学答疑系统的设计与实现[J].网络与信息,2007,21(12):25-25.
9张秀虹,陈泽辉.网上答疑系统的研究与设计[J].青岛建筑工程学院学报,2002,23(2):62-65. 被引量：6
10韩客松,王永成,陈桂林.汉语语言的无词典分词模型系统[J].计算机应用研究,1999,16(10):8-9. 被引量：22

西安工程大学学报

2009年第3期

浏览历史

内容加载中请稍等...

基于自然语言网络教学答疑中无词典分词算法的研究

参考文献7

二级参考文献18

共引文献135

相关作者

相关机构

相关主题

浏览历史