基于WWW的未登录词识别研究被引量：7

WWW-based Recognition of Non-login Words

下载PDF

导出

摘要 Currently, very little reference material can be found on the research of non-login word recognition. Solu-tions based on rules and syntaxes can't satisfactorily solve all kinds of problems of non-login word recognition. Thispaper will study and compare several existing solutions. The proposed solution is to extract N-grams after words sep-aration, from which non-login words can be extracted by means of probability statistics. Experiments have demon-strated that this method has favorable efficiency, recall ratio, and accuracy. Currently, very little reference material can be found on the research of non-login word recognition. Solutions based on rules and syntaxes can't satisfactorily solve all kinds of problems of non-login word recognition. This paper will study and compare several existing solutions. The proposed solution is to extract N-grams after words separation, from which non-login words can be extracted by means of probability statistics. Experiments have demonstrated that this method has favorable efficiency, recall ratio, and accuracy.

作者韩洁周勇刘少辉史忠植

机构地区中国科技大学研究生院

出处《计算机科学》 CSCD 北大核心 2002年第12期155-156,共2页 Computer Science

关键词中文信息处理中文分词处理 WWW 未登录词识别分词词典计算机 Non-login word. Recognition, N-gram, WWW

分类号 TP391.12 [自动化与计算机技术—计算机应用技术]

引文网络
相关文献

参考文献5

1刘少辉,董明楷,张海俊,李蓉,史忠植.一种基于向量空间模型的多层次文本分类方法.(该论文已被中文信息学报录用)中科院计算所智能信息处理开发实验室
2Zhang Jian,Gao Jianfen,Zhou Ming.An Experimental Study on a Very Large Corpus.Microsoft Research ,China
3李国臣.文本分类中基于对数似然比测试的特征词选择方法[J].中文信息学报,1999,13(4):16-21. 被引量：17
4Gotoh Y,Renals S.Variable Word Rate N-GRAMS.University of Sheffield, Department of Computer Science
5姚天顺,张桂平,吴映明.基于规则的汉语自动分词系统[J].中文信息学报,1990,4(1):37-43. 被引量：43

二级参考文献12

1吴军,王作英,禹锋,王侠.汉语语料的自动分类[J].中文信息学报,1995,9(4):25-32. 被引量：24
2杨允信.中文文件自动分类之研究.台湾第六届计算语言学研讨会论文集[M].-,1993..
3丁均彦.文本分类系统的研究与实现[硕士学位论文].北京:清华大学,1998..
4张潮生，中文信息处理国际会议论文集，1987年
5梁南元，中文信息，1986年，1期
6姚天顺，计算机的汉字信息处理，1985年
7管纪文，中文信息处理国际研讨论文集，1983年
8丁均彦，硕士学位论文，1998年
9Young S，The HTK Book，1997年
10Yang Y，Proc 18th SIGIR Conf，1995年

共引文献58

1苏芳仲,林世平.Web文本挖掘中的一种中文分词算法研究及其实现[J].福州大学学报（自然科学版）,2004,32(z1):67-71. 被引量：5
2刘怀亮,张治国,马志辉,孙蕾.基于SVM与KNN的中文文本分类比较实证研究[J].情报理论与实践,2008,31(6):941-944. 被引量：10
3付艳梅.智能答疑系统的中文分词[J].湖北工业大学学报,2009,24(1):65-67. 被引量：4
4肖升,胡金柱,姚双云,吴锋文.关系词搭配的联列分析[J].宁夏大学学报（人文社会科学版）,2009,31(6):75-79. 被引量：2
5孙茂松,邹嘉彦.汉语自动分词研究评述[J].当代语言学,2001,3(1):22-32. 被引量：101
6李淑文.试论文本自动分类[J].现代计算机,2004,10(7):38-41. 被引量：2
7亢临生,张永奎.利用分词属性解决歧义切分[J].电脑开发与应用,1994,7(4):2-5. 被引量：4
8亢临生,张永奎.基于标记的分词算法[J].山西大学学报（自然科学版）,1994,17(3):283-286. 被引量：4
9张江.基于规则的分词方法[J].计算机与现代化,2005(4):18-20. 被引量：14
10寇莎莎,魏振军.自动文本分类中权值公式的改进[J].计算机工程与设计,2005,26(6):1616-1618. 被引量：25

同被引文献90

1张恒,杨文昭,屈景辉,卢虹冰,张亮,赵飞.基于词典和词频的中文分词方法[J].微计算机信息,2008,24(3):239-240. 被引量：19
2孙茂松,邹嘉彦.汉语自动分词研究评述[J].当代语言学,2001,3(1):22-32. 被引量：101
3邹纲,刘洋,刘群,孟遥,于浩,西野文人,亢世勇.面向Internet的中文新词语检测[J].中文信息学报,2004,18(6):1-9. 被引量：59
4高定国,龚育昌.现代藏字全集的属性统计研究[J].中文信息学报,2005,19(1):71-75. 被引量：32
5李荣陆,王建会,陈晓云,陶晓鹏,胡运发.使用最大熵模型进行中文文本分类[J].计算机研究与发展,2005,42(1):94-101. 被引量：95
6费洪晓,康松林,朱小娟,谢文彪.基于词频统计的中文分词的研究[J].计算机工程与应用,2005,41(7):67-68. 被引量：68
7陈炯,张永奎.一种基于词聚类的中文文本主题抽取方法[J].计算机应用,2005,25(4):754-756. 被引量：17
8罗智勇 ,宋柔 .一种基于可信度的人名识别方法[J].中文信息学报,2005,19(3):67-72. 被引量：20
9孙茂松,黄昌宁,高海燕,方捷.中文姓名的自动辨识[J].中文信息学报,1995,9(2):16-27. 被引量：87
10周强.规则和统计相结合的汉语词类标注方法[J].中文信息学报,1995,9(3):1-10. 被引量：43

引证文献7

1任禾,曾隽芳.一种基于信息熵的中文高频词抽取算法[J].中文信息学报,2006,20(5):40-43. 被引量：22
2蒋健安,陆介平,倪巍伟,孙志挥.一种面向专利文献数据的文本自动分类方法[J].计算机应用,2008,28(1):159-161. 被引量：14
3房志峰.中文搜索引擎中的分词技术研究[J].科学技术与工程,2008,8(9):2481-2483. 被引量：9
4丁建立,慈祥,黄剑雄.一种基于免疫遗传算法的网络新词识别方法[J].计算机科学,2011,38(1):240-245. 被引量：11
5袁鼎荣,钟宁,张师超.文本信息处理研究述评[J].计算机科学,2011,38(2):9-13. 被引量：11
6才让卓玛,才智杰.基于语料库的藏语高频词抽取研究[J].计算机工程,2012,38(15):56-58. 被引量：3
7夏虎,黄文茜.基于上下文相关的未知实体词识别方法[J].电子科技大学学报,2016,45(5):839-844. 被引量：1

二级引证文献71

1吴春颖,王士同,蔡崇超.一种基于新词发现的Web文本表示方法[J].计算机应用,2008,28(3):764-767. 被引量：4
2张宇萌,刘传汉.一种基于逐层扫描的频繁字串快速提取算法[J].计算机科学,2008,35(5):127-130. 被引量：1
3屈志毅,张星,廖绍雯.一种无词典快速抽词算法的设计和实现[J].微计算机信息,2008,24(27):181-183.
4范婕婷,赖惠成.一种基于SVM算法的垃圾邮件过滤方法[J].计算机工程与应用,2008,44(28):95-97. 被引量：5
5周波,蔡东风.基于条件随机场的中文组织机构名识别研究[J].沈阳航空工业学院学报,2009,26(1):49-52. 被引量：8
6王祖辉,姜维.基于支持向量机的垃圾邮件过滤方法[J].计算机工程,2009,35(13):188-189. 被引量：7
7冯冰洁,杨天奇.后缀树聚类算法在元搜索引擎中的应用[J].微计算机信息,2010,26(3):204-206. 被引量：5
8陈志雄,曾辉.中文专利文献自动分类[J].嘉应学院学报,2010,28(2):24-29. 被引量：2
9周胜生,王扬平.专利文献计算机检索技术的最新发展[J].图书情报工作,2010,54(18):81-84. 被引量：3
10庄新妍.计算机中文分词技术的应用[J].呼伦贝尔学院学报,2010,18(3):70-74. 被引量：4

1打扫你的系统[J].计算机与网络,2001,0(15):18-18.
2李国和,岳翔,吴卫江,洪云峰,刘智渊,程远.面向文本分类的特征词选取方法研究与改进[J].中文信息学报,2015,29(4):120-125. 被引量：7
3王贤明,胡智文,谷琼.一种基于随机n-Grams的文本相似度计算方法[J].情报学报,2013,32(7):716-723. 被引量：9
4刘洋.Nutch0.9中二分法中文分词的实现[J].科技信息,2009(36):171-172.
5刘高原,何伟娜,郑浩,刘觉夫.Nutch0.9中二分法中文分词的实现[J].计算机时代,2009(4):28-30.
6陆钊.内容管理系统的文章关键词提取组件分析与优化[J].玉林师范学院学报,2015,36(5):135-141. 被引量：3
7Mehmmood A. Abd,Sarab Al Rubeaai,George Paschos.Hybrid Features for an Arabic Word Recognition System[J].Computer Technology and Application,2012,3(10):685-691.
8赵铁徽.处理DOS磁盘[J].桌面出版与设计,1996(6):74-76.
9计算技术与计算机及网络设备[J].电子科技文摘,2005,0(11):84-151.
10陈默,杨小平,柳增,孙丹雯.网络信息时效技术[J].计算机系统应用,2014,23(8):1-9. 被引量：1

计算机科学

2002年第12期

浏览历史

内容加载中请稍等...

基于WWW的未登录词识别研究被引量：7

参考文献5

二级参考文献12

共引文献58

同被引文献90

引证文献7

二级引证文献71

相关作者

相关机构

相关主题

浏览历史

基于WWW的未登录词识别研究 被引量：7

参考文献5

二级参考文献12

共引文献58

同被引文献90

引证文献7

二级引证文献71

相关作者

相关机构

相关主题

浏览历史

基于WWW的未登录词识别研究被引量：7