基于统计方法的Web新词分词方法研究被引量：2

Study on New Words of Web Based on Statistical Word Segmentation

下载PDF

导出

摘要本文对信息处理技术中各种分词方法进行了研究,针对目前分词方法无法识别网络中不断出现的新词,设计了一种新的基于统计的分词方法。该方法避开现有的分词方法中的复杂语法规则,无需词典的支持,很好地解决了新词不断出现的问题,而且分词速度快,具有重要的理论和实用价值。 This paper analyzes the various segmentation methods in the information processing technology. In view of the current segmentation methods in the network which do not recognize the new emerging words, we design a new sub-word method based on statistics. This method avoids complex grammar and rules, needs no enormous support from dictionaries, and resolves the problems brought by the new words. So we conclude that this method has better exactness and is very pragmatic and powerful in practical operations.

作者张敏王春红

机构地区运城学院计算机科学与技术系

出处《计算机工程与科学》 CSCD 北大核心 2010年第5期133-135,共3页 Computer Engineering & Science

基金山西省高等学校科技开发项目(20091150) 运城学院项目(JC-2009009)

关键词 WEB 统计分词词典特征提取 web statistical word segmentation dictionary feature selection

分类号 TP391 [自动化与计算机技术—计算机应用技术]

引文网络
相关文献

参考文献4

1吕学强,黄河,李渝勤,施水才.BBS中文新词语自动挖掘[J].现代图书情报技术,2007(1):37-39. 被引量：2
2崔世起,刘群,孟遥,于浩,西野文人.基于大规模语料库的新词检测[J].计算机研究与发展,2006,43(5):927-932. 被引量：32
3马玉春,宋瀚涛.Web中文文本分词技术研究[J].计算机应用,2004,24(4):134-135. 被引量：39
4翟凤文,赫枫龄,左万利.字典与统计相结合的中文分词方法[J].小型微型计算机系统,2006,27(9):1766-1771. 被引量：41

二级参考文献24

1高永伟.近20年英语国家对新词的研究[J].外语与外语教学,1998(11):9-11. 被引量：16
2邹纲,刘洋,刘群,孟遥,于浩,西野文人,亢世勇.面向Internet的中文新词语检测[J].中文信息学报,2004,18(6):1-9. 被引量：59
3.中国新闻社[EB/OL].http://www.chinanews.com.cn/,2003-10-01.
4郑家恒杜永萍宋礼鹏.农业病虫害词汇获取方法初探[A]..第七届全国计算语言学联合学术会议论文集(JSCL-2003)[C].北京:清华大学出版社,2003..
5K.J.Chen,Ming-Hong Bai.Unknown word detection for Chinese by a corpus-based learning method.International Journal of Computational Linguistics and Chinese Language Processing,1998,3 (1):27～44
6K.J.Chen,W.Y.Ma.Unknown word extraction for Chinese documents.The 19th COLING 2002,Taipei,2002
7Jianfeng Gao,Mu Li,Andi Wu,et al.Chinese word segmentation:A pragmatic approach.Microsoft Research,Technical Report:MSR-TR-2004-123,2004
8Nie Jian-Yun,Wanying Jin,Mareie-Louise Hannan.A hybrid approach to unknown word detection and segmentation of Chinese.Int' 1 Conf.Chinese Computing,Singapore,1994
9Hua-Ping Zhang,Qun Liu,Hao Zhang,et al.Automatic recognition of Chinese unknown words based on roles tagging.The 1st SIGHAN Workshop on Chinese Language Processing,Taipei,2002
10Andi Wu,Zixin Jiang.Statistically-enhanced new word identification in a rule-based Chinese system.The 2nd Chinese Language Processing Workshop,Hong Kong,2000

共引文献108

1刘春辉,金顺福,刘国华,李颖.基于优化最大匹配与统计结合的汉语分词方法[J].燕山大学学报,2009,33(2):124-129. 被引量：9
2徐吉,朱兰娟.用于网络搜索引擎的中文分词消岐算法[J].微型电脑应用,2011(4):52-54.
3翟凤文,赫枫龄,左万利.基于统计规则的交集型歧义处理方法[J].吉林大学学报（理学版）,2006,44(2):223-228. 被引量：9
4孙铁利,王圆.一个基于人工神经网络的Web文本过滤系统[J].计算机时代,2006(6):9-11.
5翟凤文,赫枫龄,左万利.字典与统计相结合的中文分词方法[J].小型微型计算机系统,2006,27(9):1766-1771. 被引量：41
6隋丽萍,徐承韬,李瑞芳.基于HTML结构的Web文本主题挖掘研究[J].电脑与电信,2007(1):47-51. 被引量：1
7张利,张立勇,张晓淼,耿铁锁,岳宗阁.基于改进BP网络的中文歧义字段分词方法研究[J].大连理工大学学报,2007,47(1):131-135. 被引量：12
8贺敏,龚才春,张华平,程学旗.一种基于大规模语料的新词识别方法[J].计算机工程与应用,2007,43(21):157-159. 被引量：24
9化柏林,赵亮.知识抽取中的嵌套向量分词技术[J].现代图书情报技术,2007(7):50-53. 被引量：5
10张立彬,吴海洪,陈教料.基于Lucene的企业知识共享系统的实现[J].机电工程,2007,24(8):87-90. 被引量：1

同被引文献38

1闫强,孟跃.在线评论的感知有用性影响因素——基于在线影评的实证研究[J].中国管理科学,2013,21(S1):126-131. 被引量：66
2王君珺,闫强.不同热度搜索型产品的在线评论对销量影响的实证研究[J].中国管理科学,2013,21(S2):406-411. 被引量：48
3黄德根,马玉霞,杨元生.基于互信息的中文姓名识别方法[J].大连理工大学学报,2004,44(5):744-748. 被引量：12
4刘迁,贾惠波.中文信息处理中自动分词技术的研究与展望[J].计算机工程与应用,2006,42(3):175-177. 被引量：67
5张黎.网民传统的网下购物习惯与其网上购物行为的关联性及其实践意义[J].管理科学,2006,19(2):13-21. 被引量：11
6Tsai C H. MMSEG: a word identification system for manda- rin Chinese text based on two variants of the maximum matc- hing algorithm [ EB/OL]. http://technology, chtsai, org/ mmseg/, 2000.
7刘博,郑家恒,张虎.规则与统计相结合的分词一致性检验[J].计算机工程与设计,2008,29(7):1814-1816. 被引量：7
8龙树全,赵正文,唐华.中文分词算法概述[J].电脑知识与技术,2009,5(4):2605-2607. 被引量：39
9王芳,万常选.基于可信度的中文完整词自动识别[J].中文信息学报,2009,23(3):17-23. 被引量：3
10袁健,张劲松,马良.二次回溯中文分词方法[J].计算机应用研究,2009,26(9):3321-3323. 被引量：3

引证文献2

1蒋建洪,赵嵩正,罗玫.词典与统计方法结合的中文分词模型研究及应用[J].计算机工程与设计,2012,33(1):387-391. 被引量：18
2李桃迎,李峰,吕晓宁.网购评语高频词共现网络的结构特征分析[J].计算机应用研究,2019,36(1):53-57. 被引量：1

二级引证文献19

1吐尔地·托合提,艾克白尔·帕塔尔,艾斯卡尔·艾木都拉.维吾尔文无监督自动切分及无监督特征选择[J].模式识别与人工智能,2013,26(9):845-852. 被引量：3
2白涛,张太红,吴乃宁.基于词典和全切分的中文农业网页分词算法的研究[J].新疆农业大学学报,2014,37(2):168-172. 被引量：1
3张杰,张海超,翟东升.面向中文专利权利要求书的分词方法研究[J].现代图书情报技术,2014(9):91-98. 被引量：9
4吐尔地.托合提,维尼拉.木沙江,艾斯卡尔.艾木都拉.基于词间关联度度量的维吾尔文本自动切分方法[J].北京大学学报（自然科学版）,2016,52(1):155-164. 被引量：2
5张钊,张新峰,郑楠,贵明俊.基于Hadoop平台的LDA算法的并行化实现[J].计算机工程与科学,2016,38(2):231-239. 被引量：3
6严顺.基于CRF的古汉语分词标注模型研究[J].江苏科技信息,2016,33(8):10-12. 被引量：6
7王嘉旸,杨丽萍,闫天伟.基于向量空间模型的文本相似度计算方法[J].科技广场,2017(2):9-13. 被引量：6
8阿丽亚.巴吐尔,木特力铺.马木提,努尔毕亚.亚地卡尔,阿力木江.艾沙,库尔班.吾布力.连体段特征聚类的维吾尔文文档图像单词切分[J].计算机工程与设计,2018,39(3):774-779. 被引量：6
9蒋卫丽,陈振华,邵党国,马磊,相艳,郑娜,余正涛.基于领域词典的动态规划分词算法[J].南京理工大学学报,2019,43(1):63-71. 被引量：16
10陈张帆,庞帆,张婷,田昀.电力设备信息智能理解与匹配的方法研究及应用[J].电脑知识与技术,2019,15(5X):250-251. 被引量：3

1黄科,马少平.基于统计分词的中文网页分类[J].中文信息学报,2002,16(6):25-31. 被引量：16
2王荔,宋胜利,冯佳,陈平.一种全切分与统计结合的分词系统[J].微电子学与计算机,2009,26(5):68-70. 被引量：1
3江华丽.中文分词算法研究与分析[J].物联网技术,2016,6(1):87-89. 被引量：9
4D吴雅娟,柳培林,丁子睿.基于统计分词的中文文本分类系统[J].电脑知识与技术,2005(4):71-74. 被引量：1
5费洪晓,胡海苗,巩燕玲.基于Hash结构的机械统计分词系统研究[J].计算机工程与应用,2006,42(5):159-161. 被引量：8
6徐海涛,杨森,柴乔林.基于统计分词的中文邮件智能分类系统[J].华中科技大学学报（自然科学版）,2003,31(S1):325-328. 被引量：1
7熊泉浩.中文分词现状及未来发展[J].科技广场,2009(11):222-225. 被引量：7
8曹月雷,纪文彦,贾斌.词典与后缀数组相结合的中文分词方法[J].硅谷,2012,5(21):151-154. 被引量：2
9沈静.浅析中文分词方法[J].漳州职业技术学院学报,2016,18(3):45-48. 被引量：2
10杨晓恝,蒋维,郝文宁.基于本体和句法分析的领域分词的实现[J].计算机工程,2008,34(23):26-28. 被引量：2

计算机工程与科学

2010年第5期

浏览历史

内容加载中请稍等...

基于统计方法的Web新词分词方法研究被引量：2

参考文献4

二级参考文献24

共引文献108

同被引文献38

引证文献2

二级引证文献19

相关作者

相关机构

相关主题

浏览历史

基于统计方法的Web新词分词方法研究 被引量：2

参考文献4

二级参考文献24

共引文献108

同被引文献38

引证文献2

二级引证文献19

相关作者

相关机构

相关主题

浏览历史

基于统计方法的Web新词分词方法研究被引量：2