基于SVM和词间特征的新词识别研究被引量：4

Research on New Word Identification Based on SVM and Word Characteristics

下载PDF

导出

摘要中文分词的难点在于处理歧义和识别未登录词,因此对新词的正确识别具有重要作用。文中结合提出的新词词间模式特征以及各种词内部模式特征,对从训练语料中抽取正负样本进行向量化,通过支持向量机的训练得到新词分类支持向量。对测试语料结合绝对折扣法进行新词候选的提取与筛选,并与训练语料中提取的词间模式特征以及各种词内部模式特征进行向量化,得到新词候选向量,最后将训练语料中得到的新词分类支持向量以及对测试语料中得到的新词候选向量结合进行SVM测试,得到最终的新词识别结果。 Chinese word segmentation is difficult to deal with ambiguity and unknown words recognition. Propose the new word mode features as well as various word internal patterns from the training corpus of positive and negative samples to quantify extraction, and then through the training of support vector machine get new support vector classification. On the test corpus with absolute discounting method new candidate is extracted and selected,and with the training corpus to extract word patterns to quantify according to the new classifica- tion support vector on the SVM test,through a portion of the rule falter to get the final word recognition results.

作者徐远方李成城

机构地区内蒙古师范大学计算机与信息工程学院

出处《计算机技术与发展》 2012年第5期134-136,140,共4页 Computer Technology and Development

基金国家自然科学基金项目(2002AA117010-07) 内蒙古师范大学校基金(GCRC09001 ZRYB08018)

关键词自然语言处理支持向量机新词识别词间特征 natural language processing support vector machine new word recognition word feature

分类号 TP301 [自动化与计算机技术—计算机系统结构]

引文网络
相关文献

参考文献10

1Chen Keh-jiann, Bai Minghong. Unknown word detection for Chinese by a corpus-based learning method[ J]. Computation-al Linguistics and Chinese Language Processing, 1998,3 (1) : 27 -44.
2苏宁,惠子敬,刘娟.基于单字特征和搜索引擎的新词识别[J].武汉大学学报（理学版）,2010,56(6):704-710. 被引量：2
3钱秋银,张正兰.一种基于多分类SVM的相关反馈图像检索方法[J].计算机技术与发展,2009,19(8):65-68. 被引量：3
4黄秀丽,王蔚.SVM在非平衡数据集中的应用[J].计算机技术与发展,2009,19(6):190-193. 被引量：3
5冯永,李华,钟将,叶春晓.基于自适应中文分词和近似SVM的文本分类算法[J].计算机科学,2010,37(1):251-254. 被引量：21
6王宝祥.基于ADO NET的数据库访问技术研究[J].计算机应用与软件,2004,21(2):120-122. 被引量：61
7Jemslow R, Wang J. Solving propositional satisfiability prob- lems[ C ]//Annals of mathematics and artificial intelligence. [s. L ] :Springer,1990.
8Nie Jianyun. Unknown Word Detection and Segmentation of Chinese Using Statistical and Heuristic Knowledge [ J ]. Com- munications of COLIPS ,2008,5 ( 1 ) :47-47.
9罗智勇,宋柔.基于多特征的自适应新词识别[J].北京工业大学学报,2007,33(7):718-725. 被引量：14
10李跃民,王浩,赵生慧,计成超.智能辅助教学系统中知识点切分歧义消除研究[J].计算机技术与发展,2009,19(4):220-223. 被引量：1

二级参考文献72

1庄东,陈英.基于加权近似支持向量机的文本分类[J].清华大学学报（自然科学版）,2005,45(S1):1787-1790. 被引量：16
2孙茂松,邹嘉彦.汉语自动分词研究评述[J].当代语言学,2001,3(1):22-32. 被引量：101
3邹纲,刘洋,刘群,孟遥,于浩,西野文人,亢世勇.面向Internet的中文新词语检测[J].中文信息学报,2004,18(6):1-9. 被引量：59
4胡莹,王昱,丁明跃,周成平.一种改进的SVM相关反馈图像检索方法[J].计算机应用研究,2005,22(1):251-254. 被引量：5
5张琦,吴斌,王柏.非平衡数据训练方法概述[J].计算机科学,2005,32(10):181-186. 被引量：10
6王凯峰,秦前清.基于单类SVM的遥感图像目标检测[J].计算机工程与应用,2005,41(32):63-64. 被引量：7
7冯冲,陈肇雄,黄河燕,关真珍.基于Multigram语言模型的主动学习中文分词[J].中文信息学报,2006,20(1):50-58. 被引量：6
8曹勇刚,曹羽中,金茂忠,刘超.面向信息检索的自适应中文分词系统[J].软件学报,2006,17(3):356-363. 被引量：48
9崔世起,刘群,孟遥,于浩,西野文人.基于大规模语料库的新词检测[J].计算机研究与发展,2006,43(5):927-932. 被引量：32
10吴胜远.一种汉语分词方法[J].计算机研究与发展,1996,33(4):306-311. 被引量：49

共引文献98

1田华明,罗紫倩,乔晨曦.基于XML的网络制造数据交换研究与分析[J].大众标准化,2020(24):190-191. 被引量：2
2张娜,张利萍,朱玉文,杨全月.ADO．NET数据访问技术的应用研究[J].北京农学院学报,2007,22(S1):188-190. 被引量：2
3尹汉东,任邵东,周生炳.基于Web服务的P2P服务器端实现[J].计算机仿真,2004,21(10):115-118. 被引量：6
4李新波.一种多用户共享访问数据库的策略[J].计算机工程,2004,30(B12):154-155. 被引量：1
5范永强,刘海星.基于中间件技术的异构数据集成工具的设计与实现[J].中国科技信息,2005(5):34-35. 被引量：2
6徐晓,胡众义,匡泰.基于．NET的高性能数据查询的实现[J].绍兴文理学院学报（自然科学版）,2005,25(7):77-79.
7曾瑞.基于Visual Basic环境下的XML信息挖掘与开发方法研究[J].科技广场,2005(10):56-59.
8黄淑芹,周国祥.XML数据交换系统模型的分析与实现[J].通化师范学院学报,2005,26(6):26-27. 被引量：2
9张浩,蔡立斌.DataWindow.NET Control原理与应用[J].兵工自动化,2005,24(6):68-69. 被引量：2
10常虹.浅析自主性学习[J].辽宁教育行政学院学报,2005,22(11):116-117.

同被引文献34

1闫友彪,陈元琰.机器学习的主要策略综述[J].计算机应用研究,2004,21(7):4-10. 被引量：56
2邹纲,刘洋,刘群,孟遥,于浩,西野文人,亢世勇.面向Internet的中文新词语检测[J].中文信息学报,2004,18(6):1-9. 被引量：59
3贾自艳,史忠植.基于概率统计技术和规则方法的新词发现[J].计算机工程,2004,30(20):19-21. 被引量：28
4秦浩伟,步丰林.一个中文新词识别特征的研究[J].计算机工程,2004,30(B12):369-370. 被引量：13
5崔世起,刘群,孟遥,于浩,西野文人.基于大规模语料库的新词检测[J].计算机研究与发展,2006,43(5):927-932. 被引量：32
6吕学强,黄河,李渝勤,施水才.BBS中文新词语自动挖掘[J].现代图书情报技术,2007(1):37-39. 被引量：2
7张华平.NLPIR汉语分词系统[EB/OL].[2013-11-11].http://ictelas.nlpir.org/.
8Sproat R, Emerson T. The first international Chinese word segmentation bakeoff[C] //Proc of the 2nd SIGHAN Workshop on Chinese Language Processing. 2003:11-17.
9Peng Fuchun, Feng Fangfang, McCallum A. Chinese segmentation and new word detection using conditional random fields[C] //Proc of the 20th International Conference on Computational Linguistics. 2004:221-227.
10Zhang K, Liu Qun. Automatic recognition of Chinese unknown words based on roles tagging[C] //Proc of the 1st SIGHAN Workshop on Chinese Language Processing. 2002:71-78.

引证文献4

1徐远方,李成城.基于支持向量机和约束条件的新词识别研究[J].计算机技术与发展,2014,24(1):98-101. 被引量：2
2李文坤,张仰森,陈若愚.基于词内部结合度和边界自由度的新词发现[J].计算机应用研究,2015,32(8):2302-2304. 被引量：35
3李淑平.中文新词识别研究概述[J].科技资讯,2016,14(29):145-146.
4付瑶,万静,邢立栋.基于条件随机场与信息熵的特定领域概念发现[J].计算机应用研究,2020,37(3):708-711. 被引量：5

二级引证文献42

1何莉.改革开放的弄潮者——记大朗镇经济发展总公司[J].东莞科技,2000(3):29-29.
2王琳琳.规则与统计相结合的中文新词识别研究[J].嘉兴学院学报,2014,26(6):124-130. 被引量：4
3郝晓玲,茅嘉惠,于秀艳.微博热词抽取及话题发现研究[J].情报杂志,2015,34(6):109-113. 被引量：10
4孙立远,周亚东,管晓宏.利用信息传播特性的中文网络新词发现方法[J].西安交通大学学报,2015,49(12):59-64. 被引量：5
5夭荣朋,许国艳,宋健.基于改进互信息和邻接熵的微博新词发现方法[J].计算机应用,2016,36(10):2772-2776. 被引量：24
6万琪,于中华,陈黎,宋磊磊,丁革建.利用新词探测提高中文微博的情感表达抽取[J].中国科学技术大学学报,2017,47(1):63-69. 被引量：5
7汪龙庆,张超,宋晖,刘振宇.基于未登录词识别的微博评价短语抽取方法[J].计算机应用与软件,2017,34(6):284-291.
8谢婷婷,严柯.基于统计的中文地址位置语义解析方法研究[J].软件导刊,2017,16(10):19-21. 被引量：8
9丁祥武,张东辉.基于Spark的中文新词提取[J].计算机工程与设计,2017,38(11):3185-3191. 被引量：1
10符贤哲,刘胜全,刘艳,郭竹为,赵美玲.基于生存法则的稳定新词识别方法的研究[J].新疆大学学报（自然科学版）,2018,35(1):73-79. 被引量：1

1徐远方,李成城.基于支持向量机和约束条件的新词识别研究[J].计算机技术与发展,2014,24(1):98-101. 被引量：2
2视窗·声音[J].新闻记者,2009(7):30-30.
3新洲Solid3000 V6．3发布[J].CAD/CAM与制造业信息化,2005(7):2-2.
4新洲三维V5．3正式发布[J].CAD/CAM与制造业信息化,2003(8):2-3.
5新洲三维(Solid2000)V5.0[J].CAD/CAM与制造业信息化,2002(9):82-83.
6新洲三维V5.0中的“三维窗”技术[J].现代制造,2002(17):76-76.
7江彦,白云川.化蝶——CAD产业与新洲的故事[J].中国制造业信息化（学术版）,2005,34(7):38-45.
8朱辉杰,吴泳江.新洲:技术立本产品为王——访“新洲软件”王可总经理[J].CAD/CAM与制造业信息化,2004(6):37-39.
9学者风采[J].黄冈职业技术学院学报,2007,9(2).
10新洲三维Solid2000 V5.3版新功能[J].CAD/CAM与制造业信息化,2003(9):57-58.

计算机技术与发展

2012年第5期

浏览历史

内容加载中请稍等...

基于SVM和词间特征的新词识别研究被引量：4

参考文献10

二级参考文献72

共引文献98

同被引文献34

引证文献4

二级引证文献42

相关作者

相关机构

相关主题

浏览历史

基于SVM和词间特征的新词识别研究 被引量：4

参考文献10

二级参考文献72

共引文献98

同被引文献34

引证文献4

二级引证文献42

相关作者

相关机构

相关主题

浏览历史

基于SVM和词间特征的新词识别研究被引量：4