基于粗分和词性标注的中文分词方法被引量：7

Segmentation of Chinese word based on method of rough segment and part of speech tagging

下载PDF

导出

摘要中文分词是中文信息处理的重要内容之一。在基于最大匹配和歧义检测的粗分方法获取中文粗分结果集上,根据隐马尔可夫模型标注词性,通过Viterbi算法对每个中文分词的粗分进行词性标注。通过定义最优分词粗分的评估函数对每个粗分的词性标注进行粗分评估,获取最优的粗分为最终分词。通过实验对比,证明基于粗分和词性标注的中文分词方法具有良好的分词效果。 The segmentation of Chinese words from text documents is one of important contents of Chinese information processing. After every segmentation of Chinese words is obtained by the Chinese word rough segmentation by maximum match and ambiguity detection algorithms, each word in every rough segmentation is tagged by Viterbi algorithm according to HMM model of part-of-speech tagging. Each rough segmentation is estimated by the definition of optimal estimation function of part-of-speech tagging, and then the best one is selected as the optimal segmentation. The segmentation presented is better than others by the comparison of experiments.

作者姜芳李国和岳翔吴卫江洪云峰刘智渊程远

机构地区中国石油大学(北京)地球物理与信息工程学院中国石油大学(北京)油气数据挖掘北京市重点实验室石大兆信数字身份管理与物联网技术研究院中海油研究总院信息数据中心

出处《计算机工程与应用》 CSCD 北大核心 2015年第6期204-207,265,共5页 Computer Engineering and Applications

基金国家高新技术研究发展计划(No.2009AA062802) 国家自然科学基金(No.60473125) 中国石油(CNPC)石油科技中青年创新基金(No.05E7013) 国家重大专项子课题(No.G5800-08-ZS-WX)

关键词分词词性标注隐马尔可夫模型 VITERBI算法 word segmentation part-of-speech tagging Hidden Markov Model（HMM） Viterbi algorithm

分类号 TP391 [自动化与计算机技术—计算机应用技术]

引文网络
相关文献

参考文献14

1MANNING CD,SCHUTZE H．统计自然语言处理基础[M]．苑春法，等译．北京：电子工业出版社，2005．
2宗成庆.统计自然语言处理[M].北京:清华大学出版社,2011.
3刘春辉,金顺福,刘国华,李颖.基于优化最大匹配与统计结合的汉语分词方法[J].燕山大学学报,2009,33(2):124-129. 被引量：9
4万建成,杨春花.书面汉语的全切分分词算法模型[J].小型微型计算机系统,2003,24(7):1247-1251. 被引量：17
5黄昌宁.中文信息处理中的分词问题[J].语言文字应用,1997(1):74-80. 被引量：83
6唐亮,段建国,许洪波,梁玲.基于互信息最大化的特征选择算法及应用[J].计算机工程与应用,2008,44(13):130-133. 被引量：35
7唐云廷,吴岩.基于N元文法和封闭词的词类标记方法的数学模型[C]//第三届全国信息检索与内容安全学术会议论文集,2007.
8郑玉明,史晶蕊,廖湖声.文本分类的神经网络模型[J].计算机工程,2005,31(21):37-39. 被引量：4
9杨辰雨,朱立新,凌震华,戴礼荣.基于Viterbi解码的中文合成音库韵律短语边界自动标注[J].清华大学学报（自然科学版）,2011,51(9):1276-1281. 被引量：4
10吴伟成,周俊生,曲维光.基于统计学习模型的句法分析方法综述[J].中文信息学报,2013,27(3):9-19. 被引量：19

二级参考文献100

1刘春辉,金顺福,刘国华,李颖.基于优化最大匹配与统计结合的汉语分词方法[J].燕山大学学报,2009,33(2):124-129. 被引量：9
2周强.汉语句法树库标注体系[J].中文信息学报,2004,18(4):1-8. 被引量：90
3陈小荷.从自动句法分析角度看汉语词类问题[J].语言教学与研究,1999(3):63-72. 被引量：22
4黄昌宁.中文信息处理中的分词问题[J].语言文字应用,1997(1):74-80. 被引量：83
5李凯,左万利,吕巍.汉语文本中交集型切分歧义的分类处理[J].小型微型计算机系统,2004,25(8):1486-1490. 被引量：3
6金瑜,陆启明,高峰.基于上下文相关的最大概率汉语自动分词算法[J].计算机工程,2004,30(16):146-148. 被引量：8
7孙茂松,邹嘉彦.汉语自动分词研究评述[J].当代语言学,2001,3(1):22-32. 被引量：101
8李荣陆,王建会,陈晓云,陶晓鹏,胡运发.使用最大熵模型进行中文文本分类[J].计算机研究与发展,2005,42(1):94-101. 被引量：95
9曾华琳,李堂秋,史晓东.一种基于提取上下文信息的分词算法[J].计算机应用,2005,25(9):2025-2027. 被引量：9
10文庭孝.汉语自动分词研究进展[J].图书与情报,2005(5):54-63. 被引量：20

共引文献193

1梁晓弘,杨文安.分词技术在信息处理中的研究综述[J].电脑知识与技术（过刊）,2007(22):1100-1102. 被引量：1
2刘春辉,金顺福,刘国华,李颖.基于优化最大匹配与统计结合的汉语分词方法[J].燕山大学学报,2009,33(2):124-129. 被引量：9
3王建新.我国在语料库语言学研究方面的部分进展(概述)[J].外语与外语教学,1999(3):18-20. 被引量：10
4文庭孝,邱均平,侯经川.汉语自动分词研究展望[J].现代图书情报技术,2004(7):6-10. 被引量：20
5龚汉明,周长胜.汉语分词技术综述[J].北京机械工业学院学报,2004,19(3):52-55. 被引量：26
6方华,陆汝占,刘绍明.一个实现多种切分标注算法的系统[J].计算机工程,2004,30(24):122-124. 被引量：2
7张春霞,郝天永.汉语自动分词的研究现状与困难[J].系统仿真学报,2005,17(1):138-143. 被引量：60
8吴登堂.关于字母词的思考——兼谈中文信息处理对字母词自动切分的构想[J].丹东师专学报,2003,25(2):25-27. 被引量：4
9文庭孝,侯经川,邱均平,张洋.汉语自动分词新思维:无词典切分[J].情报杂志,2005,24(2):2-4. 被引量：2
10年玉萍.中文信息处理与词汇研究概述[J].西安电子科技大学学报（社会科学版）,2002,12(2):89-91. 被引量：1

同被引文献60

1方美玉,郑小林,陈德人,华艺,施艳.商品评论聚焦爬虫算法设计与实现[J].吉林大学学报（工学版）,2012,42(S1):377-381. 被引量：10
2孙茂松,肖明,邹嘉彦.基于无指导学习策略的无词表条件下的汉语自动分词[J].计算机学报,2004,27(6):736-742. 被引量：37
3赵岩,王晓龙,刘秉权,关毅.融合聚类触发对特征的最大熵词性标注模型[J].计算机研究与发展,2006,43(2):268-274. 被引量：20
4翟凤文,赫枫龄,左万利.基于统计规则的交集型歧义处理方法[J].吉林大学学报（理学版）,2006,44(2):223-228. 被引量：9
5洪铭材,张阔,唐杰,李涓子.基于条件随机场(CRFs)的中文词性标注方法[J].计算机科学,2006,33(10):148-151. 被引量：56
6姜维,王晓龙,关毅,赵健.基于多知识源的中文词法分析系统[J].计算机学报,2007,30(1):137-145. 被引量：29
7黄昌宁,赵海.中文分词十年回顾[J].中文信息学报,2007,21(3):8-19. 被引量：246
8刘金红,陆余良.主题网络爬虫研究综述[J].计算机应用研究,2007,24(10):26-29. 被引量：130
9罗桂琼,费洪晓,戴弋.基于反序词典的中文分词技术研究[J].计算机技术与发展,2008,18(1):80-83. 被引量：18
10刘健,张维明.一种快速的交集型歧义检测方法[J].计算机应用研究,2008,25(11):3259-3261. 被引量：3

引证文献7

1黄鹏,张姝,陈玉华,文斌.一种基于无监督学习的交集型歧义处理改进方法[J].云南师范大学学报（自然科学版）,2015,35(6):45-49. 被引量：1
2徐懿彬.基于Aho-Corasick自动机算法的概率模型中文分词CPACA算法[J].电子科技大学学报,2017,46(2):426-433. 被引量：5
3陶广奉,线岩团,王红斌,汪淑娟.融合上下文字符信息的泰语神经网络分词方法[J].计算机工程与科学,2018,40(5):943-949. 被引量：1
4刘敏,王向前,李慧宗,张宝隆.基于文本挖掘的网络商品评论情感分析[J].辽宁工业大学学报（自然科学版）,2018,38(5):330-335. 被引量：15
5张春荣,赵琦.领域自适应的合成词词性标注研究[J].计算机应用研究,2018,35(5):1350-1354. 被引量：2
6宓林晖,袁骏毅,侯晋.智慧护理交互系统的设计与应用[J].中国卫生信息管理杂志,2019,16(4):475-478. 被引量：5
7钟静晨,祁云嵩.电商领域中有关物流评价中文分词的研究[J].计算机与数字工程,2019,47(11):2866-2870. 被引量：2

二级引证文献31

1陈清化,薛书琦,龚壮壮,曹润康.基于文本挖掘的物流服务水平评价方法[J].计算机应用,2023,43(S01):88-94.
2甘蓉.中文分词交叉型歧义消解算法[J].西华大学学报（自然科学版）,2018,37(6):32-36. 被引量：2
3许加庆.数据挖掘在高校自媒体平台网络舆情管理中的应用探索[J].青年与社会（下）,2018,0(12):196-197.
4丁川芸,兰全祥.基于AC自动机和贝叶斯方法的垃圾内容识别[J].黑龙江工业学院学报（综合版）,2019,19(2):36-39.
5刘鲲鹏,盛妍,何薇,宫立华.基于大数据算法的电话号码与客户编号对应关系的识别研究与实现[J].计算机应用与软件,2019,36(3):301-307. 被引量：2
6藕杰.基于评论数据的品牌笔记本客户满意度影响因素贝叶斯网络分析[J].江西电力职业技术学院学报,2019,32(4):21-22.
7王军,李子舰,刘潇蔓.不同文本长度的体验型产品在线评论时间序列研究——以电影评论为例[J].图书情报工作,2019,63(16):103-111. 被引量：3
8王大伟,周志玮,曹红根.基于PCA-SVM算法的酒店评论文本情感分析研究[J].现代计算机,2019,25(21):13-17. 被引量：3
9王涛,李明.基于LDA模型与语义网络对评论文本挖掘研究[J].重庆工商大学学报（自然科学版）,2019,36(4):9-16. 被引量：12
10严军超,赵志豪,赵瑞.基于机器学习的社交媒体文本情感分析研究[J].信息与电脑,2019,31(20):44-47. 被引量：2

1周永梅,陶红,陈姣姣,张再跃.自动问答系统中的句子相似度算法的研究[J].计算机技术与发展,2012,22(5):75-78. 被引量：18
2李国和,刘光胜,吴卫江,孙红军,唐先明,韩宝东.基于最大匹配和歧义检测的中文分词粗分方法[J].北京信息科技大学学报（自然科学版）,2010,25(S2):84-88. 被引量：1
3李国和,刘光胜,秦波波,吴卫江,李洪奇.综合最大匹配和歧义检测的中文分词粗分方法[J].计算机工程与应用,2012,48(14):139-142. 被引量：3
4郭玲,孟祥逢,张峰.基于最大匹配法的中文分词技术改进[J].舰船电子工程,2009,29(12):159-163. 被引量：1
5王厚峰,戴大为.汉语句法结构标注的研究[J].计算机研究与发展,1997,34(3):235-240. 被引量：2
6殷风景,肖卫东,葛斌,李芳芳.一种面向网络话题发现的增量文本聚类算法[J].计算机应用研究,2011,28(1):54-57. 被引量：16
7钱智勇,周建忠,童国平,苏新宁.基于HMM的楚辞自动分词标注研究[J].图书情报工作,2014,58(4):105-110. 被引量：30
8刘汇丹,诺明花,赵维纳,吴健,贺也平.SegT:一个实用的藏文分词系统[J].中文信息学报,2012,26(1):97-103. 被引量：25
9潘华山,严馨,周枫,余正涛,郭剑毅.基于层叠条件随机场的高棉语分词及词性标注方法[J].中文信息学报,2016,30(4):110-116. 被引量：2
10刘兴林,郑启伦,马千里.中文合成词识别及分词修正[J].计算机应用研究,2011,28(8):2905-2908. 被引量：4

计算机工程与应用

2015年第6期

浏览历史

内容加载中请稍等...

基于粗分和词性标注的中文分词方法被引量：7

参考文献14

二级参考文献100

共引文献193

同被引文献60

引证文献7

二级引证文献31

相关作者

相关机构

相关主题

浏览历史

基于粗分和词性标注的中文分词方法 被引量：7

参考文献14

二级参考文献100

共引文献193

同被引文献60

引证文献7

二级引证文献31

相关作者

相关机构

相关主题

浏览历史

基于粗分和词性标注的中文分词方法被引量：7