基于条件随机场模型和文本纠错的微博新词词性识别研究被引量：7

Part-of-speech tagging of microblog unknown words based on conditional random fields and error correction

下载PDF

导出

摘要针对微博数据特点,采用降噪算法和条件随机场模型对微博数据进行词性标注,并对其中比重较大的谐音词使用贝叶斯方法进行词性二次纠正.首先利用新浪平台API和爬虫获取原始微博数据,再根据噪音特点人工制定规则进行降噪.由于条件随机场在中文词性标注中特征提取的优势,使用条件随机场模型对降噪后的微博语料词性标注.在此基础上,利用微博语料中谐音词比重较大的特点,将微博词语转化为拼音,根据贝叶斯方法计算得到谐音词的原生词候选,再根据词语的上下文建立谐音词和原生词映射,并利用原生词的词性已知的性质,对谐音词进行词性纠错.实验结果表明,该方法可以较好地标注微博未登录词,词性标注准确率达到95.23%. The purpose of this work is to solve the problem of microblog part-of-speech（POS）tagging.POS tagging of Chinese new word is a difficult,important and widely-studied sequence modeling problem.This paper describes a hybrid model that combines a rule-based model with linear-chain conditional random fields（CRFs）and Bayes algorithm for the task of POS tagging of Microblog unknown words.Firstly,microblog data are obtained by using Sina API and web spider.According to the features of microblog,a rule-based method is presented to reduce the impact of noisy data in POS tagging.Then,since CRFs has an advantage in feature extraction of POS tagging,it is used to obtain initial POS tags of microblog new words.We also present a probabilistic POS tagging method,which further improves performances.Homophonic words account for a large proportion of microblog new words.Because the pronunciation between homophonic words and its original words are similar or identical,Chinese Phonetic Alphabet is used to buildthe bridge between them.And the bridge is built by using Naive Bayes algorithm.Evaluation on microblog test set shows that this system could tag the new words of microblog in a better way,the best precision it achieves is95.23%.

作者韩彦昭乔亚男范亚平李孟超万迪昉

机构地区西安交通大学电子与信息工程学院西安交通大学软件学院西安交通大学管理学院

出处《南京大学学报（自然科学版）》 CAS CSCD 北大核心 2016年第2期353-360,共8页 Journal of Nanjing University（Natural Science）

基金国家自然科学基金(61202181) 博士后科学基金(2012M512006) 中央高校基本科研业务费专项资金(XJJ2013097)

关键词条件随机场微博噪音数据谐音词词语纠正 conditional random fields（CRFs） microblog noisy data homophonic words words correction

分类号 TP391 [自动化与计算机技术—计算机应用技术]

引文网络
相关文献

参考文献16

1丁兆云,贾焰,周斌.微博数据挖掘研究综述[J].计算机研究与发展,2014,51(4):691-706. 被引量：119
2赵斌,吉根林,曲维光,顾彦慧.基于重用检测的微博垃圾用户过滤算法[J].南京大学学报（自然科学版）,2013,49(4):456-464. 被引量：8
3于清,阿里甫.库尔班.微博语料分词及标注方法初探[J].新疆大学学报（自然科学版）,2013,30(1):81-86. 被引量：1
4蒋才智,王浩,姚宏亮.基于知网的贝叶斯中文人名识别[J].南京大学学报（自然科学版）,2012,48(2):147-153. 被引量：4
5Weischedel R, Schwartz R, Palmucci J, et al. Copingwith ambiguity and unknown words through probabilistie models. Computational Lin- guisties, 1993,19(2) :361--382.
6Ratnaparkhi A. A maximum entropy model for part-of-speech tagging. In.. Proceedings of the Conference on Empirical Methods in Natural Language Processing. Philadelphia, P A, USA: Association for Computational Linguistics, 1996, 133--142.
7Lafferty J, Mccallum A, Pereira F C. Conditional random fields .. Probabilistic models for segmenting and labeling sequence data. In: Proceeding of the 18'h International Conference on Machine Learning. San Francisco, CA, USA.. Morgan Kaufmann Publishers Inc, 2001, 85--120.
8Lu X F. Hybrid methods for POS Guessing of Chinese unknown word. In~ Proceedings of the ACL Student Research. Stroudsburg, PA, USA.. Association for Computational Linguistics, 2005, 1--6.
9Wu A,Jiang Z X. Statistically-enhanced new word identification in a rule-based Chinese system. In~ Proceedings of the 2nd Workshop on Chinese Language Processing. Stroudsburg, PA, USA: Association for Computational Linguistics, 2000, 46--51.
10Zhang K X, Zhou C L. Regularized structured perceptron for Chinese word segmentation POS tagging and parsing. In: Proceedings of the 14th Conference of the European Chapter of the Association for Computational Linguistics. Gothenburg, Sweden.. Association for Computational Linguistics, 2014,164-- 173.

二级参考文献170

1孙茂松,邹嘉彦.汉语自动分词研究中的苦干理论问题[J].语言文字应用,1995(4):40-46. 被引量：45
2王振华,孔祥龙,陆汝占,刘绍明.结合决策树方法的中文姓名识别[J].中文信息学报,2004,18(6):10-15. 被引量：15
3张春霞,郝天永.汉语自动分词的研究现状与困难[J].系统仿真学报,2005,17(1):138-143. 被引量：60
4罗智勇 ,宋柔 .一种基于可信度的人名识别方法[J].中文信息学报,2005,19(3):67-72. 被引量：20
5许云,樊孝忠,张锋.基于知网的语义相关度计算[J].北京理工大学学报,2005,25(5):411-414. 被引量：53
6赵健,王晓龙,关毅.中文名实体识别中的特征组合与特征融合的比较[J].计算机应用,2005,25(11):2647-2649. 被引量：7
7周波,杨国纬.基于贝叶斯算法的中国人名识别[J].计算机应用,2006,26(4):998-1000. 被引量：12
8李中国,刘颖.边界模板和局部统计相结合的中国人名识别[J].中文信息学报,2006,20(5):44-50. 被引量：13
9姜维,王晓龙,关毅,徐志明.应用粗糙集理论提取特征的词性标注模型[J].高技术通讯,2006,16(10):996-1000. 被引量：3
10王曰芬,宋爽,卢宁,朱烨.共现分析在文本知识挖掘中的应用研究[J].中国图书馆学报,2007,33(2):59-64. 被引量：44

共引文献162

1张辉,何庆勇,惠小珊,但文超,孟培培.蒲辅周先生治疗湿证用药规律的数据挖掘研究[J].世界科学技术-中医药现代化,2021,23(9):3195-3201. 被引量：1
2于江德,谷川,葛文英,樊孝忠.一种基于字和子串联合标注的汉语分词方法[J].山西大学学报（自然科学版）,2011,34(3):357-362. 被引量：2
3于江德,周宏宇,余正涛.基于单个词语特征模板的汉语词性标注[J].山西大学学报（自然科学版）,2011,34(4):513-517. 被引量：1
4庞秀丽,冯玉强,姜维.贝叶斯文本分类中特征词缺失的补偿策略[J].哈尔滨工业大学学报,2008,40(6):956-960. 被引量：5
5冯元勇,孙乐,张大鲲,李文波.基于小规模尾字特征的中文命名实体识别研究[J].电子学报,2008,36(9):1833-1838. 被引量：26
6王祖辉,姜维.基于支持向量机的垃圾邮件过滤方法[J].计算机工程,2009,35(13):188-189. 被引量：7
7高凯.基于句模的归约算法在自然语言检索中的应用[J].情报学报,2010,29(1):22-31.
8于江德,睢丹,樊孝忠.基于字的词位标注汉语分词[J].山东大学学报（工学版）,2010,40(5):117-122. 被引量：10
9于江德,王希杰.词位标注汉语分词技术详解[J].安阳师范学院学报,2010(5):1-5.
10周昆,胡学钢.一种基于本体论和规则匹配的中文人名识别方法[J].微计算机信息,2010,26(31):87-89. 被引量：5

同被引文献55

1樊文有.基于平衡计分卡的高校就业指导部门绩效考评体系构建及实证研究[J].中国软科学,2010(S1):388-392. 被引量：3
2刘伟涛,顾鸿,李春洪.基于德尔菲法的专家评估方法[J].计算机工程,2011,37(S1):189-191. 被引量：183
3俞鸿魁,张华平,刘群,吕学强,施水才.基于层叠隐马尔可夫模型的中文命名实体识别[J].通信学报,2006,27(2):87-94. 被引量：157
4易蓉湘,何克抗.计算机汉语文稿校对系统[J].计算机研究与发展,1997,34(5):346-350. 被引量：12
5黄昌宁,赵海.中文分词十年回顾[J].中文信息学报,2007,21(3):8-19. 被引量：249
6陈翔,徐平先,张玉志.面向文本数字化的自动纠错方法[J].计算机应用研究,2008,25(5):1434-1436. 被引量：3
7冯志香.结构化电子病历的应用及问题[J].中国病案,2009,10(11):23-23. 被引量：11
8何径舟,王厚峰.基于特征选择和最大熵模型的汉语词义消歧[J].软件学报,2010,21(6):1287-1295. 被引量：37
9豆增发,高琳.应用粒子群优化-条件随机域的文本生物实体识别[J].西安交通大学学报,2010,44(12):38-42. 被引量：2
10奉国和,郑伟.国内中文自动分词技术研究综述[J].图书情报工作,2011,55(2):41-45. 被引量：104

引证文献7

1李志义,王冕,赵鹏武.基于条件随机场模型的“评价特征-评价词”对抽取研究[J].情报学报,2017,36(4):411-421. 被引量：8
2于楠,王普,翁壮,方丽英.基于多特征融合的中文电子病历命名实体识别[J].北京生物医学工程,2018,37(3):279-284. 被引量：13
3冯俐.中文分词技术综述[J].现代计算机,2018,24(23):17-20. 被引量：10
4魏忠,鲁源,黄阿娜.基于日志数据的研发工程师能力评价研究[J].计算机应用与软件,2019,36(6):66-70.
5王煜,徐建民.用于网络新闻热点识别的热点新词发现[J].计算机应用,2020,40(12):3513-3519. 被引量：5
6汪苏琪,王明文,曾雪强.面向规范性文件的基于BERT的文本纠错模型[J].山西大学学报（自然科学版）,2022,45(2):257-263. 被引量：3
7张鹏,周志强.基于注意时序网络的中文词性标注方法[J].计算机仿真,2024,41(5):378-382.

二级引证文献39

1张季,康乐乐,李博.移动应用评论挖掘研究综述[J].知识管理论坛,2021(6):339-350. 被引量：2
2张宗毅.农机“卡脖子”技术识别:综述与展望[J].农业农村部管理干部学院学报,2022(2):34-40.
3邢月晗,郑岩.语音转录后文本的中文拼写纠错模型[J].电子测量技术,2023,46(6):57-61.
4李志义,黄子风,许晓绵.基于表示学习的跨模态检索模型与特征抽取研究综述[J].情报学报,2018,37(4):422-435. 被引量：20
5刘臣,吉莉,唐莉.基于二分网中心节点识别的产品评论特征-观点词对提取研究[J].计算机系统应用,2018,27(11):9-16. 被引量：4
6王艺颖.朴素贝叶斯方法在中文文本分类中的应用[J].中国高新科技,2019(7):57-60. 被引量：6
7睢国钦,那日萨,彭振.基于深度学习和CRFs的产品评论观点抽取方法[J].情报杂志,2019,38(5):177-185. 被引量：10
8彭建辉.电子病历模板控制对病案质量管理的影响[J].中国病案,2019,20(5):14-16. 被引量：21
9范庆春.基于中文分词技术的文本相似度检测研究[J].池州学院学报,2019,33(3):19-20. 被引量：1
10张明辉.情感分析在商品评论中的应用[J].现代信息科技,2019,3(10):187-190. 被引量：10

1余昕聪,李红莲,吕学强.最大熵和HMM在中文词性标注中的应用[J].无线互联科技,2014,11(11):122-124. 被引量：3
2朱颖.浅谈HMM在词性标注中的应用[J].电脑开发与应用,2011,24(3):52-55. 被引量：3
3吕文龙.网秦与狙击手[J].互联网周刊,2011(10):52-54.
4倪敦.大数据创造新机遇[J].数字商业时代,2014(1):72-72.
5邱承.使用Linux构筑企业自己的防火墙[J].微型机与应用,2000,19(8):28-31.
6张炜,唐慧强.将汉字转化为拼音的研究与实现[J].计算机应用,2003,23(z1):4-5. 被引量：4
7孙静,李军辉,周国栋.基于条件随机场的无监督中文词性标注[J].计算机应用与软件,2011,28(4):21-23. 被引量：9
8陈秋平.制定规则实现邮件管理自动化[J].电脑编程技巧与维护,2012(10):70-71.
9刘滔,雷霖,陈荦,熊伟.基于MapReduce的中文词性标注CRF模型并行化训练研究[J].北京大学学报（自然科学版）,2013,49(1):147-152. 被引量：5
10杨荣根,杨忠.基于HMM中文词性标注研究[J].金陵科技学院学报,2017,33(1):20-23. 被引量：3

南京大学学报（自然科学版）

2016年第2期

浏览历史

内容加载中请稍等...

基于条件随机场模型和文本纠错的微博新词词性识别研究被引量：7

参考文献16

二级参考文献170

共引文献162

同被引文献55

引证文献7

二级引证文献39

相关作者

相关机构

相关主题

浏览历史

基于条件随机场模型和文本纠错的微博新词词性识别研究 被引量：7

参考文献16

二级参考文献170

共引文献162

同被引文献55

引证文献7

二级引证文献39

相关作者

相关机构

相关主题

浏览历史

基于条件随机场模型和文本纠错的微博新词词性识别研究被引量：7