面向网络语言基于微博语料的新词发现方法被引量：11

New word discovery based on microblog corpus for network language

下载PDF

导出

摘要为对微博语料中的中文新词进行有效的识别发现,针对微博语料的文本特性,提出一种基于词语互信息模型和外部统计量的新词发现方法。采用互信息统计模型基于候选词内部最小搭配单元向右邻元扩展统计的方法,建立候选词集;针对统计特性、语料特征,进行低频筛选,引入外部统计量的概念进行过滤。该统计方法解决了基于互信息统计模型用于新词发现时只能统计两组成元素的局限性,规避了影响新词发现研究准确性能的N元重叠问题,过滤方法对于包含大量短语句的微博语料用着良好作用,通过实例与对比验证了该方法的有效性。 To effectively identify and discover the Chinese new words in the microblog corpus,according to the text features of the corpus on microblog,a new word discovery method combining mutual information and external statistics was proposed.A new word candidate set was established by adopting mutual information statistical model based on the minimum combination and extending to the right.Based on the statistics and corpus features,the result was obtained according to the threshold value of the low-frequency and the filter method of external statistics.This statistical method solves the limitation of mutual information model that it only based on two elements and avoids the problem of N-gram overlap.Filtering methods is necessary for microblog corpus containing a large number of short phrase sentences.The effectiveness of the research method is verified through example and contrast test.

作者雷一鸣刘勇霍华

机构地区河南科技大学信息工程学院

出处《计算机工程与设计》北大核心 2017年第3期789-794,共6页 Computer Engineering and Design

基金国家自然科学基金项目(60743008) 河南省重点科技攻关计划基金项目(142102210045)

关键词新词发现微博语料互信息词内部耦合度外部统计量 new word discovery microblog corpus mutual information word internal coupling external statistic

分类号 TP391.1 [自动化与计算机技术—计算机应用技术]

引文网络
相关文献

参考文献10

1张海军,史树敏,朱朝勇,黄河燕.中文新词识别技术综述[J].计算机科学,2010,37(3):6-10. 被引量：39
2曾华琳,周昌乐,郑旭玲.A New Word Detection Method for Chinese Based on Local Context Information[J].Journal of Donghua University(English Edition),2010,27(2):189-192. 被引量：1
3霍帅,张敏,刘奕群,马少平.基于微博内容的新词发现方法[J].模式识别与人工智能,2014,27(2):141-145. 被引量：25
4李钝,屠卫,石磊,陶永才.基于上下文感知的中文新词识别算法[J].计算机工程与设计,2012,33(10):4022-4027. 被引量：6
5杨锦锋,吕新波,关毅,周春波.基于购物网站用户搜索日志的商品词发现[J].计算机应用与软件,2011,28(11):108-111. 被引量：3
6赵小宝,张华平.基于迭代算法的新词识别[J].计算机工程,2014,40(7):154-158. 被引量：7
7闫兴龙,刘奕群,方奇,张敏,马少平,茹立云.基于网络资源与用户行为信息的领域术语提取[J].软件学报,2013,24(9):2089-2100. 被引量：8
8黄轩,李熔烽.博客语料的新词发现方法[J].现代电子技术,2013,36(2):144-146. 被引量：17
9吴悦,燕鹏举,翟鲁峰.基于二元背景模型的新词发现[J].清华大学学报（自然科学版）,2011,51(9):1317-1320. 被引量：10
10林自芳,蒋秀凤.基于改进位置成词概率的新词识别[J].福州大学学报（自然科学版）,2011,39(1):43-48. 被引量：3

二级参考文献130

1苑春法,黄昌宁.基于语素数据库的汉语语素及构词研究[J].世界汉语教学,1998,12(2):8-13. 被引量：89
2刘群,张华平,俞鸿魁,程学旗.基于层叠隐马模型的汉语词法分析[J].计算机研究与发展,2004,41(8):1421-1429. 被引量：198
3孙茂松,邹嘉彦.汉语自动分词研究评述[J].当代语言学,2001,3(1):22-32. 被引量：101
4邹纲,刘洋,刘群,孟遥,于浩,西野文人,亢世勇.面向Internet的中文新词语检测[J].中文信息学报,2004,18(6):1-9. 被引量：59
5贾自艳,史忠植.基于概率统计技术和规则方法的新词发现[J].计算机工程,2004,30(20):19-21. 被引量：28
6刘非凡,赵军,吕碧波,徐波,于浩,夏迎炬.面向商务信息抽取的产品命名实体识别研究[J].中文信息学报,2006,20(1):7-13. 被引量：47
7曹勇刚,曹羽中,金茂忠,刘超.面向信息检索的自适应中文分词系统[J].软件学报,2006,17(3):356-363. 被引量：48
8崔世起,刘群,孟遥,于浩,西野文人.基于大规模语料库的新词检测[J].计算机研究与发展,2006,43(5):927-932. 被引量：32
9施水才,俞鸿魁,吕学强,李渝勤.基于大规模语料的新词语识别方法[J].山东大学学报（理学版）,2006,41(3):89-91. 被引量：5
10刘华.一种快速获取领域新词语的新方法[J].中文信息学报,2006,20(5):17-23. 被引量：14

共引文献90

1安俊秀.基于服务器集群的云检索系统的研究与示范[J].计算机科学,2010,37(7):179-182. 被引量：7
2杨锦锋,吕新波,关毅,周春波.基于购物网站用户搜索日志的商品词发现[J].计算机应用与软件,2011,28(11):108-111. 被引量：3
3廖祥文,林自芳,陈水利.基于词内部模式的中文新词识别研究[J].集美大学学报（自然科学版）,2011,16(6):461-466. 被引量：1
4徐坤,曹锦丹.基于领域文献的未登录词识别方法研究[J].情报杂志,2012,31(1):172-174. 被引量：1
5张瑞霞,杨国增,吴慧欣.基于《知网》的汉语未登录词语义相似度计算[J].中文信息学报,2012,26(1):16-21. 被引量：8
6张海军,栾静,李勇,齐向伟.基于统计学习框架的中文新词检测方法[J].计算机科学,2012,39(2):232-235. 被引量：10
7段宇锋,鞠菲.基于N-Gram的专业领域中文新词识别研究[J].现代图书情报技术,2012(2):41-47. 被引量：10
8李钝,屠卫,石磊,陶永才.基于上下文感知的中文新词识别算法[J].计算机工程与设计,2012,33(10):4022-4027. 被引量：6
9黄轩,李熔烽.博客语料的新词发现方法[J].现代电子技术,2013,36(2):144-146. 被引量：17
10张永田,徐蔚然,汪浩.基于词激活力的自动词发现[J].软件,2012,33(12):182-184. 被引量：2

同被引文献57

1邹纲,刘洋,刘群,孟遥,于浩,西野文人,亢世勇.面向Internet的中文新词语检测[J].中文信息学报,2004,18(6):1-9. 被引量：59
2王东海.古文献数字语料库的异形字处理[J].语言文字应用,2005(4):116-120. 被引量：5
3黄昌宁,赵海.中文分词十年回顾[J].中文信息学报,2007,21(3):8-19. 被引量：249
4刘延金,雷刚,陈海员,黄明和,周志刚.中医汉英双语语料库平台[J].计算机工程,2008,34(11):266-267. 被引量：13
5刘耀,段慧明,王惠临,周扬,王振国,李宏展.中医药古文献语料库设计与开发研究[J].中文信息学报,2008,22(4):24-30. 被引量：8
6王惠.词义·词长·词频——《现代汉语词典》(第5版)多义词计量分析[J].中国语文,2009(2):120-130. 被引量：38
7闻永毅,樊新荣.《素问》中“心”字的统计分析研究[J].中国中医基础医学杂志,2009,15(9):646-648. 被引量：11
8张海军,史树敏,朱朝勇,黄河燕.中文新词识别技术综述[J].计算机科学,2010,37(3):6-10. 被引量：39
9石民,李斌,陈小荷.基于CRF的先秦汉语分词标注一体化研究[J].中文信息学报,2010,24(2):39-45. 被引量：70
10林自芳,蒋秀凤.基于词内部模式的新词识别[J].计算机与现代化,2010(11):162-164. 被引量：17

引证文献11

1王欣.一种基于多字互信息与邻接熵的改进新词合成算法[J].现代计算机（中旬刊）,2018(4):7-11. 被引量：5
2闻永毅,王治梅,杨婷.中医文献语料库自动分词中的新词发现研究[J].西部中医药,2018,31(9):71-74.
3邹志文,朱红泽,李玲,张大秀.基于改进位置成词概率的微博新词发现算法[J].电脑知识与技术,2019,15(1):1-2.
4刘伟童,刘培玉,刘文锋,李娜娜.基于互信息和邻接熵的新词发现算法[J].计算机应用研究,2019,36(5):1293-1296. 被引量：29
5黄文明,杨柳青青,任冲.结合信息量和深度学习的领域新词发现[J].计算机工程与设计,2019,40(7):1903-1907. 被引量：6
6柳文婷.基于改进互信息的微博新情感词提取[J].延边大学学报（自然科学版）,2019,45(4):349-355. 被引量：2
7郭理,张恒旭,王嘉岐,秦怀斌.基于Trie树的词语左右熵和互信息新词发现算法[J].现代电子技术,2020,43(6):65-69. 被引量：12
8付瑶,万静,邢立栋.基于条件随机场与信息熵的特定领域概念发现[J].计算机应用研究,2020,37(3):708-711. 被引量：5
9张舒,莫赞,柳建华,杨培琛,刘洪伟.基于NWD集成算法的多粒度微博用户兴趣画像构建[J].广东工业大学学报,2020,37(4):42-50. 被引量：2
10申兆媛,巢翌,李晓龙,张伟.针对特定领域的新词发现方法研究[J].计算机仿真,2022,39(6):269-273. 被引量：1

二级引证文献53

1何莉.改革开放的弄潮者——记大朗镇经济发展总公司[J].东莞科技,2000(3):29-29.
2李筱瑜.基于新词发现与词典信息的古籍文本分词研究[J].软件导刊,2019,18(4):60-63. 被引量：5
3陈梅婕,谢振平,陈晓琪,许鹏.专利新词发现的双向聚合度特征提取新方法[J].计算机应用,2020,40(3):631-637. 被引量：6
4付瑶,万静,邢立栋.基于条件随机场与信息熵的特定领域概念发现[J].计算机应用研究,2020,37(3):708-711. 被引量：5
5刘昱彤,吴斌,白婷.古诗词图谱的构建及分析研究[J].计算机研究与发展,2020,57(6):1252-1268. 被引量：9
6曹帅.结合关联置信度与结巴分词的新词发现算法[J].计算机系统应用,2020,29(5):144-151. 被引量：5
7张舒,莫赞,柳建华,杨培琛,刘洪伟.基于NWD集成算法的多粒度微博用户兴趣画像构建[J].广东工业大学学报,2020,37(4):42-50. 被引量：2
8郑岩,孙勇,季民,宋鹏飞,张立国.基于领域情感词库的大气质量感知满意度研究[J].环境污染与防治,2020,42(9):1182-1184. 被引量：1
9余本功,范招娣.面向自然语言处理的条件随机场模型研究综述[J].信息资源管理学报,2020,10(5):96-111. 被引量：18
10曹春萍,杨青林.基于信息传播特性的新词发现方法研究[J].软件,2020,41(9):201-203. 被引量：3

1任莉莉,方元康.基于词汇链与互信息的关键词抽取研究[J].池州学院学报,2013,27(6):48-50. 被引量：1
2张佳明,王波,唐浩浩,李天彩.基于Biterm主题模型的无监督微博情感倾向性分析[J].计算机工程,2015,41(7):219-223. 被引量：13
3邓海霞.2010年十大中文新词双语盘点(一)[J].中学生英语（下旬刊）,2011(3):20-20.
4秦笃烈.物美价廉的3D文本特技制作工具——Cool 3D[J].多媒体世界,1998(3):46-48.
5刘海峰,陈琦,张以皓.一种基于互信息的改进文本特征选择[J].计算机工程与应用,2012,48(25):1-4. 被引量：15
6赵云兰,宋永红,周颐.一种结合边缘和角点特征的视频字幕检测方法[J].信息工程期刊（中英文版）,2013,3(5):85-91.
7李其申,徐媛.基于频域的遥感图像互信息配准方法[J].计算机工程与应用,2009,45(35):161-163.
8王蒙,林兰芬,王锋.基于伪相关反馈的短文本扩展与分类[J].浙江大学学报（工学版）,2014,48(10):1835-1842. 被引量：6
9秦浩伟,步丰林.一个中文新词识别特征的研究[J].计算机工程,2004,30(B12):369-370. 被引量：13
10黄晓明,高陈强,田阳阳.自然场景文本区域定位[J].重庆邮电大学学报（自然科学版）,2015,27(5):700-705. 被引量：7

计算机工程与设计

2017年第3期

浏览历史

内容加载中请稍等...

面向网络语言基于微博语料的新词发现方法被引量：11

参考文献10

二级参考文献130

共引文献90

同被引文献57

引证文献11

二级引证文献53

相关作者

相关机构

相关主题

浏览历史

面向网络语言基于微博语料的新词发现方法 被引量：11

参考文献10

二级参考文献130

共引文献90

同被引文献57

引证文献11

二级引证文献53

相关作者

相关机构

相关主题

浏览历史

面向网络语言基于微博语料的新词发现方法被引量：11