基于古汉语语料的新词发现方法被引量：12

New Word Detection in Ancient Chinese Corpus

下载PDF

导出

摘要新词发现,作为自然语言处理的基本任务,是用计算方法研究中国古代文学必不可少的一步。该文提出一种基于古汉语料的新词识别方法,称为AP-LSTM-CRF算法。该算法分为三个步骤。第一步,基于Apache Spark分布式并行计算框架实现的并行化的Apriori改进算法,能够高效地从大规模原始语料中产生候选词集。第二步,用结合循环神经网络和条件随机场的切分概率模型对测试集文档的句子进行切分,产生切分概率的序列。第三步,用结合切分概率的过滤规则从候选词集里过滤掉噪声词,从而筛选出真正的新词。实验结果表明,该新词发现方法能够有效地从大规模古汉语语料中发现新词,在宋词和宋史数据集上分别进行实验,F1值分别达到了89.68%和81.13%,与现有方法相比,F1值分别提高了8.66%和2.21%。 New word detection,as a fundamental task in natural language processing,is an indispensable step in the computational study of ancient Chinese literature.In this work,we present an AP-LSTM-CRF model to discover new words in ancient Chinese literature.This model consists of three steps.First,the parallelized improved-Apriori algorithm,implemented on Apache Spark(a distributed parallel computing framework),is used to generate candidate character sequences from large-scale raw corpus.Second,a segmentation model which combines recurrent neural network and conditional random field is used to generate segmentation sequences with probabilities.Third,we design a rule based filter to remove noise words in the candidate character sequences.Experimental results demonstrate that the method is capable of detecting new words in large-scale ancient Chinese corpus effectively.The F1 is up to89.68% and 81.13%in Song Poetry dataset and History of the Song Dynasty dataset,respectively.

作者刘昱彤吴斌谢韬王柏 LIU Yutong;WU Bin;XIE Tao;WANG Bai(Beijing Key Laboratory of Intelligent Telecommunications Software and Multimedia,Beijing University of Posts and Telecommunications,Beijing 100876,China)

机构地区北京邮电大学智能通信软件与多媒体北京市重点实验室

出处《中文信息学报》 CSCD 北大核心 2019年第1期46-55,共10页 Journal of Chinese Information Processing

基金国家"973"重点基础研究发展计划(2013CB329606) 国家自然科学基金(61772082) 国家社会科学基金(16ZDA055)

关键词 Apriori的改进算法长短时记忆网络条件随机场过滤规则并行化 improved-Apriori algorithm long short-term memory networks conditional random field filter rules parallelizing

分类号 TP391.1 [自动化与计算机技术—计算机应用技术]

引文网络
相关文献

参考文献8

1黄昌宁,赵海.中文分词十年回顾[J].中文信息学报,2007,21(3):8-19. 被引量：249
2霍帅,张敏,刘奕群,马少平.基于微博内容的新词发现方法[J].模式识别与人工智能,2014,27(2):141-145. 被引量：25
3周霜霜,徐金安,陈钰枫,张玉洁.融合规则与统计的微博新词发现方法[J].计算机应用,2017,37(4):1044-1050. 被引量：15
4雷一鸣,刘勇,霍华.面向网络语言基于微博语料的新词发现方法[J].计算机工程与设计,2017,38(3):789-794. 被引量：11
5杜丽萍,李晓戈,于根,刘春丽,刘睿.基于互信息改进算法的新词发现对中文分词系统改进[J].北京大学学报（自然科学版）,2016,52(1):35-40. 被引量：46
6陈飞,刘奕群,魏超,张云亮,张敏,马少平.基于条件随机场方法的开放领域新词发现[J].软件学报,2013,24(5):1051-1060. 被引量：44
7杨阳,刘龙飞,魏现辉,林鸿飞.基于词向量的情感新词发现方法[J].山东大学学报（理学版）,2014,49(11):51-58. 被引量：26
8万琪,于中华,陈黎,宋磊磊,丁革建.利用新词探测提高中文微博的情感表达抽取[J].中国科学技术大学学报,2017,47(1):63-69. 被引量：5

二级参考文献55

1孙茂松.谈谈汉语分词语料库的一致性问题[J].语言文字应用,1999(2):90-93. 被引量：20
2黄昌宁.中文信息处理中的分词问题[J].语言文字应用,1997(1):74-80. 被引量：83
3孙茂松,张磊.人机并存,“质”“量”合一—谈谈制定信息处理用汉语词表的策略[J].语言文字应用,1997(1):81-88. 被引量：7
4刘开瑛.现代汉语自动分词评测技术研究[J].语言文字应用,1997(1):103-108. 被引量：15
5孙茂松,邹嘉彦.汉语自动分词研究评述[J].当代语言学,2001,3(1):22-32. 被引量：101
6邹纲,刘洋,刘群,孟遥,于浩,西野文人,亢世勇.面向Internet的中文新词语检测[J].中文信息学报,2004,18(6):1-9. 被引量：59
7李丽双,黄德根,陈春荣,杨元生.用支持向量机进行中文地名识别的研究[J].小型微型计算机系统,2005,26(8):1416-1419. 被引量：10
8朱嫣岚,闵锦,周雅倩,黄萱菁,吴立德.基于HowNet的词汇语义倾向计算[J].中文信息学报,2006,20(1):14-20. 被引量：326
9杨尔弘,方莹,刘冬明,乔羽.汉语自动分词和词性标注评测[J].中文信息学报,2006,20(1):44-49. 被引量：16
10刘华.一种快速获取领域新词语的新方法[J].中文信息学报,2006,20(5):17-23. 被引量：14

共引文献369

1孙星恺,王晓,陆浩.面向活动的网络媒体监测与建模分析:IVFC案例解析[J].智能科学与技术学报,2019,1(4):352-368. 被引量：1
2唐琳,郭崇慧,陈静锋.中文分词技术研究综述[J].数据分析与知识发现,2020,4(2):1-17. 被引量：43
3李对红,王裴岩 ,张桂平,张少阳.基于字簇的多模型中文分词方法研究[J].计算机应用研究,2020,37(2):355-359. 被引量：2
4那勇,李明全.基于深度学习的中文自动分词研究[J].吉林广播电视大学学报,2019(12):58-59.
5王蔚,吴建明,刘磊.汉字的理据性[J].汉字文化,2024(5):129-133.
6宋凯丽,李云岭,姚露露.基于条件随机场的分词标注一体化地址解析方法[J].测绘地理信息,2021,46(S01):185-187. 被引量：4
7于江德,谷川,葛文英,樊孝忠.一种基于字和子串联合标注的汉语分词方法[J].山西大学学报（自然科学版）,2011,34(3):357-362. 被引量：2
8赵海,揭春雨.基于有效子串标注的中文分词[J].中文信息学报,2007,21(5):8-13. 被引量：26
9李知兵,李龙澍.基于数据驱动的中文分词方法研究[J].现代计算机,2007,13(12):8-10. 被引量：1
10麦范金,王挺.基于双向最大匹配和HMM的分词消歧模型[J].现代图书情报技术,2008(8):37-41. 被引量：9

同被引文献130

1唐琳,郭崇慧,陈静锋.中文分词技术研究综述[J].数据分析与知识发现,2020,4(2):1-17. 被引量：43
2肖瑞,胡冯菊,裴卫.基于BiLSTM-CRF的中医文本命名实体识别[J].世界科学技术-中医药现代化,2020,22(7):2504-2510. 被引量：31
3高永伟.近20年英语国家对新词的研究[J].外语与外语教学,1998(11):9-11. 被引量：16
4邹纲,刘洋,刘群,孟遥,于浩,西野文人,亢世勇.面向Internet的中文新词语检测[J].中文信息学报,2004,18(6):1-9. 被引量：59
5俞鸿魁,张华平,刘群,吕学强,施水才.基于层叠隐马尔可夫模型的中文命名实体识别[J].通信学报,2006,27(2):87-94. 被引量：157
6黄昌宁,赵海.中文分词十年回顾[J].中文信息学报,2007,21(3):8-19. 被引量：249
7董振东,董强,郝长伶.知网的理论发现[J].中文信息学报,2007,21(4):3-9. 被引量：99
8王永恒,贾焰,杨树强.海量短语信息文本聚类技术研究[J].计算机工程,2007,33(14):38-40. 被引量：13
9王文荣,乔晓东,朱礼军.针对特定领域的新词发现和新技术发现[J].现代图书情报技术,2008(2):35-40. 被引量：7
10IUY.拼音输入法词库广度及选词精度全测试[J].网络与信息,2009,23(10):10-11. 被引量：2

引证文献12

1陈梅婕,谢振平,陈晓琪,许鹏.专利新词发现的双向聚合度特征提取新方法[J].计算机应用,2020,40(3):631-637. 被引量：6
2刘昱彤,吴斌,白婷.古诗词图谱的构建及分析研究[J].计算机研究与发展,2020,57(6):1252-1268. 被引量：9
3余本功,范招娣.面向自然语言处理的条件随机场模型研究综述[J].信息资源管理学报,2020,10(5):96-111. 被引量：18
4王煜,徐建民.用于网络新闻热点识别的热点新词发现[J].计算机应用,2020,40(12):3513-3519. 被引量：5
5张一帆,张军莲,汪鸣泉,吕正,黄永健,顾倩荣.基于条件随机场和词向量的能源政策领域新词发现[J].南京理工大学学报,2021,45(1):37-45. 被引量：5
6耿骞,邓斯予,靳健.融合词语义表示和新词发现的领域本体演化——以产品评论数据为例[J].图书情报工作,2021,65(8):85-96. 被引量：3
7杨政,尹春林,蔡迪,李慧斌.一种基于成词率和谱聚类的电力文本领域词发现方法[J].电子技术应用,2021,47(10):29-32. 被引量：1
8王璐,刘晓清,何震瀛.连续时间区间内的频繁词序列挖掘算法[J].计算机工程,2022,48(2):79-85.
9张乐,冷基栋,吕学强,袁梦龙,游新冬.MWEC:一种基于多语义词向量的中文新词发现方法[J].数据分析与知识发现,2022,6(1):113-121. 被引量：4
10刘凡平,陈慧,沈振雷,吴业俭.基于BERT的开放领域中文新词发现研究[J].计算机应用与软件,2023,40(6):173-180.

二级引证文献50

1闫博.基于HanLP关键词抽取与句法分析的图谱构建[J].电子元器件与信息技术,2022,6(9):77-80. 被引量：3
2苏晓红.建立统一的国债回购市场[J].金融理论与实践,2000(3):18-19.
3郭凡莎,杨风暴.基于CRF的交通肇事诉讼案件关键要素抽取[J].计算机与现代化,2021(3):77-81. 被引量：2
4李永卉,周树斌,周宇婷,卢章平.基于图数据库Neo4j的宋代镇江诗词知识图谱构建研究[J].大学图书馆学报,2021,39(2):52-61. 被引量：28
5耿骞,邓斯予,靳健.融合词语义表示和新词发现的领域本体演化——以产品评论数据为例[J].图书情报工作,2021,65(8):85-96. 被引量：3
6吴恪涵,张雪英,叶鹏,怀安,张航.基于BERT-BiLSTM-CRF的中文地址解析方法[J].地理与地理信息科学,2021,37(4):10-15. 被引量：6
7林振,秦宇辰,秦婴逸,李冬冬,吴骋,贺佳.基于缺血性脑卒中患者出院小结的协变量提取方法[J].第二军医大学学报,2021,42(11):1273-1278.
8黎金霞.网络新词在平面媒体新闻报道中的应用[J].卫星电视与宽带多媒体,2021(24):91-92.
9宋雪雁,霍晓楠,刘寅鹏,邓君.数字人文视角下《全唐诗》贬谪诗人社会关系研究[J].现代情报,2022,42(2):14-21. 被引量：10
10秦华,王岩松,宣伟浩.基于多维度特征和深度学习模型的地址实体识别[J].计算机应用,2021,41(S02):48-53. 被引量：1

1符贤哲,刘胜全,刘艳,郭竹为,赵美玲.基于生存法则的稳定新词识别方法的研究[J].新疆大学学报（自然科学版）,2018,35(1):73-79. 被引量：1
2王蒙,方睿,邹书蓉.基于矩阵相乘的Apriori改进算法[J].计算机与数字工程,2018,46(10):1974-1979. 被引量：5
3王宇一.基于Apriori改进算法的频繁路径挖掘——以实现图书移动路径挖掘为例[J].佛山科学技术学院学报（自然科学版）,2018,36(4):24-28.
4李俊.基于关联规则的Apriori改进算法[J].企业科技与发展,2018(9):42-44. 被引量：1
5钟秋月.木洞山歌衬词运用手法探究[J].北方音乐,2018,38(24):25-26.
6张婧,黄锴宇,梁晨,黄德根.面向中文社交媒体语料的无监督新词识别研究[J].中文信息学报,2018,32(3):17-25. 被引量：6
7艾才叶.探析计算机通信网络组织结构发现方法研究[J].幸福生活指南,2018,0(15):177-177.
8曹宋阳,刘磊,王亚刚.基于事务权重与布尔矩阵的Apriori改进算法[J].软件导刊,2018,17(12):65-68. 被引量：4
9姜猛,王子牛,高建瓴.基于异构数据联合训练的中文分词法[J].电子科技,2019,32(4):29-32. 被引量：6
10张海潮,王昊,唐慧慧,薛蔚.CRFs字角色标注方法在中文附加关键词抽取中的应用研究[J].情报理论与实践,2019,42(2):169-176. 被引量：5

中文信息学报

2019年第1期

浏览历史

内容加载中请稍等...

基于古汉语语料的新词发现方法被引量：12

参考文献8

二级参考文献55

共引文献369

同被引文献130

引证文献12

二级引证文献50

相关作者

相关机构

相关主题

浏览历史

基于古汉语语料的新词发现方法 被引量：12

参考文献8

二级参考文献55

共引文献369

同被引文献130

引证文献12

二级引证文献50

相关作者

相关机构

相关主题

浏览历史

基于古汉语语料的新词发现方法被引量：12