基于N-Gram的专业领域中文新词识别研究被引量：10

Research on Chinese New Word Recognition in Specialized Field Based on N-Gram

导出

摘要以植物学作为专业领域的样本,对专业领域的新词自动化识别进行探索。研究选取《中国植物志》作为样本集,在ICTCLAS切词的基础上采用N-Gram统计的方法提取新词的候选项,然后分别按照词频(TF)、文档频率(D)和平均词频(TF/D)对新词候选项排序,取一定范围内的候选项作为识别出的新词。实验结果表明,词频TF筛选新词候选项的识别效果最好,F值为0.65。该方法能够自动产生专业领域的用户词典,具有较强的可移植性。 The paper researches automatic new word recognition in specialized field which is represented by phytology.A set of 200 documents on plant description randomly drawn from ＂Flora of China＂ is taken as sample set.At first,draw new words candidates are drawn by N-Gram method based on words split by ICTCLAS.Then all the new words candidates are sorted respectively by term frequency（TF）,document frequency（D） and average term frequency（TF/D） and the candidates are selected among certain boundary as true new words.The experiments show that new words recognition according to TF is the best and F measurement is 0.65.This method can automatically produce user dictionary of specialized field and is highly portable.

作者段宇锋鞠菲

机构地区华东师范大学商学院

出处《现代图书情报技术》 CSSCI 北大核心 2012年第2期41-47,共7页 New Technology of Library and Information Service

基金教育部人文社会科学研究青年基金项目"基于深度语义标注的网络中文学术信息抽取研究--以生物多样性描述为例"(项目编号:10YJC870004)的研究成果之一

关键词 N-GRAM 新词识别词频统计 N-Gram New word recognition Term frequency

分类号 G254 [文化科学—图书馆学]

引文网络
相关文献

参考文献15

1张海军,史树敏,丁溪源,黄河燕.基于分词提取重复串的未登录词遗漏量化模型[J].中文信息学报,2011,25(2):122-128. 被引量：5
2黄昌宁,赵海.中文分词十年回顾[J].中文信息学报,2007,21(3):8-19. 被引量：249
3贺敏,龚才春,张华平,程学旗.一种基于大规模语料的新词识别方法[J].计算机工程与应用,2007,43(21):157-159. 被引量：24
4吕美香,何琳,李玥,杨敏,张越.基于N-Gram文本表达的新闻领域关键词词典构建研究[J].情报科学,2010,28(4):571-574. 被引量：3
5丁建立,慈祥,黄剑雄.一种基于免疫遗传算法的网络新词识别方法[J].计算机科学,2011,38(1):240-245. 被引量：11
6韩客松,王永成,陈桂林.汉语语言的无词典分词模型系统[J].计算机应用研究,1999,16(10):8-9. 被引量：22
7秦浩伟,步丰林.一个中文新词识别特征的研究[J].计算机工程,2004,30(B12):369-370. 被引量：13
8吴涛,张毛迪,陈传波.一种改进的统计与后串最大匹配的中文分词算法研究[J].计算机工程与科学,2008,30(8):79-82. 被引量：7
9都菁,熊海灵.基于论坛语料识别中文未登录词的方法[J].计算机工程与设计,2010,31(3):630-633. 被引量：10
10李钝,曹元大,万月亮.Internet中的新词识别[J].北京邮电大学学报,2008,31(1):26-29. 被引量：7

二级参考文献106

1孙茂松.谈谈汉语分词语料库的一致性问题[J].语言文字应用,1999(2):90-93. 被引量：20
2黄昌宁.中文信息处理中的分词问题[J].语言文字应用,1997(1):74-80. 被引量：83
3孙茂松,张磊.人机并存,“质”“量”合一—谈谈制定信息处理用汉语词表的策略[J].语言文字应用,1997(1):81-88. 被引量：7
4刘开瑛.现代汉语自动分词评测技术研究[J].语言文字应用,1997(1):103-108. 被引量：15
5孙茂松,肖明,邹嘉彦.基于无指导学习策略的无词表条件下的汉语自动分词[J].计算机学报,2004,27(6):736-742. 被引量：37
6孙茂松,邹嘉彦.汉语自动分词研究评述[J].当代语言学,2001,3(1):22-32. 被引量：101
7邹纲,刘洋,刘群,孟遥,于浩,西野文人,亢世勇.面向Internet的中文新词语检测[J].中文信息学报,2004,18(6):1-9. 被引量：59
8熊海灵,伍胜,余建桥,李航.一种基于RPUC的Web文档索引库的更新算法[J].计算机科学,2004,31(8):95-96. 被引量：1
9贾自艳,史忠植.基于概率统计技术和规则方法的新词发现[J].计算机工程,2004,30(20):19-21. 被引量：28
10郭进.统计语言模型及汉语音字转换的一些新结果[J].中文信息学报,1993,7(1):18-27. 被引量：17

共引文献455

1唐琳,郭崇慧,陈静锋.中文分词技术研究综述[J].数据分析与知识发现,2020,4(2):1-17. 被引量：43
2李对红,王裴岩 ,张桂平,张少阳.基于字簇的多模型中文分词方法研究[J].计算机应用研究,2020,37(2):355-359. 被引量：2
3王蔚,吴建明,刘磊.汉字的理据性[J].汉字文化,2024(5):129-133.
4宋凯丽,李云岭,姚露露.基于条件随机场的分词标注一体化地址解析方法[J].测绘地理信息,2021,46(S01):185-187. 被引量：4
5周蕾,朱巧明,李培峰.一种基于统计和规则的未登录词识别方法[J].南京大学学报（自然科学版）,2005,41(z1):819-825. 被引量：1
6于江德,谷川,葛文英,樊孝忠.一种基于字和子串联合标注的汉语分词方法[J].山西大学学报（自然科学版）,2011,34(3):357-362. 被引量：2
7黄昌宁,孙茂松.中文信息处理最新成果的检阅——记新加坡中文电脑国际会议ICCC’96[J].当代语言学,1996(4):44-48. 被引量：1
8于清,阿里甫.库尔班.微博语料分词及标注方法初探[J].新疆大学学报（自然科学版）,2013,30(1):81-86. 被引量：1
9文庭孝,邱均平,侯经川.汉语自动分词研究展望[J].现代图书情报技术,2004(7):6-10. 被引量：20
10张素娟,郑庆华,胡云华,孙霞.一种面向网络答疑的汉语切分歧义消除算法[J].计算机工程与应用,2004,40(25):55-58. 被引量：4

同被引文献186

1高永伟.近20年英语国家对新词的研究[J].外语与外语教学,1998(11):9-11. 被引量：16
2邹纲,刘洋,刘群,孟遥,于浩,西野文人,亢世勇.面向Internet的中文新词语检测[J].中文信息学报,2004,18(6):1-9. 被引量：59
3贾自艳,史忠植.基于概率统计技术和规则方法的新词发现[J].计算机工程,2004,30(20):19-21. 被引量：28
4秦浩伟,步丰林.一个中文新词识别特征的研究[J].计算机工程,2004,30(B12):369-370. 被引量：13
5秦兵,刘挺,李生.多文档自动文摘综述[J].中文信息学报,2005,19(6):13-20. 被引量：51
6俞鸿魁,张华平,刘群,吕学强,施水才.基于层叠隐马尔可夫模型的中文命名实体识别[J].通信学报,2006,27(2):87-94. 被引量：157
7崔世起,刘群,孟遥,于浩,西野文人.基于大规模语料库的新词检测[J].计算机研究与发展,2006,43(5):927-932. 被引量：32
8罗智勇,宋柔.现代汉语通用分词系统中歧义切分的实用技术[J].计算机研究与发展,2006,43(6):1122-1128. 被引量：19
9傅间莲,陈群秀.一种新的自动文摘系统评价方法[J].计算机工程与应用,2006,42(18):176-177. 被引量：9
10任禾,曾隽芳.一种基于信息熵的中文高频词抽取算法[J].中文信息学报,2006,20(5):40-43. 被引量：22

引证文献10

1孙海霞,李军莲,吴英杰,吴夙慧.基于混合策略的中文生物医学领域未登录词识别研究[J].现代图书情报技术,2013(1):15-21. 被引量：2
2逯万辉,马建霞,范云满.基于CRFs和语块分析的中文未登录术语识别研究[J].情报科学,2013,31(11):46-50.
3王连喜.自动摘要研究中的若干问题[J].图书情报工作,2014,58(20):13-22. 被引量：7
4余凡,楼雯.领域概念的三层递进筛选方法研究[J].现代图书情报技术,2015(4):26-33. 被引量：2
5张艳辉,刘培玉.基于互信息的微博新词发现算法[J].科技视界,2015(15):137-137. 被引量：1
6侯丽,李姣,侯震,陈松景.基于混合策略的公众健康领域新词识别方法研究[J].图书情报工作,2015,59(23):115-123. 被引量：2
7李淑平.中文新词识别研究概述[J].科技资讯,2016,14(29):145-146.
8曾浩,詹恩奇,郑建彬,汪阳.基于扩展规则与统计特征的未登录词识别[J].计算机应用研究,2019,36(9):2704-2707. 被引量：8
9唐晓波,谭明亮,李诗轩,顾娜.基于风险短语挖掘的知识聚合模型研究[J].情报理论与实践,2020,43(8):152-158. 被引量：9
10刘凡平,陈慧,沈振雷,吴业俭.基于BERT的开放领域中文新词发现研究[J].计算机应用与软件,2023,40(6):173-180.

二级引证文献31

1夏松,林荣蓉,刘勘.网络谣言敏感词库的构建研究——以新浪微博谣言为例[J].知识管理论坛,2019(5):267-275. 被引量：6
2那勇,李明全.基于深度学习的中文自动分词研究[J].吉林广播电视大学学报,2019(12):58-59.
3孙海霞,吴英杰,李丹亚,李军莲.中文生物医学关键词-主题词映射表计算机辅助构建与维护机制研究[J].数字图书馆论坛,2014(12):16-22. 被引量：3
4段宇锋,朱雯晶,陈巧,刘伟,刘凤红.条件随机场与领域本体元素集相结合的未登录词识别研究[J].现代图书情报技术,2015(4):41-49. 被引量：3
5陈鑫,王素格,廖健.基于词语相关度的微博新情感词自动识别[J].计算机应用,2016,36(2):424-427. 被引量：4
6刘天祎,步一,赵丹群,黄文彬.自动引文摘要研究述评[J].现代图书情报技术,2016(5):1-8. 被引量：3
7高永兵,王宇,马占飞.基于CR-PageRank算法的个人事件自动摘要研究[J].计算机工程,2016,42(11):64-69. 被引量：3
8冯俐.中文分词技术综述[J].现代计算机,2018,24(23):17-20. 被引量：10
9肖璐,孙建军.项目特色视角下的我国图书情报领域知识聚合研究进展[J].现代情报,2019,39(1):29-36. 被引量：4
10雷晓,常春,刘伟.面向叙词表更新的新术语分布特征研究[J].图书情报工作,2019,63(20):121-128. 被引量：3

1杨立社,刘懿.大学图书馆文献信息资源可持续发展的理性思考——以辽宁师范大学图书馆馆藏《中国植物志》为例[J].农业图书情报学刊,2009,21(2):36-38. 被引量：1
2刘晓丽,张佳骥.基于n-Gram的中文文本示例检索方法研究[J].无线电通信技术,2001,27(6):24-26. 被引量：1
3郭崇慧,魏伟,任晓玲.文化组学研究综述[J].情报学报,2014,33(7):765-774. 被引量：6
4吕美香,何琳,李玥,杨敏,张越.基于N-Gram文本表达的新闻领域关键词词典构建研究[J].情报科学,2010,28(4):571-574. 被引量：3
5崔雷,侯跃芳,张晗.论影响因子及其在科研绩效评价中的应用[J].医学情报工作,2003,24(4):241-245. 被引量：23
6王桂萍.医院档案管理网络化建设浅析[J].山东档案,2011(4):32-33. 被引量：1
7陈川.微博网络中影响力传播节点的识别[J].新媒体研究,2015,1(9):1-2.
8颜端武,李兰彬,曲美娟.基于N-gram复合分词的领域概念自动获取方法研究[J].情报理论与实践,2014,37(2):122-126. 被引量：5
9王天铎.SCI和CSCD、CSTPCD收录中国科技期刊的IF值的回归分析[J].中国科技期刊研究,2005,16(1):38-44. 被引量：4
10郑丽娟,王洪伟,郭恺强.中文网络评论的情感分类:句子与段落的比较研究[J].情报学报,2013,32(4):376-384. 被引量：5

现代图书情报技术

2012年第2期

浏览历史

内容加载中请稍等...

基于N-Gram的专业领域中文新词识别研究被引量：10

参考文献15

二级参考文献106

共引文献455

同被引文献186

引证文献10

二级引证文献31

相关作者

相关机构

相关主题

浏览历史

基于N-Gram的专业领域中文新词识别研究 被引量：10

参考文献15

二级参考文献106

共引文献455

同被引文献186

引证文献10

二级引证文献31

相关作者

相关机构

相关主题

浏览历史

基于N-Gram的专业领域中文新词识别研究被引量：10