基于上下文词频词汇量指标的新词发现方法被引量：9

A NOVEL APPROACH FOR CHINESE NEW WORD IDENTIFICATION BASED ON CONTEXTUAL WORD FREQUENCY-CONTEXTUAL WORD COUNT

下载PDF

导出

摘要提出一种基于上下文词频词汇量的统计指标。该指标通过修改信息熵公式中参数的定义,即将邻接字符串在语料集中出现的次数改成邻接字符串集合的大小,克服了左右信息熵在识别新词时特征不够明显的缺点。同时提出一种递归的基于邻接关系的字符串连接方法,克服了N-gram方法采用固定滑动窗口大小的缺点。实证分析表明该新词发现方法有较高的准确率,通过选取不同的词频词汇量指标值作为阈值,能够在发现更多新词和提高发现新词的准确率方面进行灵活调整,为新词发现提供一种实用的方法。 This article presents a statistic index which is based on contextual word frequency-contextual word count ( W F -C W C ). W F -C W C , by modifying the definition of the parameters in information entropy formula, i. e ., changing the occurrence frequency of adjacent strings in corpus to the size of the adjacent strings collection, overcomes the defect of left and right information entropies being not significant in characteristics when identifying new words. Meanwhile, this paper presents a recursive and adjacent relation-based string concatenation method, which overcomes the disadvantage of the fixed sliding window size in N-gram model. Empirical analysis indicates that this new word identification method has higher accuracy. Through selecting different W F - C W C as the thresholds, it can make flexible adjustment in finding more new words or improve the accuracy of new words identification, and this provides a practical approach for new words identification.

作者邢恩军赵富强 Xing Enjun;Zhao Fuqiang(College of Management and Economics, Tianjin University, Tianjin 300072 , China;Department of Information Science and Technology, Tianjin University of Finance and Economics , Tianjin 300222 , China)

机构地区天津大学管理与经济学部天津财经大学信息科学与技术系

出处《计算机应用与软件》 CSCD 2016年第6期64-67,共4页 Computer Applications and Software

基金国家自然科学基金青年基金项目(61004056) 天津自然科学基金资助项目(15JCYBJC16000) 天津市哲学社会科学研究规划基金资助项目(TJTJ15-002)

关键词新词发现上下文信息熵词频词汇量指标 New word identification Information entropy of context Context word frequency-context word count

分类号 TP391.1 [自动化与计算机技术—计算机应用技术]

引文网络
相关文献

参考文献8

1罗智勇,宋柔.基于多特征的自适应新词识别[J].北京工业大学学报,2007,33(7):718-725. 被引量：14
2贺敏,龚才春,张华平,程学旗.一种基于大规模语料的新词识别方法[J].计算机工程与应用,2007,43(21):157-159. 被引量：24
3陈飞,刘奕群,魏超,张云亮,张敏,马少平.基于条件随机场方法的开放领域新词发现[J].软件学报,2013,24(5):1051-1060. 被引量：43
4孙晓,黄德根,宋海玉,任福继.Chinese New Word Identification:A Latent Discriminative Model with Global Features[J].Journal of Computer Science & Technology,2011,26(1):14-24. 被引量：11
5邹纲,刘洋,刘群,孟遥,于浩,西野文人,亢世勇.面向Internet的中文新词语检测[J].中文信息学报,2004,18(6):1-9. 被引量：59
6丁建立,慈祥,黄剑雄.一种基于免疫遗传算法的网络新词识别方法[J].计算机科学,2011,38(1):240-245. 被引量：11
7张海军,史树敏,朱朝勇,黄河燕.中文新词识别技术综述[J].计算机科学,2010,37(3):6-10. 被引量：39
8曹艳,杜慧平,刘竟,侯汉清.基于词表和N-gram算法的新词识别实验[J].情报科学,2007,25(11):1687-1691. 被引量：7

二级参考文献79

1陈小荷.自动分词中未登录词问题的一揽子解决方案[J].语言文字应用,1999(3):103-109. 被引量：26
2苏菲,王丹力,戴国忠.基于标记的规则统计模型与未登录词识别算法[J].计算机工程与应用,2004,40(15):43-45. 被引量：13
3邹纲,刘洋,刘群,孟遥,于浩,西野文人,亢世勇.面向Internet的中文新词语检测[J].中文信息学报,2004,18(6):1-9. 被引量：59
4朱宏一.汉语词缀的定义、范围、特点和识别——兼析《汉语水平等级标准与语法等级大纲》的词缀问题[J].语文研究,2004(4):32-37. 被引量：14
5李丽双,黄德根,陈春荣,杨元生.用支持向量机进行中文地名识别的研究[J].小型微型计算机系统,2005,26(8):1416-1419. 被引量：10
6曹勇刚,曹羽中,金茂忠,刘超.面向信息检索的自适应中文分词系统[J].软件学报,2006,17(3):356-363. 被引量：48
7崔世起,刘群,孟遥,于浩,西野文人.基于大规模语料库的新词检测[J].计算机研究与发展,2006,43(5):927-932. 被引量：32
8刘华.一种快速获取领域新词语的新方法[J].中文信息学报,2006,20(5):17-23. 被引量：14
9李丽双,黄德根,陈春荣,杨元生.SVM与规则相结合的中文地名自动识别[J].中文信息学报,2006,20(5):51-57. 被引量：32
10黄昌宁,赵海.中文分词十年回顾[J].中文信息学报,2007,21(3):8-19. 被引量：249

共引文献154

1孙星恺,王晓,陆浩.面向活动的网络媒体监测与建模分析:IVFC案例解析[J].智能科学与技术学报,2019,1(4):352-368. 被引量：1
2崔世起,刘群,孟遥,于浩,西野文人.基于大规模语料库的新词检测[J].计算机研究与发展,2006,43(5):927-932. 被引量：32
3任禾,曾隽芳.一种基于信息熵的中文高频词抽取算法[J].中文信息学报,2006,20(5):40-43. 被引量：22
4胡国平,张巍,王仁华.基于双层决策的新闻网页正文精确抽取[J].中文信息学报,2006,20(6):1-9. 被引量：16
5何婷婷,朱薏,张勇,任函.基于词语属性的计算机辅助获取流行词语研究[J].中文信息学报,2006,20(6):38-45. 被引量：4
6姜韶华,党延忠.自动提取含字母词语的领域新术语的研究[J].计算机工程,2007,33(2):47-49. 被引量：3
7吕学强,黄河,李渝勤,施水才.BBS中文新词语自动挖掘[J].现代图书情报技术,2007(1):37-39. 被引量：2
8胡彧,苏雪峰.特定主题的相关概念挖掘研究与实现[J].电脑开发与应用,2007,20(2):14-16. 被引量：1
9张榕,宋柔.一种被定义项的识别策略[J].当代语言学,2007,9(1):33-38. 被引量：4
10贺敏,龚才春,张华平,程学旗.一种基于大规模语料的新词识别方法[J].计算机工程与应用,2007,43(21):157-159. 被引量：24

同被引文献64

1高永伟.近20年英语国家对新词的研究[J].外语与外语教学,1998(11):9-11. 被引量：16
2沈家煊.“语法化”研究综观[J].外语教学与研究,1994,26(4):17-24. 被引量：1148
3邹纲,刘洋,刘群,孟遥,于浩,西野文人,亢世勇.面向Internet的中文新词语检测[J].中文信息学报,2004,18(6):1-9. 被引量：59
4赵大明.《左传》中率领义“以”的语法化程度[J].中国语文,2005(3):226-231. 被引量：11
5邓耀臣,王同顺.词语搭配抽取的统计方法及计算机实现[J].外语电化教学,2005(5):25-28. 被引量：15
6龚薇,肖辉,曾海泉.基于变化点的时间序列近似表示[J].计算机工程与应用,2006,42(10):169-171. 被引量：6
7黄昌宁,赵海.中文分词十年回顾[J].中文信息学报,2007,21(3):8-19. 被引量：249
8荀恩东,李晟.采用术语定义模式和多特征的新术语及定义识别方法[J].计算机研究与发展,2009,46(1):62-69. 被引量：12
9陈昌来,朱峰.“除”类介词及“除”类介词框架的产生和发展[J].上海师范大学学报（哲学社会科学版）,2009,38(2):91-101. 被引量：17
10许家金,熊文新.基于学习者英语语料的类联接研究概念、方法及例析[J].外语电化教学,2009(3):18-23. 被引量：34

引证文献9

1周霜霜,徐金安,陈钰枫,张玉洁.融合规则与统计的微博新词发现方法[J].计算机应用,2017,37(4):1044-1050. 被引量：15
2王欣.一种基于多字互信息与邻接熵的改进新词合成算法[J].现代计算机（中旬刊）,2018(4):7-11. 被引量：5
3姜如霞,黄水源,段隆振,罗丽娟.基于规则和N-Gram算法的新词识别研究[J].现代电子技术,2019,42(4):166-170. 被引量：5
4黄文明,杨柳青青,任冲.结合信息量和深度学习的领域新词发现[J].计算机工程与设计,2019,40(7):1903-1907. 被引量：6
5雷晓,常春,刘伟.面向叙词表更新的新术语分布特征研究[J].图书情报工作,2019,63(20):121-128. 被引量：3
6吕晋,吴进军,朱宇宏,聂军刚.基于Bi-LSTM-CRF模型的焊接专利新词发现[J].黄河科技学院学报,2020,22(5):47-52. 被引量：1
7张航,盛志伟,张仕斌,杨敏.Simhash算法在文本去重中的应用[J].计算机工程与应用,2020,56(11):246-251. 被引量：7
8雷晓,常春,刘伟.基于时间序列聚类算法的叙词表新术语遴选研究[J].情报科学,2021,39(1):135-141.
9余碧燕,蒋跃.从搭配行为看现代汉语词类的语法化程度[J].西安电子科技大学学报（社会科学版）,2023,33(4):90-98.

二级引证文献37

1王欣.一种基于多字互信息与邻接熵的改进新词合成算法[J].现代计算机（中旬刊）,2018(4):7-11. 被引量：5
2夏同飞,李志,王超,郭振,张学敏,费晓璐.基于互信息改进算法的新词发现对中文分词系统改进[J].电子元器件与信息技术,2018,2(9):11-13. 被引量：1
3姜如霞,黄水源,段隆振,罗丽娟.基于规则和N-Gram算法的新词识别研究[J].现代电子技术,2019,42(4):166-170. 被引量：5
4李筱瑜.基于新词发现与词典信息的古籍文本分词研究[J].软件导刊,2019,18(4):60-63. 被引量：5
5俞琰,陈磊,姜金德,赵乃瑄.网络招聘文本技能信息自动抽取研究[J].图书情报工作,2019,63(13):105-113. 被引量：8
6黄文明,杨柳青青,任冲.结合信息量和深度学习的领域新词发现[J].计算机工程与设计,2019,40(7):1903-1907. 被引量：6
7陈梅婕,谢振平,陈晓琪,许鹏.专利新词发现的双向聚合度特征提取新方法[J].计算机应用,2020,40(3):631-637. 被引量：6
8曹帅.结合关联置信度与结巴分词的新词发现算法[J].计算机系统应用,2020,29(5):144-151. 被引量：5
9王晓光,侯西龙,程航航,夏生平.敦煌壁画叙词表构建与关联数据发布[J].中国图书馆学报,2020,46(4):69-84. 被引量：37
10俞琰,陈磊,姜金德,赵乃瑄.融合论文关键词知识的专利术语抽取方法[J].图书情报工作,2020,64(14):104-111. 被引量：7

1沈小雪,郭嗣琮.新的直觉模糊熵公式及其应用[J].计算机工程与应用,2013,49(24):28-31. 被引量：3
2李佳骏,宋旭东,李艳红.Vague软集的新模糊熵及其应用[J].计算机工程与应用,2015,51(13):221-224. 被引量：2
3王昌.Vague软集的模糊熵和它的一些性质[J].小型微型计算机系统,2012,33(7):1564-1567. 被引量：5
4吴涛,白礼虎,刘二宝,孙小慧.直觉模糊集新的熵公式及应用[J].计算机工程与应用,2013,49(23):48-51. 被引量：12
5魏翠萍,高志海,郭婷婷.一个基于三角函数的直觉模糊熵公式[J].控制与决策,2012,27(4):571-574. 被引量：30
6张弘,范九伦.二维Arimoto熵直线型阈值分割法[J].光子学报,2013,42(2):234-240. 被引量：16
7张建勋,吴建国.一种高效海量字符串集合的模式匹配算法[J].计算机工程与应用,2004,40(13):93-96.
8江伟.融合包含度和距离的Vague熵[J].湖北科技学院学报,2013,33(6):3-4.
9王凌云,鲁小云,王治和.Vague集模糊熵的再研究[J].计算机工程与应用,2009,45(30):31-33. 被引量：5
10刘昌鑫,张仕超,肖贻杰,莫凌飞.基于机器视觉的人体动作目标检测[J].工业控制计算机,2016,29(10):109-111.

计算机应用与软件

2016年第6期

浏览历史

内容加载中请稍等...

基于上下文词频词汇量指标的新词发现方法被引量：9

参考文献8

二级参考文献79

共引文献154

同被引文献64

引证文献9

二级引证文献37

相关作者

相关机构

相关主题

浏览历史

基于上下文词频词汇量指标的新词发现方法 被引量：9

参考文献8

二级参考文献79

共引文献154

同被引文献64

引证文献9

二级引证文献37

相关作者

相关机构

相关主题

浏览历史

基于上下文词频词汇量指标的新词发现方法被引量：9