针对特定领域的新词发现方法研究被引量：1

Research on New Word Discovery Methods Facing the Military Field

下载PDF

导出

摘要如何准确识别文本中的领域新词是保证企事业内数据安全中的一项重要任务,针对特定领域语料的特性,提出一种针对特定领域的新词发现方法。首先预处理语料,其次采用Jieba结合本领域的成词策略分词,N-gram滑动取词得到候选词串,再次利用点互信息、邻接熵、词频与归一化得分筛选新词,从次新词向量化并降维,最后K-means分离领域或常用新词,从而得到领域新词集。解决了通用新词发现方法在特定领域的不适应性问题,在某领域约10万行的语料数据上,通过对比实验验证了上述方法的有效性。 How to accurately identify domain new words in the text is an important task in the security work in ensuring data security in enterprises and institutions. This article proposes a new word discovery method for specific domains based on the characteristics of a specific domain corpus. Firstly, the corpus was preprocessed. Secondly, Jieba was used to combine the word-formation strategy in a specific field to segment words. And the N-gram was used for sliding word retrieval to obtain the candidate word string. Thirdly, the pointwise mutual information, branch entropy, word frequency and normalized score were used to filter new words. Then, new words were vectorized and dimensionality reduced. Finally, K-means was used to separate domain new words or commonly used new words to obtain domain new word sets. This method solves the problem of the incompatibility of the general new word discovery method in a specific field. On the corpus data of about 100,000 lines in a certain field, the effectiveness of this method is verified by comparative experiments.

作者申兆媛巢翌李晓龙张伟 SHEN Zhao-yuan;CHAO Yi;LI Xiao-long;ZHANG Wei(Beijing Institute of Control and Electronic Technology,Beijing 100038,China)

机构地区北京控制与电子技术研究所

出处《计算机仿真》北大核心 2022年第6期269-273,335,共6页 Computer Simulation

关键词新词发现点互信息邻接熵聚类 New word discovery Pointwise mutual information Branch entropy Clustering

分类号 TP393.08 [自动化与计算机技术—计算机应用技术]

引文网络
相关文献

参考文献9

1郭理,张恒旭,王嘉岐,秦怀斌.基于Trie树的词语左右熵和互信息新词发现算法[J].现代电子技术,2020,43(6):65-69. 被引量：12
2陈飞,刘奕群,魏超,张云亮,张敏,马少平.基于条件随机场方法的开放领域新词发现[J].软件学报,2013,24(5):1051-1060. 被引量：43
3刘伟童,刘培玉,刘文锋,李娜娜.基于互信息和邻接熵的新词发现算法[J].计算机应用研究,2019,36(5):1293-1296. 被引量：29
4雷一鸣,刘勇,霍华.面向网络语言基于微博语料的新词发现方法[J].计算机工程与设计,2017,38(3):789-794. 被引量：11
5杜丽萍,李晓戈,于根,刘春丽,刘睿.基于互信息改进算法的新词发现对中文分词系统改进[J].北京大学学报（自然科学版）,2016,52(1):35-40. 被引量：46
6李文坤,张仰森,陈若愚.基于词内部结合度和边界自由度的新词发现[J].计算机应用研究,2015,32(8):2302-2304. 被引量：35
7欧阳柳波,周伟光.基于位置标签与词性结合的组合词抽取方法[J].计算机应用研究,2016,33(4):1062-1065. 被引量：3
8成于思,施云涛.面向专业领域的中文分词方法[J].计算机工程与应用,2018,54(17):30-34. 被引量：19
9唐亮,席耀一,赵晓峰,易绵竹.基于特征相似度的跨语言事件映射[J].计算机应用,2016,36(A02):247-250. 被引量：3

二级参考文献78

1刘群,张华平,俞鸿魁,程学旗.基于层叠隐马模型的汉语词法分析[J].计算机研究与发展,2004,41(8):1421-1429. 被引量：197
2李丽双,黄德根,陈春荣,杨元生.用支持向量机进行中文地名识别的研究[J].小型微型计算机系统,2005,26(8):1416-1419. 被引量：10
3刘华.一种快速获取领域新词语的新方法[J].中文信息学报,2006,20(5):17-23. 被引量：14
4李丽双,黄德根,陈春荣,杨元生.SVM与规则相结合的中文地名自动识别[J].中文信息学报,2006,20(5):51-57. 被引量：32
5何婷婷,张勇.基于质子串分解的中文术语自动抽取[J].计算机工程,2006,32(23):188-190. 被引量：21
6黄昌宁,赵海.中文分词十年回顾[J].中文信息学报,2007,21(3):8-19. 被引量：249
7张华平.NLPIR汉语分词系统[EB/OL].[2013-11-11].http://ictelas.nlpir.org/.
8Sproat R, Emerson T. The first international Chinese word segmentation bakeoff[C] //Proc of the 2nd SIGHAN Workshop on Chinese Language Processing. 2003:11-17.
9Peng Fuchun, Feng Fangfang, McCallum A. Chinese segmentation and new word detection using conditional random fields[C] //Proc of the 20th International Conference on Computational Linguistics. 2004:221-227.
10Zhang K, Liu Qun. Automatic recognition of Chinese unknown words based on roles tagging[C] //Proc of the 1st SIGHAN Workshop on Chinese Language Processing. 2002:71-78.

共引文献128

1孙星恺,王晓,陆浩.面向活动的网络媒体监测与建模分析:IVFC案例解析[J].智能科学与技术学报,2019,1(4):352-368. 被引量：1
2那勇,李明全.基于深度学习的中文自动分词研究[J].吉林广播电视大学学报,2019(12):58-59.
3何莉.改革开放的弄潮者——记大朗镇经济发展总公司[J].东莞科技,2000(3):29-29.
4马培奇.抗肿瘤药物紫杉醇及其临床特点与市场分析[J].中国医药情报,2000,6(1):30-33.
5刘剑,唐慧丰,刘伍颖.一种基于统计技术的中文术语抽取方法[J].中国科技术语,2014,16(5):10-14. 被引量：15
6王连喜.自动摘要研究中的若干问题[J].图书情报工作,2014,58(20):13-22. 被引量：7
7李雪伟,吕学强,刘克会.扩展搜索日志上下文的新词识别[J].现代图书情报技术,2014(11):59-65.
8刘剑.一种领域合成词的抽取方法[J].太赫兹科学与电子信息学报,2014,12(6):870-873.
9周详,李少波,杨观赐.服装类商品属性实体识别[J].计算机应用,2015,35(7):1945-1949. 被引量：2
10李文坤,张仰森,陈若愚.基于词内部结合度和边界自由度的新词发现[J].计算机应用研究,2015,32(8):2302-2304. 被引量：35

同被引文献16

1肖瑞,胡冯菊,裴卫.基于BiLSTM-CRF的中医文本命名实体识别[J].世界科学技术-中医药现代化,2020,22(7):2504-2510. 被引量：30
2王昊,王密平,苏新宁.面向本体学习的中文专利术语抽取研究[J].情报学报,2016,35(6):573-585. 被引量：18
3赵耀全,车超,张强.基于新词发现和Lattice-LSTM的中文医疗命名实体识别[J].计算机应用与软件,2021,38(1):161-165. 被引量：8
4刘浏,秦天允,王东波.非物质文化遗产传统音乐术语自动抽取[J].数据分析与知识发现,2020,4(12):68-75. 被引量：16
5耿骞,邓斯予,靳健.融合词语义表示和新词发现的领域本体演化——以产品评论数据为例[J].图书情报工作,2021,65(8):85-96. 被引量：3
6张卫,王昊,邓三鸿,张宝隆.面向数字人文的古诗文本情感术语抽取与应用研究[J].中国图书馆学报,2021,47(4):113-131. 被引量：21
7蒋勋,朱晓峰,肖连杰.大数据环境领域知识组织方法研究[J].情报资料工作,2021,42(5):6-13. 被引量：9
8赵梓博,王昊,邓三鸿,张海潮.文本语义化表示对其识别准确率的影响研究--以中华美食本体库构建为例[J].情报理论与实践,2021,44(10):8-17. 被引量：1
9李娜.面向方志类古籍的多类型命名实体联合自动识别模型构建[J].图书馆论坛,2021,41(12):113-123. 被引量：13
10韩美群,周小芹.近二十年来非物质文化遗产数字化传承研究回顾与展望[J].中南民族大学学报（人文社会科学版）,2022,42(1):65-74. 被引量：46

引证文献1

1汪琳,王昊,李晓敏,邓三鸿.融合学习扩展的非遗陶瓷工艺领域术语库构建及应用[J].图书馆论坛,2024,44(2):66-78. 被引量：2

二级引证文献2

1王仔涵,陈会征,崔旭.基于模糊Borda法的我国区域非遗文化话语权组合评价研究[J].数字图书馆论坛,2024,20(3):81-90.
2胡昊天,邓三鸿,孔玲,闫晓慧,杨文霞,王东波,沈思.生成式情报学术语自动抽取与多维关联知识挖掘研究[J].情报学报,2024,43(5):588-600.

1吴雅娟,牛甲奎,解红涛,马宁.基于词典与字向量融合的井控领域命名实体识别[J].海南大学学报（自然科学版）,2022,40(2):125-133. 被引量：1
2顾乾晖,徐力晨,涂振宇,黄逸翠.基于BERT-CRF与对抗训练的水利领域命名实体识别[J].南昌工程学院学报,2022,41(3):29-34. 被引量：1
3王铭涛,方晔玮,陈文亮.基于中文字形的ELMo在电商事件识别上的应用[J].中文信息学报,2021,35(12):94-102. 被引量：4
4赵良,张赵玥,廖子逸,王玲.用BERT和改进PCNN模型抽取食品安全领域关系[J].农业工程学报,2022,38(8):263-270. 被引量：6

计算机仿真

2022年第6期

浏览历史

内容加载中请稍等...

针对特定领域的新词发现方法研究被引量：1

参考文献9

二级参考文献78

共引文献128

同被引文献16

引证文献1

二级引证文献2

相关作者

相关机构

相关主题

浏览历史

针对特定领域的新词发现方法研究 被引量：1

参考文献9

二级参考文献78

共引文献128

同被引文献16

引证文献1

二级引证文献2

相关作者

相关机构

相关主题

浏览历史

针对特定领域的新词发现方法研究被引量：1