一种基于统计的地质专业词语识别方法被引量：1

A Method of Geologic Words Identification Based on Statistics

下载PDF

导出

摘要中文分词是地质大数据智能化知识挖掘难以回避的第一道基本工序。基于统计的分词方法受语料影响,跨领域适应性较差。基于词典的分词方法可以直接利用领域词典进行分词,但不能解决未登录词识别问题。在领域语料不足的情况下,为提高地质文本分词的准确率和未登录词识别率,提出一种基于统计的中文地质词语识别方法。该方法基于质串思想构建了地质基本词典库,用以改善统计分词方法在地质文本分词上的适应性。采用重复串查找方法得到地质词语候选集,并使用上下文邻接以及基于位置成词的概率词典,对地质词语候选集进行过滤,最终实现地质词语识别。实验结果表明,使用该方法对地质专业词语识别准确率达到81.6%,比通用统计分词方法提高了近60%。该方法能够识别地质文本中的未登录词,并保证地质分词的准确率,可以应用到地质文本分词工作中。 Chinese word segmentation is the first basic process which is difficult to avoid in the intelligent knowledge mining of geological data.Word extraction based on statistics have poor performance across domain which is affected by corpus,the method based on dictionary can directly use the domain dictionary,but the problem of unlisted words recognition can not be resolved.In the case of insufficient domain corpus,a method of Chinese geological words recognition based on statistics is proposed,aiming at improving the accuracy of geological text segmentation and unlisted words recognition.Using prime string,the paper firstly constructs a base words library in geology,which has better performance across domain,then the geological words candidate set can be obtained by the algorithm of repeated string,and the final words can be recognized by using context adjacency analysis and position word probability to filter the candidate set.The experimental results show that the accuracy of the method is 81.6%,which is nearly 60%higher than that of the general statistical word segmentation method.This method is able to identify the unlisted geological words and ensure the accuracy,which can be applied to geological text segmentation.

作者王宏朱学立曾涛乔东玉郭甲腾 WANG Hong;ZHU Xue-li;ZENG Tao;QIAO Dong-yu;GUO Jia-teng(Henan Institute of Geological Survey;Henan Key Laboratory for Metalogenetic Process of Metal Mineral Resource and Resource Utilization,Zhengzhou 450000,China;School of Resources and Civil Engineering,Northeastern University,Shenyang 110000,China)

机构地区河南省地质调查院河南省金属矿产成矿地质过程与资源利用重点实验室东北大学资源与土木工程学院

出处《软件导刊》 2020年第4期211-218,共8页 Software Guide

基金国家自然科学基金项目(41671404) 中央高校基本科研业务费项目(N170104019) 中国地质调查局智能地质调查支撑平台建设项目(DD20160355)。

关键词地质文本中文分词质串重复串上下文邻接位置成词概率 geologic text Chinese word segmentation prime string repeated string context adjacency analysis position word probability

分类号 TP391 [自动化与计算机技术—计算机应用技术]

引文网络
相关文献

参考文献9

1李廷栋,刘勇,王军,郑洪伟.略论地质图件的十大功能——纪念黄汲清先生诞辰110周年[J].地质论评,2014,60(3):473-485. 被引量：12
2何婷婷,张勇.基于质子串分解的中文术语自动抽取[J].计算机工程,2006,32(23):188-190. 被引量：21
3冀倩,翁望飞.地质学专业英语词汇特点及构词研究[J].皖西学院学报,2011,27(4):116-121. 被引量：6
4赵庆.地质科技论文中语言文字表达的几个要求[J].地质找矿论丛,2013,28(3):493-498. 被引量：4
5郑孝玉.地质情报的特点及其服务工作的有关问题[J].情报杂志,1991,10(4):63-67. 被引量：2
6陈婧汶,陈建国,王成彬,朱月琴.基于条件随机场的地质矿产文本分词研究[J].中国矿业,2018,27(9):69-74. 被引量：8
7雨岩.概念·定性·定量[J].水文地质工程地质,1991,18(6):10-10. 被引量：1
8黄轩,李熔烽.博客语料的新词发现方法[J].现代电子技术,2013,36(2):144-146. 被引量：17
9黄昌宁.中文信息处理中的分词问题[J].语言文字应用,1997(1):74-80. 被引量：83

二级参考文献67

1于兴河,郑秀娟.地质科技论文的撰写方法[J].中国地质教育,2005,14(2):19-23. 被引量：7
2范谊.ESP存在的理据[J].外语教学与研究,1995,27(3):43-48. 被引量：156
3刘法公.论专门用途英语的属性与对应教学法[J].外语与外语教学,2001(12):25-27. 被引量：342
4邹纲,刘洋,刘群,孟遥,于浩,西野文人,亢世勇.面向Internet的中文新词语检测[J].中文信息学报,2004,18(6):1-9. 被引量：59
5刘法公.论基础英语与专门用途英语的教学关系[J].外语与外语教学,2003(1):31-33. 被引量：479
6贾自艳,史忠植.基于概率统计技术和规则方法的新词发现[J].计算机工程,2004,30(20):19-21. 被引量：28
7李力.略论科技论文的语言特色[J].湖北社会科学,2005(11):106-108. 被引量：3
8崔世起,刘群,孟遥,于浩,西野文人.基于大规模语料库的新词检测[J].计算机研究与发展,2006,43(5):927-932. 被引量：32
9施水才,俞鸿魁,吕学强,李渝勤.基于大规模语料的新词语识别方法[J].山东大学学报（理学版）,2006,41(3):89-91. 被引量：5
10李廷栋.国际地质编图现状及发展趋势[J].中国地质,2007,34(2):206-211. 被引量：27

共引文献145

1梁晓弘,杨文安.分词技术在信息处理中的研究综述[J].电脑知识与技术（过刊）,2007(22):1100-1102. 被引量：1
2刘春辉,金顺福,刘国华,李颖.基于优化最大匹配与统计结合的汉语分词方法[J].燕山大学学报,2009,33(2):124-129. 被引量：9
3王建新.我国在语料库语言学研究方面的部分进展(概述)[J].外语与外语教学,1999(3):18-20. 被引量：10
4文庭孝,邱均平,侯经川.汉语自动分词研究展望[J].现代图书情报技术,2004(7):6-10. 被引量：20
5龚汉明,周长胜.汉语分词技术综述[J].北京机械工业学院学报,2004,19(3):52-55. 被引量：26
6张春霞,郝天永.汉语自动分词的研究现状与困难[J].系统仿真学报,2005,17(1):138-143. 被引量：60
7吴登堂.关于字母词的思考——兼谈中文信息处理对字母词自动切分的构想[J].丹东师专学报,2003,25(2):25-27. 被引量：4
8文庭孝,侯经川,邱均平,张洋.汉语自动分词新思维:无词典切分[J].情报杂志,2005,24(2):2-4. 被引量：2
9年玉萍.中文信息处理与词汇研究概述[J].西安电子科技大学学报（社会科学版）,2002,12(2):89-91. 被引量：1
10邱均平,文庭孝,周黎明.汉语自动分词与内容分析法研究[J].情报学报,2005,24(3):309-317. 被引量：11

同被引文献7

1林永民,吕震宇,赵爽,朱卫东.文本特征加权方法TF·IDF的分析与改进[J].计算机工程与设计,2008,29(11):2923-2925. 被引量：10
2谢昊,江红.一种面向微博主题挖掘的改进LDA模型[J].华东师范大学学报（自然科学版）,2013(6):93-101. 被引量：27
3廖建新.大数据技术的应用现状与展望[J].电信科学,2015,31(7):1-12. 被引量：68
4曹晓.文本聚类研究综述[J].情报探索,2016(1):131-134. 被引量：16
5张雪英,叶鹏,王曙,杜咪.基于深度信念网络的地质实体识别方法[J].岩石学报,2018,34(2):343-351. 被引量：38
6王永志,金樑,朱月琴,白明,包晓栋.基于大数据技术的地学文档关键词提取算法研发[J].地球物理学进展,2018,33(3):1274-1281. 被引量：21
7杜晓敏,潘晓.基于BERT深度学习模型的地质资料目录自动分类研究[J].中国矿业,2021,30(S02):143-148. 被引量：3

引证文献1

1张竞元,刘刚,曾粤,周大双,陈麒玉.基于数据增强的地质文本主题模型[J].计算机系统应用,2022,31(7):290-297.

1石凤贵.中文文本分词及其可视化技术研究[J].现代计算机,2020,26(12):131-138. 被引量：13
2郭理,张恒旭,王嘉岐,秦怀斌.基于Trie树的词语左右熵和互信息新词发现算法[J].现代电子技术,2020,43(6):65-69. 被引量：12
3胡萧力,邓勇胜.回避概念的缘起及展开[J].中国纪检监察,2019,0(23):47-47. 被引量：1
4李嘉,李智荣.经济新常态下县级政府职能转变研究——以A市为例[J].现代商贸工业,2020,41(6):87-89.
5本刊编辑部.非公知公用的缩略语须给出中文及英文全称[J].吉林电力,2019,47(6):43-43.
6姜刚杰.三位贵州籍地质学家的相似人生[J].贵阳文史,2020,0(1):39-44.
7吴俊杰,秦晨.基于文本处理的指标数据提取[J].科技创新导报,2019,16(30):107-107. 被引量：1
8孙明,张蕾.“死死”的多角度考察[J].景德镇学院学报,2020,35(2):90-95.
9王晰,刘玉英,李雪梅.PBL-LBL融合模式下的高校地质专业教学实践与探索[J].潍坊工程职业学院学报,2020,33(1):99-102.
10乐侃.机务实习记[J].成才与就业,2020,0(4):52-53.

软件导刊

2020年第4期

浏览历史

内容加载中请稍等...

一种基于统计的地质专业词语识别方法被引量：1

参考文献9

二级参考文献67

共引文献145

同被引文献7

引证文献1

相关作者

相关机构

相关主题

浏览历史

一种基于统计的地质专业词语识别方法 被引量：1

参考文献9

二级参考文献67

共引文献145

同被引文献7

引证文献1

相关作者

相关机构

相关主题

浏览历史

一种基于统计的地质专业词语识别方法被引量：1