期刊导航
期刊开放获取
河南省图书馆
退出
期刊文献
+
任意字段
题名或关键词
题名
关键词
文摘
作者
第一作者
机构
刊名
分类号
参考文献
作者简介
基金资助
栏目信息
任意字段
题名或关键词
题名
关键词
文摘
作者
第一作者
机构
刊名
分类号
参考文献
作者简介
基金资助
栏目信息
检索
高级检索
期刊导航
共找到
5
篇文章
<
1
>
每页显示
20
50
100
已选择
0
条
导出题录
引用分析
参考文献
引证文献
统计分析
检索结果
已选文献
显示方式:
文摘
详细
列表
相关度排序
被引量排序
时效性排序
基于数据增强的地质文本主题模型
1
作者
张竞元
刘刚
+2 位作者
曾粤
周大双
陈麒玉
《计算机系统应用》
2022年第7期290-297,共8页
直接利用主题模型对地质文本进行聚类时会出现主题准确性低、主题关键词连续性差等问题,本文采取了相关改进方法.首先在分词阶段采用基于词频统计的重复词串提取算法,保留地质专业名词以准确提取文本主题,同时减少冗余词串数量节约内存...
直接利用主题模型对地质文本进行聚类时会出现主题准确性低、主题关键词连续性差等问题,本文采取了相关改进方法.首先在分词阶段采用基于词频统计的重复词串提取算法,保留地质专业名词以准确提取文本主题,同时减少冗余词串数量节约内存花销,提升保留词的提取效率.另外,使用基于TF-IDF和词向量的文本数据增强算法,对原始分词语料进行处理以强化文本主题特征.之后该算法与主题模型相结合在处理后的语料上提取语料主题.由于模型的先验信息得到增强,故性能得以提高.实验结果表明本文算法与LDA模型相结合的方法表现较好,在相关指标及输出结果上均优于其他方法.
展开更多
关键词
地质文本
主题模型
数据增强
词向量
TF-IDF
下载PDF
职称材料
基于条件随机场的地质矿产文本分词研究
被引量:
8
2
作者
陈婧汶
陈建国
+1 位作者
王成彬
朱月琴
《中国矿业》
北大核心
2018年第9期69-74,101,共7页
中文与英文不同,词与词之间没有类似空格的天然分隔符,致使中文分词成为中文信息处理中的难题。地质矿产文本中含有大量未登录地质专业术语,现阶段仍无效果较好的分词方法。本文探讨了一种基于双语料库条件随机场模型的方法对地质矿产...
中文与英文不同,词与词之间没有类似空格的天然分隔符,致使中文分词成为中文信息处理中的难题。地质矿产文本中含有大量未登录地质专业术语,现阶段仍无效果较好的分词方法。本文探讨了一种基于双语料库条件随机场模型的方法对地质矿产文本进行分词,并与通用领域分词方法、单语料库条件随机场模型分词方法进行对比实验。实验表明,本文提出的方法在开放测试下分词效果明显优于其他方法,准确率为94.80%,召回率为92.68%,F-值为93.73%。本文对地质矿产文本进行了中文分词研究,既能够很好地识别未登录地质专业术语,又保证了普通词汇的识别率,为对地质领域的自然语言处理工作奠定了基础。
展开更多
关键词
中文分词
地质
矿产
文本
条件随机场
语料
地质
词典
下载PDF
职称材料
卡氏翻译转换理论指导下地质学科技论文的汉译研究
3
作者
余瑞瑶
王辉
《海外英语》
2023年第16期44-46,共3页
地质学科技英语是学术分享与交流的重要媒介,其翻译工作具有很强的专业性与独特性。该文通过大量国际权威高水平的地质学期刊论文的汉译研究,总结了地质科技文本的语言特征,并结合实例,介绍了卡特福德翻译理论在地质学科技文本汉译中的...
地质学科技英语是学术分享与交流的重要媒介,其翻译工作具有很强的专业性与独特性。该文通过大量国际权威高水平的地质学期刊论文的汉译研究,总结了地质科技文本的语言特征,并结合实例,介绍了卡特福德翻译理论在地质学科技文本汉译中的应用策略,提高了翻译的准确性与合理性。
展开更多
关键词
地质
学科技
文本
卡特福德翻译理论
翻译
下载PDF
职称材料
一种基于统计的地质专业词语识别方法
被引量:
1
4
作者
王宏
朱学立
+2 位作者
曾涛
乔东玉
郭甲腾
《软件导刊》
2020年第4期211-218,共8页
中文分词是地质大数据智能化知识挖掘难以回避的第一道基本工序。基于统计的分词方法受语料影响,跨领域适应性较差。基于词典的分词方法可以直接利用领域词典进行分词,但不能解决未登录词识别问题。在领域语料不足的情况下,为提高地质...
中文分词是地质大数据智能化知识挖掘难以回避的第一道基本工序。基于统计的分词方法受语料影响,跨领域适应性较差。基于词典的分词方法可以直接利用领域词典进行分词,但不能解决未登录词识别问题。在领域语料不足的情况下,为提高地质文本分词的准确率和未登录词识别率,提出一种基于统计的中文地质词语识别方法。该方法基于质串思想构建了地质基本词典库,用以改善统计分词方法在地质文本分词上的适应性。采用重复串查找方法得到地质词语候选集,并使用上下文邻接以及基于位置成词的概率词典,对地质词语候选集进行过滤,最终实现地质词语识别。实验结果表明,使用该方法对地质专业词语识别准确率达到81.6%,比通用统计分词方法提高了近60%。该方法能够识别地质文本中的未登录词,并保证地质分词的准确率,可以应用到地质文本分词工作中。
展开更多
关键词
地质文本
中文分词
质串
重复串
上下文邻接
位置成词概率
下载PDF
职称材料
基于ELMO-CNN-BiLSTM-CRF模型的地质实体识别
被引量:
19
5
作者
储德平
万波
+2 位作者
李红
方芳
王润
《地球科学》
EI
CAS
CSCD
北大核心
2021年第8期3039-3048,共10页
地质实体是地质文本中的关键和核心信息,对其准确识别是地质信息提取和挖掘的重要前提.设计了ELMO-CNNBiLSTM-CRF模型,基于预训练字向量构建深层Bi LSTM-CRF神经网络模型,通过添加词语动态特征以及词语字符级别的特征,弥补字向量特异性...
地质实体是地质文本中的关键和核心信息,对其准确识别是地质信息提取和挖掘的重要前提.设计了ELMO-CNNBiLSTM-CRF模型,基于预训练字向量构建深层Bi LSTM-CRF神经网络模型,通过添加词语动态特征以及词语字符级别的特征,弥补字向量特异性缺失的问题,提高对于地质文本中复杂多词义的识别水平和对地质实体局部特征的提取能力.以《西藏自治区谢通门县雄村铜矿勘探地质报告》为例,对该模型的性能进行了评估,模型的准确率、召回率和F1值分别为95.15%、95.26%和95.21%.实验表明相比Bi LSTM-CRF和CNN-BiLSTM-CRF模型,该模型在小规模语料地质实体识别方面效果更优,且能够有效识别长地质实体词汇和地质多义词.
展开更多
关键词
地质
大数据
地质
实体
命名实体识别
ELMO-CNN-BiLSTM-CRF
地质文本
数学
地质
原文传递
题名
基于数据增强的地质文本主题模型
1
作者
张竞元
刘刚
曾粤
周大双
陈麒玉
机构
中国地质大学(武汉)计算机学院
智能地学信息处理湖北省重点实验室
出处
《计算机系统应用》
2022年第7期290-297,共8页
基金
国家自然科学基金联合重点项目(U1711267)
水利部协作项目(2019306340)
中国地质大学(武汉)国家级创新训练计划(201810491232)。
文摘
直接利用主题模型对地质文本进行聚类时会出现主题准确性低、主题关键词连续性差等问题,本文采取了相关改进方法.首先在分词阶段采用基于词频统计的重复词串提取算法,保留地质专业名词以准确提取文本主题,同时减少冗余词串数量节约内存花销,提升保留词的提取效率.另外,使用基于TF-IDF和词向量的文本数据增强算法,对原始分词语料进行处理以强化文本主题特征.之后该算法与主题模型相结合在处理后的语料上提取语料主题.由于模型的先验信息得到增强,故性能得以提高.实验结果表明本文算法与LDA模型相结合的方法表现较好,在相关指标及输出结果上均优于其他方法.
关键词
地质文本
主题模型
数据增强
词向量
TF-IDF
Keywords
geological text
topic model
data augmentation
word vector
term frequency-inverse document frequency(TF-IDF)
分类号
TP391.1 [自动化与计算机技术—计算机应用技术]
下载PDF
职称材料
题名
基于条件随机场的地质矿产文本分词研究
被引量:
8
2
作者
陈婧汶
陈建国
王成彬
朱月琴
机构
中国地质大学地质过程与矿产资源国家重点实验室
中国地质大学(武汉)紧缺矿产资源勘查协同创新中心
中国地质大学(武汉)资源学院
自然资源部地质信息技术重点实验室
中国地质调查局发展研究中心
出处
《中国矿业》
北大核心
2018年第9期69-74,101,共7页
基金
国土资源部公益性行业科研专项项目"地质大数据技术研究与应用试点"资助(编号:201511079-02)
国家重点研发计划项目"基于‘地质云’平台的深部找矿知识挖掘"资助(编号:2016YFC0600510)
文摘
中文与英文不同,词与词之间没有类似空格的天然分隔符,致使中文分词成为中文信息处理中的难题。地质矿产文本中含有大量未登录地质专业术语,现阶段仍无效果较好的分词方法。本文探讨了一种基于双语料库条件随机场模型的方法对地质矿产文本进行分词,并与通用领域分词方法、单语料库条件随机场模型分词方法进行对比实验。实验表明,本文提出的方法在开放测试下分词效果明显优于其他方法,准确率为94.80%,召回率为92.68%,F-值为93.73%。本文对地质矿产文本进行了中文分词研究,既能够很好地识别未登录地质专业术语,又保证了普通词汇的识别率,为对地质领域的自然语言处理工作奠定了基础。
关键词
中文分词
地质
矿产
文本
条件随机场
语料
地质
词典
Keywords
Chinese word segmentation
geology mineral text document
conditional random fields
corpus
geologic dictionary
分类号
P5 [天文地球—地质学]
G254.9 [文化科学—图书馆学]
下载PDF
职称材料
题名
卡氏翻译转换理论指导下地质学科技论文的汉译研究
3
作者
余瑞瑶
王辉
机构
西安邮电大学人文与外国语学院
出处
《海外英语》
2023年第16期44-46,共3页
基金
陕西省社会科学基金项目“陕西‘一带一路’文化产业外宣翻译策略研究”(项目编号:2019M009)的阶段性研究成果。
文摘
地质学科技英语是学术分享与交流的重要媒介,其翻译工作具有很强的专业性与独特性。该文通过大量国际权威高水平的地质学期刊论文的汉译研究,总结了地质科技文本的语言特征,并结合实例,介绍了卡特福德翻译理论在地质学科技文本汉译中的应用策略,提高了翻译的准确性与合理性。
关键词
地质
学科技
文本
卡特福德翻译理论
翻译
分类号
H159 [语言文字—汉语]
下载PDF
职称材料
题名
一种基于统计的地质专业词语识别方法
被引量:
1
4
作者
王宏
朱学立
曾涛
乔东玉
郭甲腾
机构
河南省地质调查院
河南省金属矿产成矿地质过程与资源利用重点实验室
东北大学资源与土木工程学院
出处
《软件导刊》
2020年第4期211-218,共8页
基金
国家自然科学基金项目(41671404)
中央高校基本科研业务费项目(N170104019)
中国地质调查局智能地质调查支撑平台建设项目(DD20160355)。
文摘
中文分词是地质大数据智能化知识挖掘难以回避的第一道基本工序。基于统计的分词方法受语料影响,跨领域适应性较差。基于词典的分词方法可以直接利用领域词典进行分词,但不能解决未登录词识别问题。在领域语料不足的情况下,为提高地质文本分词的准确率和未登录词识别率,提出一种基于统计的中文地质词语识别方法。该方法基于质串思想构建了地质基本词典库,用以改善统计分词方法在地质文本分词上的适应性。采用重复串查找方法得到地质词语候选集,并使用上下文邻接以及基于位置成词的概率词典,对地质词语候选集进行过滤,最终实现地质词语识别。实验结果表明,使用该方法对地质专业词语识别准确率达到81.6%,比通用统计分词方法提高了近60%。该方法能够识别地质文本中的未登录词,并保证地质分词的准确率,可以应用到地质文本分词工作中。
关键词
地质文本
中文分词
质串
重复串
上下文邻接
位置成词概率
Keywords
geologic text
Chinese word segmentation
prime string
repeated string
context adjacency analysis
position word probability
分类号
TP391 [自动化与计算机技术—计算机应用技术]
下载PDF
职称材料
题名
基于ELMO-CNN-BiLSTM-CRF模型的地质实体识别
被引量:
19
5
作者
储德平
万波
李红
方芳
王润
机构
中国地质大学地理与信息工程学院
国家地理信息系统工程技术研究中心
出处
《地球科学》
EI
CAS
CSCD
北大核心
2021年第8期3039-3048,共10页
基金
国家重点研发计划项目(No.2016YFB0502300)
中国地质调查局项目(No.12120114074001)。
文摘
地质实体是地质文本中的关键和核心信息,对其准确识别是地质信息提取和挖掘的重要前提.设计了ELMO-CNNBiLSTM-CRF模型,基于预训练字向量构建深层Bi LSTM-CRF神经网络模型,通过添加词语动态特征以及词语字符级别的特征,弥补字向量特异性缺失的问题,提高对于地质文本中复杂多词义的识别水平和对地质实体局部特征的提取能力.以《西藏自治区谢通门县雄村铜矿勘探地质报告》为例,对该模型的性能进行了评估,模型的准确率、召回率和F1值分别为95.15%、95.26%和95.21%.实验表明相比Bi LSTM-CRF和CNN-BiLSTM-CRF模型,该模型在小规模语料地质实体识别方面效果更优,且能够有效识别长地质实体词汇和地质多义词.
关键词
地质
大数据
地质
实体
命名实体识别
ELMO-CNN-BiLSTM-CRF
地质文本
数学
地质
Keywords
geological big data
geological entity
named entity recognition
ELMO-CNN-BiLSTM-CRF
geological text
mathematical geology
分类号
P628.4 [天文地球—地质矿产勘探]
原文传递
题名
作者
出处
发文年
被引量
操作
1
基于数据增强的地质文本主题模型
张竞元
刘刚
曾粤
周大双
陈麒玉
《计算机系统应用》
2022
0
下载PDF
职称材料
2
基于条件随机场的地质矿产文本分词研究
陈婧汶
陈建国
王成彬
朱月琴
《中国矿业》
北大核心
2018
8
下载PDF
职称材料
3
卡氏翻译转换理论指导下地质学科技论文的汉译研究
余瑞瑶
王辉
《海外英语》
2023
0
下载PDF
职称材料
4
一种基于统计的地质专业词语识别方法
王宏
朱学立
曾涛
乔东玉
郭甲腾
《软件导刊》
2020
1
下载PDF
职称材料
5
基于ELMO-CNN-BiLSTM-CRF模型的地质实体识别
储德平
万波
李红
方芳
王润
《地球科学》
EI
CAS
CSCD
北大核心
2021
19
原文传递
已选择
0
条
导出题录
引用分析
参考文献
引证文献
统计分析
检索结果
已选文献
上一页
1
下一页
到第
页
确定
用户登录
登录
IP登录
使用帮助
返回顶部