-
题名科技文献的实验语料句抽取方法
被引量:2
- 1
-
-
作者
朱丽萍
刘蔷
苏斐
杨中国
王显灿
-
机构
中国石油大学(北京)石油数据挖掘北京市重点实验室
中国石油大学(北京)地球物理与信息工程学院
中国石油信息服务技术中心
-
出处
《计算机工程与设计》
北大核心
2016年第11期3086-3091,共6页
-
文摘
为方便研究自然语言处理的学者选择更有效的实验语料,进行自然语言处理类科技文献的实验语料抽取研究。实验语料是指自然语言处理类文献在实验过程中使用的文本类数据,如训练数据、测试数据等。将文本划分为实验语料句和非实验语料句两类,统计实验语料句的词汇特征和位置特征,构建相应的特征库,用朴素贝叶斯模型对特征进行训练。在词性标注和分词的基础上,结合机器学习生成的模型判定是否为实验语料句,进行抽取。以自然语言类科技文献作为数据来源,在该领域随机选取了200篇科技文献进行抽取实验,对比人工判别方法和所提方法的抽取结果,验证了所提方法能够较为准确地获取实验语料信息。
-
关键词
信息抽取
科技文献
特征提取
机器学习
朴素贝叶斯模型
-
Keywords
information extraction
scientific and technical literature
feature extraction
machine learning
Nave Bayes model
-
分类号
TP391
[自动化与计算机技术—计算机应用技术]
-
-
题名基于Hadoop的地震属性数据存储结构
被引量:2
- 2
-
-
作者
朱丽萍
王显灿
李洪奇
王建东
王小朋
-
机构
中国石油大学(北京)地球物理与信息工程学院
中国石油大学(北京)石油数据挖掘北京市重点实验室
-
出处
《信息技术》
2017年第6期170-173,共4页
-
文摘
地震属性分析在储层评价、地层岩性解释等方面有着重要的作用。单机环境地震属性分析计算比较耗时,使用Hadoop分布式并行计算框架,可以缩短计算时间。单一地震属性以SEGY格式独立保存,多种地震属性上传至HDFS时被分发至不同节点,而计算时通常使用多种地震属性共同参与计算,增加了节点之间的数据传递的开销。通过改变地震属性数据组织形式,抽取同一坐标地震属性进行组合,并把坐标位置相邻的地震属性组合到一个文件中,减少集群节点间不必要的数据传递。实验表明相比于传统方法,使用MapReduce完成地震属性分析相关计算用时明显减少,并且计算用时随着集群中节点数目的增加而减少。
-
关键词
HADOOP
分布式文件系统
地震属性
文件格式
-
Keywords
Hadoop
distributed file system
seismic attribute
file format
-
分类号
TP311
[自动化与计算机技术—计算机软件与理论]
-