期刊文献+
共找到2篇文章
< 1 >
每页显示 20 50 100
科技文献的实验语料句抽取方法 被引量:2
1
作者 朱丽萍 刘蔷 +2 位作者 苏斐 杨中国 王显灿 《计算机工程与设计》 北大核心 2016年第11期3086-3091,共6页
为方便研究自然语言处理的学者选择更有效的实验语料,进行自然语言处理类科技文献的实验语料抽取研究。实验语料是指自然语言处理类文献在实验过程中使用的文本类数据,如训练数据、测试数据等。将文本划分为实验语料句和非实验语料句两... 为方便研究自然语言处理的学者选择更有效的实验语料,进行自然语言处理类科技文献的实验语料抽取研究。实验语料是指自然语言处理类文献在实验过程中使用的文本类数据,如训练数据、测试数据等。将文本划分为实验语料句和非实验语料句两类,统计实验语料句的词汇特征和位置特征,构建相应的特征库,用朴素贝叶斯模型对特征进行训练。在词性标注和分词的基础上,结合机器学习生成的模型判定是否为实验语料句,进行抽取。以自然语言类科技文献作为数据来源,在该领域随机选取了200篇科技文献进行抽取实验,对比人工判别方法和所提方法的抽取结果,验证了所提方法能够较为准确地获取实验语料信息。 展开更多
关键词 信息抽取 科技文献 特征提取 机器学习 朴素贝叶斯模型
下载PDF
基于Hadoop的地震属性数据存储结构 被引量:2
2
作者 朱丽萍 王显灿 +2 位作者 李洪奇 王建东 王小朋 《信息技术》 2017年第6期170-173,共4页
地震属性分析在储层评价、地层岩性解释等方面有着重要的作用。单机环境地震属性分析计算比较耗时,使用Hadoop分布式并行计算框架,可以缩短计算时间。单一地震属性以SEGY格式独立保存,多种地震属性上传至HDFS时被分发至不同节点,而计算... 地震属性分析在储层评价、地层岩性解释等方面有着重要的作用。单机环境地震属性分析计算比较耗时,使用Hadoop分布式并行计算框架,可以缩短计算时间。单一地震属性以SEGY格式独立保存,多种地震属性上传至HDFS时被分发至不同节点,而计算时通常使用多种地震属性共同参与计算,增加了节点之间的数据传递的开销。通过改变地震属性数据组织形式,抽取同一坐标地震属性进行组合,并把坐标位置相邻的地震属性组合到一个文件中,减少集群节点间不必要的数据传递。实验表明相比于传统方法,使用MapReduce完成地震属性分析相关计算用时明显减少,并且计算用时随着集群中节点数目的增加而减少。 展开更多
关键词 HADOOP 分布式文件系统 地震属性 文件格式
下载PDF
上一页 1 下一页 到第
使用帮助 返回顶部