-
题名科技文献的实验语料句抽取方法
被引量:2
- 1
-
-
作者
朱丽萍
刘蔷
苏斐
杨中国
王显灿
-
机构
中国石油大学(北京)石油数据挖掘北京市重点实验室
中国石油大学(北京)地球物理与信息工程学院
中国石油信息服务技术中心
-
出处
《计算机工程与设计》
北大核心
2016年第11期3086-3091,共6页
-
文摘
为方便研究自然语言处理的学者选择更有效的实验语料,进行自然语言处理类科技文献的实验语料抽取研究。实验语料是指自然语言处理类文献在实验过程中使用的文本类数据,如训练数据、测试数据等。将文本划分为实验语料句和非实验语料句两类,统计实验语料句的词汇特征和位置特征,构建相应的特征库,用朴素贝叶斯模型对特征进行训练。在词性标注和分词的基础上,结合机器学习生成的模型判定是否为实验语料句,进行抽取。以自然语言类科技文献作为数据来源,在该领域随机选取了200篇科技文献进行抽取实验,对比人工判别方法和所提方法的抽取结果,验证了所提方法能够较为准确地获取实验语料信息。
-
关键词
信息抽取
科技文献
特征提取
机器学习
朴素贝叶斯模型
-
Keywords
information extraction
scientific and technical literature
feature extraction
machine learning
Nave Bayes model
-
分类号
TP391
[自动化与计算机技术—计算机应用技术]
-