期刊文献+
共找到1篇文章
< 1 >
每页显示 20 50 100
科技文献的实验语料句抽取方法 被引量:2
1
作者 朱丽萍 刘蔷 +2 位作者 苏斐 杨中国 王显灿 《计算机工程与设计》 北大核心 2016年第11期3086-3091,共6页
为方便研究自然语言处理的学者选择更有效的实验语料,进行自然语言处理类科技文献的实验语料抽取研究。实验语料是指自然语言处理类文献在实验过程中使用的文本类数据,如训练数据、测试数据等。将文本划分为实验语料句和非实验语料句两... 为方便研究自然语言处理的学者选择更有效的实验语料,进行自然语言处理类科技文献的实验语料抽取研究。实验语料是指自然语言处理类文献在实验过程中使用的文本类数据,如训练数据、测试数据等。将文本划分为实验语料句和非实验语料句两类,统计实验语料句的词汇特征和位置特征,构建相应的特征库,用朴素贝叶斯模型对特征进行训练。在词性标注和分词的基础上,结合机器学习生成的模型判定是否为实验语料句,进行抽取。以自然语言类科技文献作为数据来源,在该领域随机选取了200篇科技文献进行抽取实验,对比人工判别方法和所提方法的抽取结果,验证了所提方法能够较为准确地获取实验语料信息。 展开更多
关键词 信息抽取 科技文献 特征提取 机器学习 朴素贝叶斯模型
下载PDF
上一页 1 下一页 到第
使用帮助 返回顶部