-
题名基于伪文档的伪相关反馈方法
被引量:2
- 1
-
-
作者
闫蓉
高光来
-
机构
内蒙古大学计算机学院
-
出处
《中文信息学报》
CSCD
北大核心
2016年第6期156-163,172,共9页
-
基金
国家自然科学基金(61263037
61662053)
内蒙古自然科学基金(2014BS0604)
-
文摘
传统的伪相关反馈(Pseudo Relevance Feedback,PRF)方法通常是以文档作为扩展源单元提取扩展词,提取粒度过大造成扩展源质量下降,使得检索结果鲁棒性差。该文研究利用主题分析技术,尝试将文本语义内容作为扩展源单元,缓解扩展源质量不高的问题。提出并实现了对文本集中各文档内容的伪文档描述,通过对其进行隐式多样化处理,实现了从更细微的文本内容角度出发提取扩展词。通过在真实NTCIR8中文语料的检索结果表明,该方法可以有效地提升伪相关反馈的检索性能。
-
关键词
伪相关反馈
伪文档
主题分析
隐含主题
-
Keywords
Pseudo Relevance Feedback(PRF)
pseudo document
topic analysis
latent topic
-
分类号
TP391
[自动化与计算机技术—计算机应用技术]
-
-
题名基于局部注意力机制的弱监督长文档分类
被引量:1
- 2
-
-
作者
马雯琦
何跃
-
机构
中国科学技术大学管理学院
四川大学商学院
-
出处
《计算机系统应用》
2021年第11期54-62,共9页
-
基金
国家自然科学基金(71571174)。
-
文摘
自然语言处理中的文档分类任务需要模型从低层级词向量中抽取高层级特征.通常,深度神经网络的特征抽取会利用文档中所有词语,这种做法不能很好适应内容较长的文档.此外,训练深度神经网络需要大量标记数据,在弱监督情况下往往不能取得良好效果.为迎接这些挑战,本研究提出应对弱监督长文档分类的方法.一方面,利用少量种子信息生成伪文档以增强训练数据,应对缺乏标记数据造成的精度难以提升的局面.另一方面,使用循环局部注意力学习,仅基于若干文档片段抽取出摘要特征,就足以支撑后续类别预测,提高模型的速度和精度.实验表明,本研究提出的伪文档生成模型确实能够增强训练数据,对预测精度的提升在弱监督情况下尤为显著;同时,基于局部注意力机制的长文档分类模型在预测精度上显著高于基准模型,处理速度也表现优异,具有实际应用价值.
-
关键词
文档分类
深度学习
弱监督学习
伪文档
局部注意力机制
-
Keywords
document classification
deep learning
weakly-supervised learning
pseudo-document
local attention mechanism
-
分类号
TP391.1
[自动化与计算机技术—计算机应用技术]
-