-
题名基于短语向量和主题加权的关键词抽取方法
被引量:3
- 1
-
-
作者
孙新
盖晨
申长虹
张颖捷
-
机构
北京理工大学计算机学院北京市海量语言信息处理与云计算应用工程技术研究中心
北京理工大学东南信息技术研究院
-
出处
《电子学报》
EI
CAS
CSCD
北大核心
2021年第9期1682-1690,共9页
-
基金
国家重点研发计划项目(No.2017YFB0803300)。
-
文摘
现有关键词抽取算法缺乏对短语的有效表示,为抽取出更能反映文本主题的关键短语,本文提出一种基于短语向量的关键词抽取方法 PhraseVecRank.首先设计基于LSTM(Long Short-Term Memory)和CNN(Convolutional Neural Network)自编码器的短语向量构建模型,解决复杂短语的语义表示问题.然后,利用短语向量对每个候选短语计算主题权重,通过主题加权排序提高关键词抽取的效果.在公共数据集和学术论文数据上的实验表明,本文提出的方法能够有效提取与文本主题信息相关的关键短语,同时利用自编码器构造的短语向量可以更好地表示短语的语义信息.
-
关键词
短语向量
自编码器
主题加权
关键词抽取
-
Keywords
phrase embedding
auto-encoder
theme-weighted
keyphrases extraction
-
分类号
TP181
[自动化与计算机技术—控制理论与控制工程]
-
-
题名一种针对成分树的混合神经网络模型
被引量:2
- 2
-
-
作者
霍欢
薛瑶环
黄君扬
金轩城
邹依婷
-
机构
上海理工大学光电信息与计算机工程学院
复旦大学上海市数据科学重点实验室
-
出处
《中文信息学报》
CSCD
北大核心
2019年第3期8-16,共9页
-
基金
国家自然科学基金(61003031)
上海重点科技攻关项目(14511107902)
+3 种基金
上海市工程中心建设项目(GCZX14014)
上海市一流学科建设项目(XTKX2012)
上海市数据科学重点实验室开放课题(201609060003)
沪江基金研究基地专项(C14001)
-
文摘
为了提高自然语言处理的准确度,很多工作将句法成分树与LSTM相结合,提出了各种针对成分树的LSTM模型(文中用C-TreeLSTM统称这类模型)。考虑到C-TreeLSTM模型在计算内部节点隐藏状态的过程中,由于一个重要信息来源(即单词)的缺失导致文本建模的准确度不高,该文提出一种针对成分树的混合神经网络模型,通过在C-TreeLSTM模型的节点编码过程中注入各节点所覆盖的短语语义向量来增强节点对文本语义的记忆,故将此模型命名为SC-TreeLSTM。实验结果表明,该模型在情感分类和机器阅读理解两类任务上表现优异。
-
关键词
成分树
C-TreeLSTM
短语语义向量
混合模型
-
Keywords
constituent tree
C-TreeLSTM
phrase semantic vector
hybrid model
-
分类号
TP391
[自动化与计算机技术—计算机应用技术]
-