-
题名基于句子关系图的网页文本主题句抽取
被引量:9
- 1
-
-
作者
何维
王宇
-
机构
大连理工大学管理学院
-
出处
《现代图书情报技术》
CSSCI
北大核心
2009年第3期57-61,共5页
-
基金
国家自然科学基金项目"企业(组织)知识管理中的若干基础科学问题研究"(项目编号:70431001)的研究成果之一
-
文摘
针对网页文本结构信息少、噪声大的特点,将句子看作点,将句子间的相似性看作边,用句子关系图描述文本中句子间的关系。抽取文本主题句的任务转化为搜索图中边最多的点。利用语义词典,将句子相似度定义为句子语义相似度,解决短文本词频相似度低的问题。选用互联网公开语料进行测试,抽取的主题句达到平均80.6%的可接受性。
-
关键词
主题句
句子关系图
句子相似度
-
Keywords
Topic sentence Sentence relationship map Sentence similarity
-
分类号
TP391.1
[自动化与计算机技术—计算机应用技术]
-
-
题名基于图卷积网络的双语多文档差异性摘要抽取
- 2
-
-
作者
沈彬
严馨
蒋亚芳
徐广义
张金鹏
-
机构
昆明理工大学信息工程与自动化学院
昆明理工大学
云南南天电子信息产业股份有限公司
云南财经大学信息学院
-
出处
《信息技术》
2023年第1期14-21,共8页
-
基金
国家自然科学基金(61462055,61562049)。
-
文摘
针对现有方法利用机器翻译在双语新闻中抽取差异性摘要存在的语义转换偏差问题,提出一种基于图卷积网络的双语多文档差异性摘要抽取方法。首先,对已抽取的双语多文档摘要构建句子关系图,并将GRU模型获得的句向量和句子关系图作为图卷积网络的输入,以获得图卷积相关性聚合之后的句子节点表征;然后,计算句子节点表征和GRU模型获得中英文文档向量之间的显著性得分;最后,按照显著性得分高低进行降序排序,分别抽取出中英文的差异性摘要。实验结果表明,所提出的方法能够有效抽取双语多文档差异性摘要。
-
关键词
句子关系图
图卷积网络
GRU
差异性摘要
-
Keywords
sentence relation graph
graph convolutional network
Gate Recurrent Unit(GRU)
differential abstracts
-
分类号
TP391
[自动化与计算机技术—计算机应用技术]
-
-
题名基于句子相似度的文本主题句提取算法研究
被引量:12
- 3
-
-
作者
孔胜
王宇
-
机构
大连理工大学管理学院
-
出处
《情报学报》
CSSCI
北大核心
2011年第6期605-609,共5页
-
基金
教育部人文社科研究项目“期刊文献知识元挖掘及知识仓库构建”(编号:09YJA870005)
-
文摘
文本主题提取是文本挖掘领域的重要研究内容,解决文本信息泛滥的重要手段。为了解决现有文本主题句提取中一些局部主题容易被忽略的问题,本文提出一种"先分割,再提取"的思想。首先将文本表示为句子的线性序列,句子表示为词的线性序列,并对每个句子都预处理为含有实词的词汇链,然后基于知网(Hownet)计算相邻句子相似度。基于句子相似度,采用文本分割技术将文本分为多个关于子主题的句子包,通过句子关系图对这些句子包进行主题句提取。最后选用不同的语料库,设计进行了可接受性测试,实验结果验证该算法是可行、有效地。
-
关键词
句子相似度
主题句提取
文本分割
句子关系图
-
Keywords
sentence similarity
topic sentence extraction
text segmentation
sentence relationship map
-
分类号
H315
[语言文字—英语]
-
-
题名基于主题分割与PageRank算法的文本主题抽取
被引量:2
- 4
-
-
作者
段晓丽
王宇
-
机构
大连理工大学管理学院
-
出处
《现代图书情报技术》
CSSCI
北大核心
2010年第12期34-39,共6页
-
基金
教育部人文社会科学项目"期刊文献知识元挖掘及知识仓库构建研究"(项目编号:09YJA870005)的研究成果之一
-
文摘
针对主题句抽取时完整性差的问题,在对文本进行主题分割的基础上,为每个主题包构建句子关系图,并采用基于图的PageRank算法对关系图中的句子排序,选取权重大的句子作为每个主题包的主题句。实验表明,该算法抽取的主题句对全文有很好的覆盖率。
-
关键词
主题句抽取
主题分割
句子关系图
PAGERANK算法
-
Keywords
Topic sentence extraction Subject segmenting Sentence relation map PageRank algorithm
-
分类号
TP391.1
[自动化与计算机技术—计算机应用技术]
-