-
题名基于无向图构建策略的主题句抽取
被引量:10
- 1
-
-
作者
葛斌
李芳芳
李阜
肖卫东
-
机构
国防科技大学C
-
出处
《计算机科学》
CSCD
北大核心
2011年第5期181-185,共5页
-
基金
国家自然科学基金项目(60903225
60172012)资助
-
文摘
基于文档句构建无向图,将主题句的抽取问题转换为无向图中节点的权重计算问题。首先利用滑窗方法抽取主题词,构建空间向量并生成无向图,然后基于向量空间模型计算边权重,最后利用文档句相似度矩阵的权重模型对文档句权重进行建模与计算,依据压缩比得到文档的主题句。实验表明,该方法在不同的压缩比下生成的摘要质量高,主题句抽取结果接近于人工摘要,召回率和准确率综合指数较高。
-
关键词
主题句抽取
无向图
文档句权重
自动文摘
-
Keywords
extraction algorithm
followed by the establishment of the undirected graph.The edge weights of the graph were modeled by the Vector Space Model(VSM) in turn.The node weights were computed finally by the weight model based on the similarity matrix
and the subject sentences were obtained on the ratio of compression.Experiments show that the proposed automatic summarization techniques improve the recall rate and accuracy effectively. Key words Subject sentence extraction
Undirected graph
Sentence weight
Automatic text summarization
-
分类号
TP311
[自动化与计算机技术—计算机软件与理论]
-
-
题名一种基于LDA模型的主题句抽取方法
被引量:10
- 2
-
-
作者
王力
李培峰
朱巧明
-
机构
苏州大学计算机科学和技术学院
江苏省计算机信息处理技术重点实验室
-
出处
《计算机工程与应用》
CSCD
2013年第2期160-164,257,共6页
-
基金
国家自然科学基金(No.90920004
No.60970056
+2 种基金
No.61070123
No.61003153)
江苏省高校自然科学重大基础研究项目(No.08KJA520002)
-
文摘
在基于Web的主题关键词查询扩展,获取候选主题句的基础上,提出一种基于LDA模型的主题句抽取方法,以抽取粒度较细的主题信息,并增加主题信息的置信度。该方法通过多个侧面对目标主题的衬托,采用LDA模型对主题信息进行建模,利用各个主题概率分布的平滑度进行候选句的可信度计算来抽取主题句。在面向Web的主题句抽取的具体应用中,取得了较好的效果。
-
关键词
隐含狄利克雷分配(LDA)
主题模型
主题句抽取
信息融合
-
Keywords
Latent Dirichlet Allocation (LDA)
topic model
topical sentence extraction
information fusion
-
分类号
TP391.12
[自动化与计算机技术—计算机应用技术]
-
-
题名基于主题分割与PageRank算法的文本主题抽取
被引量:2
- 3
-
-
作者
段晓丽
王宇
-
机构
大连理工大学管理学院
-
出处
《现代图书情报技术》
CSSCI
北大核心
2010年第12期34-39,共6页
-
基金
教育部人文社会科学项目"期刊文献知识元挖掘及知识仓库构建研究"(项目编号:09YJA870005)的研究成果之一
-
文摘
针对主题句抽取时完整性差的问题,在对文本进行主题分割的基础上,为每个主题包构建句子关系图,并采用基于图的PageRank算法对关系图中的句子排序,选取权重大的句子作为每个主题包的主题句。实验表明,该算法抽取的主题句对全文有很好的覆盖率。
-
关键词
主题句抽取
主题分割
句子关系图
PAGERANK算法
-
Keywords
Topic sentence extraction Subject segmenting Sentence relation map PageRank algorithm
-
分类号
TP391.1
[自动化与计算机技术—计算机应用技术]
-
-
题名基于主题句相似度的标题党新闻鉴别技术研究
被引量:6
- 4
-
-
作者
王志超
翁楠
王宇
-
机构
上海交通大学情报科学技术研究所
南京大学工程管理学院
大连理工大学管理学院
-
出处
《现代图书情报技术》
CSSCI
北大核心
2011年第11期48-53,共6页
-
文摘
针对目前网络上的标题党新闻,提出一种标题党新闻自动识别的算法。通过分析新闻网页构成的特点,抽取出新闻标题和新闻正文;以句子关系矩阵为基础,提出一种以语句为单位的主题句抽取算法;根据句子相似度计算结果来进行判断。实验表明,本方法的识别精度可达到80%,是一种有效的方法。
-
关键词
标题党新闻
新闻标题抽取
新闻正文信息抽取
句子相似度计算
主题句抽取
-
Keywords
Title party news News title extraction News information extraction Sentence similarity computing Topic sentence extraction
-
分类号
TP391.1
[自动化与计算机技术—计算机应用技术]
-
-
题名基于JST模型的新闻文本的情感分类研究
被引量:3
- 5
-
-
作者
潘云仙
袁方
-
机构
河北大学计算机科学与技术学院
河北大学数学与信息科学学院
-
出处
《郑州大学学报(理学版)》
CAS
北大核心
2015年第1期64-68,共5页
-
基金
国家自然科学基金资助项目
编号61170039
+2 种基金
河北省软科学研究计划项目
编号12457206D-11
12457202D-63
-
文摘
使用JST模型对中文新闻文本进行情感分析,相对于评论文本,新闻文本主观性比较弱,而且大多是长文本,会影响JST模型的分类性能.给出一种抽取情感主题句的方法,将抽取得到的情感主题句结合现有的JST模型对新闻文本的情感倾向进行了分析.实验表明,使用情感主题句进行情感分析,避免了与主题情感无关的句子对分析结果的影响,提高了分类准确率.
-
关键词
情感分析
JST模型
褒贬义词典
情感主题句抽取
-
Keywords
sentiment analysis
JST model
appraise dictionary
sentiment topic sentence extraction
-
分类号
TP181
[自动化与计算机技术—控制理论与控制工程]
-