-
题名基于句子聚类的中文文本自动摘要算法的研究
被引量:1
- 1
-
-
作者
杨毅
-
机构
西安职业技术学院
-
出处
《微型电脑应用》
2017年第8期54-56,共3页
-
文摘
在搜索引擎和新闻内容推荐等多个领域都有着非常广阔的应用。
-
关键词
句子聚类
主题词提取
词向量
文本自动摘要
-
Keywords
sentenceclustering
topic wordextraction
word vector
text auto summarization
-
分类号
TP393
[自动化与计算机技术—计算机应用技术]
-
-
题名基于潜在语义索引和句子聚类的中文自动文摘
被引量:5
- 2
-
-
作者
陈戈
段建勇
陆汝占
-
机构
上海交通大学计算机科学与工程系
-
出处
《计算机仿真》
CSCD
2008年第7期82-85,共4页
-
基金
国家自然科学基金(60496326)
863计划资助项目(2001AA114210)
-
文摘
自动文摘是自然语言处理领域的一项重要的研究课题。提出一种基于潜在语义索引和句子聚类的中文自动文摘方法。该方法的特色在于:使用潜在语义索引计算句子的相似度,并将层次聚类算法和K-中心聚类算法相结合进行句子聚类,这样提高了句子相似度计算和主题划分的准确性,有利于生成的文摘在全面覆盖文档主题的同时减少自身的冗余。实验结果验证了该文提出的方法的有效性,对比传统的基于聚类的自动文摘方法,该方法生成的文摘质量获得了显著的提高。
-
关键词
自动文摘
潜在语义索引
句子聚类
-
Keywords
Automatic text summarization
Latent semantic indexing
Sentence clustering
-
分类号
TP391
[自动化与计算机技术—计算机应用技术]
-
-
题名基于特征选择的句子聚类算法
- 3
-
-
作者
方莹
-
机构
河南商丘师范学院计算机科学系
-
出处
《现代计算机》
2007年第5期23-25,共3页
-
文摘
受信息抽取工作的驱动,利用事件相关文档的特点,在分析各种文本特征的基础上,综合利用词语、语义和词串信息进行句子相似度计算,并在此基础上进行句子聚类,提出了基于特征选择的句子聚类方法,为抽取事件侧面信息提供更好的基础资源。实验表明,采用多特征后,句子聚类的效果得到明显提高。
-
关键词
信息抽取
句子相似度
句子聚类
向量空间模型
-
Keywords
Information Extraction
Sentence Similarity
Sentence Clustering
Vector Space Model
-
分类号
TP391.1
[自动化与计算机技术—计算机应用技术]
-
-
题名基于改进LDA和K-means算法的主题句聚类
被引量:4
- 4
-
-
作者
刘子平
李学明
-
机构
重庆大学计算机学院
-
出处
《计算机应用》
CSCD
北大核心
2016年第A02期239-241,250,共4页
-
基金
国家自然科学基金资助项目(60873200
90818028)
-
文摘
针对隐含狄利克雷分布(LDA)主题个数的随机选定和传统K-means算法初始聚类中心选择的随机性等缺陷,提出一种新颖启发式的主题句聚类方法。该方法利用文档集聚类簇数与拆分为句子集中隐藏的主题数目一致特点,先通过层次聚类分析出文档集聚类簇,采用最小描述长度(MDL)剪枝算法来确定最佳聚类数n个,然后将n作为隐含狄利克雷分布的主题数目的先验参数,计算n个主题所在维度上的重要句子作为初始聚类中心,最终完成隐含主题句聚类。实验结果表明改进后聚类算法克服了噪声数据的干扰,避免了主题数的经验误差,聚类结果更精确。
-
关键词
潜在狄立克雷分布
K-MEANS算法
最小描述长度算法
句子聚类
-
Keywords
Latent Dirichlet Allocation (LDA)
K-means algorithm
Minimal Dscription Length (MDL) algorithm
sentence clustering
-
分类号
TP301.6
[自动化与计算机技术—计算机系统结构]
-
-
题名一种主题句发现的中文自动文摘研究
被引量:8
- 5
-
-
作者
王萌
李春贵
唐培和
王晓荣
-
机构
广西工学院计算机工程系
华中师范大学计算机科学系
-
出处
《计算机工程》
CAS
CSCD
北大核心
2007年第8期180-181,189,共3页
-
基金
广西科学基金资助项目(桂科自0481016)
2006年度广西教育厅科研资助项目(149)
广西工学院博士基金资助项目
-
文摘
提出了一种基于主题句发现的中文自动文摘方法。该方法使用术语代替传统的词语作为最小语义单位,采用术语长度术语频率方法进行术语权重计算,获得特征词。利用一种改进的k-means聚类算法进行句子聚类,根据聚类结果进行主题句发现。实验表明,该算法所得到的文摘,在各项指标上优于传统的文摘。
-
关键词
主题句发现
自动文摘
句子聚类
自然语言处理
-
Keywords
Thematic sentence discovery
Automatic text summarization
Sentences clustering
Natural language processing
-
分类号
TP311
[自动化与计算机技术—计算机软件与理论]
-