基于PLSA模型的文本分割被引量：25

Text Segmentation Based on PLSA Model

下载PDF

导出

摘要文本分割在信息提取、文摘自动生成、语言建模、首语消解等诸多领域都有极为重要的应用·基于PLSA模型的文本分割试图使隐藏于片段内的不同主题与文本表面的词、句对建立联系·实验以汉语的整句作为基本块,尝试了多种相似性度量手段及边界估计策略,同时考虑相邻句重复的未登录词对相似值的影响,其最佳结果表明,片段边界的识别错误率为6·06%,远远低于其他同类算法· Text segmentation is very important for many fields including information retrieval, summarization, language modeling, anaphora resolution and so on. Text segmentation based on PLSA associates different latent topics with observable pairs of word and sentence. In the experiments, Chinese whole sentences are taken as elementary blocks. Variety of similarity metrics and several approaches to discovering boundaries are tried. The influences of repetition of unknown words in adjacent sentences on similarity values are considered. The best results show the error rate is 6.06 % , which is far lower than that of other algorithms of text segmentation.

作者石晶戴国忠

机构地区中国科学院软件研究所人机交互技术与智能信息处理实验室

出处《计算机研究与发展》 EI CSCD 北大核心 2007年第2期242-248,共7页 Journal of Computer Research and Development

基金国家自然科学基金项目(60373056) 国家"九七三"重点基础研究发展规划基金项目(2002CB312103) 中国科学院软件研究所创新工程重大项目

关键词文本分割概率潜在语义分析相似性度量边界识别 text segmentation probabilistic latent semantic analysis （PLSA） similarity metric boundary discovering

分类号 TP391 [自动化与计算机技术—计算机应用技术]

引文网络
相关文献

参考文献19

1Igor A Bolshakov,A Gelbukh.Text segmentation into paragraphs based on local text cohesion[G].In:Text,Speech and Dialogue (TSD-2001),Lecture Notes in Artificial Intelligence 2166.Berlin:Springer-Verlag,2001.158-166
2Ath Kehagias,A Nicolaou,P Fragkou,et al.Text segmentation by product partition models and dynamic programming[J].Mathematical and Computer Modelling,2004,39(2-3):209-217
3G Tur,D Hakkani-Tur,A Stolcke,et al.Integrating prosodic and lexical cues for automatic topic segmentation[J].Computational Linguistics,2001,27(1):31-57
4Gina-Anne Levow.Prosody-based topic segmentation for Mandarin broadcast news[C].HLT-NAACL 2004,Boston,Massachusetts,USA,2004
5D Blei,P Moreno.Topic segmentation with an aspect hidden Markov model[C].In:Proc of the 24th Annual Int'l ACM SIGIR Conf on Research and Development in Information Retrieval.New York:ACM Press,2001.343-348
6Thorsten Brants,Francine Chen,Ioannis Tsochantaridis.Topic-based document segmentation with probabilistic latent semantic analysis[C].The 11th Int'l Conf on Information and Knowledge Management,McLean,Virginia,USA,2002
7F Y Y Choi,P Wiemer-Hastings,J Moore.Latent semantic analysis for text segmentation[C].The 2001 Conf on Empirical Methods in Natural Language Processing,Pittsburgh,PA,USA,2001
8Thomas Hofmann.Probabilistic latent semantic analysis[C].In:Proc of the 15th Annual Conf on Uncertainty in Artificial Intelligence (UAI-99).San Francisco,CA:Morgan Kaufmann,1999.289-296
9T Hofmann.Probabilistic latent semantic indexing[C].SIGIR-99,Berkeley,CA,1999
10T Hofmann.Unsupervised learning by probabilistic latent semantic analysis[J].Machine Learning Journal,2001,42(1):177-196

同被引文献276

1温有奎.基于“知识元”的知识组织与检索[J].计算机工程与应用,2005,41(1):55-57. 被引量：74
2李国臣,罗云飞.采用优先选择策略的中文人称代词的指代消解[J].中文信息学报,2005,19(4):24-30. 被引量：33
3佘二永,王润生.基于线性融合模型的多传感器图像融合[J].电子学报,2005,33(6):1008-1010. 被引量：2
4胡兴堂,张兵,李俊生,郑兰芬,童庆禧.面向应用的海量高光谱影像处理与分析系统集成与实践[J].遥感学报,2005,9(5):604-609. 被引量：4
5张静,刘延申,卫金磊.论中小学多媒体知识元库的建设[J].现代教育技术,2005,15(5):68-71. 被引量：30
6于满泉,骆卫华,许洪波,白硕.话题识别与跟踪中的层次化话题识别技术研究[J].计算机研究与发展,2006,43(3):489-495. 被引量：49
7陈云浩,冯通,史培军,王今飞.基于面向对象和规则的遥感影像分类研究[J].武汉大学学报（信息科学版）,2006,31(4):316-320. 被引量：240
8温有奎,温浩,徐端颐,潘龙法.基于知识元的文本知识标引[J].情报学报,2006,25(3):282-288. 被引量：64
9苏金树,张博锋,徐昕.基于机器学习的文本分类技术研究进展[J].软件学报,2006,17(9):1848-1859. 被引量：381
10伍建军,康耀红.潜在语义索引在文本分类中的应用[J].电脑与信息技术,2006,14(5):32-34. 被引量：3

引证文献25

1石晶,胡明,戴国忠.基于小世界模型的中文文本主题分析[J].中文信息学报,2007,21(3):69-75. 被引量：9
2钟茂生,胡熠,刘磊.基于词典词语量化关系的中文文本分割方法[J].计算机工程与应用,2008,44(21):25-29. 被引量：2
3石晶,胡明,石鑫,戴国忠.基于LDA模型的文本分割[J].计算机学报,2008,31(10):1865-1873. 被引量：54
4陈源,陈蓉,胡俊锋,林霖,张靖波,于中华.面向概括性小文本的文本分割算法[J].计算机工程,2008,34(22):43-45. 被引量：1
5刘铭,王晓龙,刘远超.基于主题分析的文本分割技术研究[J].电子学报,2009,37(2):278-284. 被引量：6
6石晶,李万龙.三种主题分割方法的对比研究[J].计算机工程与应用,2009,45(18):135-138. 被引量：2
7刘玮,陈新武,田金文.目标语义概率模型在类目标识别和地物场景分析中的算法研究[J].计算机科学,2009,36(7):273-277.
8赵煜,蔡皖东,樊娜,刘念.采用并行遗传算法的文本分割研究[J].西安交通大学学报,2009,43(12):40-44. 被引量：1
9石晶,范猛,李万龙.基于LDA模型的主题分析[J].自动化学报,2009,35(12):1586-1592. 被引量：34
10钟将,刘杰.一种基于文本分类的知识树自动构建方法[J].计算机应用研究,2010,27(2):475-478. 被引量：4

二级引证文献219

1包乾辉,李佳利,石淑珍,戴引,刘雪.基于DSLML的鸡蛋消费在线评论情感分析[J].农业机械学报,2021,52(S01):496-503. 被引量：4
2齐银凤,舒阳,唐宏.基于Block-Gibbs抽样的无限潜Dirichlet分配模型的高分辨率全色遥感影像非监督分类[J].遥感信息,2015,30(1):26-32.
3朱荷香,曲维光,卢俊之,李素建,邵艳秋.面向自动文摘的文本结构划分[J].南京大学学报（自然科学版）,2008,44(2):204-211. 被引量：2
4石晶,李万龙.三种主题分割方法的对比研究[J].计算机工程与应用,2009,45(18):135-138. 被引量：2
5王小芳,王瑞芳,张树功.基于最优化控制模型的文本主题域划分[J].吉林大学学报（理学版）,2009,47(4):769-776.
6赵煜,蔡皖东,樊娜,刘念.采用并行遗传算法的文本分割研究[J].西安交通大学学报,2009,43(12):40-44. 被引量：1
7张小平,周雪忠,黄厚宽,冯奇,陈世波.基于词相似性与CRP的主题模型[J].模式识别与人工智能,2010,23(1):72-76. 被引量：8
8杨潇,马军,杨同峰,杜言琦,邵海敏.主题模型LDA的多文档自动文摘[J].智能系统学报,2010,5(2):169-176. 被引量：23
9高隽,谢昭,张骏,吴克伟.图像语义分析与理解综述[J].模式识别与人工智能,2010,23(2):191-202. 被引量：20
10杨锋,彭勤科,徐涛.基于随机网络的在线评论情绪倾向性分类[J].自动化学报,2010,36(6):837-844. 被引量：9

1石晶,胡明,石鑫,戴国忠.基于LDA模型的文本分割[J].计算机学报,2008,31(10):1865-1873. 被引量：54
2陈香华,叶吉祥,谭冠政.利用小波和RBF神经网络进行手写数字识别[J].云南民族大学学报（自然科学版）,2005,14(4):353-355. 被引量：1
3王建芬,曹元大.支持向量机在大类别数分类中的应用[J].北京理工大学学报,2001,21(2):225-228. 被引量：35
4吕刚,郝平,盛建荣.一种改进的深度神经网络在小图像分类中的应用研究[J].计算机应用与软件,2014,31(4):182-184. 被引量：23
5童剑军,邹明福.车牌字符的一种精判别识别方法[J].计算机工程与应用,2005,41(2):223-226. 被引量：8
6石晶,李万龙.三种主题分割方法的对比研究[J].计算机工程与应用,2009,45(18):135-138. 被引量：2
7生物识别技术何时不再需要密码[J].新电脑,2004(4):44-45.
8陈才扣,黄璞.基于分块独立分量分析的人脸识别[J].中国图象图形学报,2009,14(9):1837-1842. 被引量：8
9高学,王有旺.基于CNN和随机弹性形变的相似手写汉字识别[J].华南理工大学学报（自然科学版）,2014,42(1):72-76. 被引量：28
10金忠,胡钟山,杨静宇.基于BP神经网络的人脸识别方法[J].计算机研究与发展,1999,36(3):274-277. 被引量：33

计算机研究与发展

2007年第2期

浏览历史

内容加载中请稍等...

基于PLSA模型的文本分割被引量：25

参考文献19

同被引文献276

引证文献25

二级引证文献219

相关作者

相关机构

相关主题

浏览历史

基于PLSA模型的文本分割 被引量：25

参考文献19

同被引文献276

引证文献25

二级引证文献219

相关作者

相关机构

相关主题

浏览历史

基于PLSA模型的文本分割被引量：25