基于交叉熵与困惑度的LDA-SVM主题研究被引量：2

Research on LDA-SVM subject based on cross entropy and perplexity

下载PDF

导出

摘要目前对于中文影视剧本的分类主要借助人工经验,具有成本高、效率低等特点.当前没有针对中文影视剧本主题自动分类的相关研究,本文将对主题提取进行研究,传统主题生成模型借助于文档和段落、段落和语句、语句和词的相似性,而忽略了文本语句与语句之间的相似性.首先,采用ISOMAP方法降低样本集的向量空间维度;其次,提出交叉熵结合困惑度的算法模型,进而确定LDA需要提取的最优主题数目;最后,通过剧本-主题的方式,利用LDA算法挖掘剧本的隐含主题词,同时利用SVM对主题词做出进一步的分类. At present,the classification of Chinese film and television scripts mainly relies on manual experience,which has the characteristics of high cost and low efficiency.There is currently no research on the automatic classification of Chinese film and television scripts.This paper explores the topic extraction.The traditional topic generation model relies on the similarity of documents and paragraphs,paragraphs and sentences,sentences and words,while ignoring the similarity between text statements and statements.Firstly,the ISOMAP method is used to reduce the vector space dimension of the sample set.Secondly,the algorithm model of cross entropy combined with perplexity is proposed to determine the optimal number of topics that LDA needs to extract.Based on the above,through the script-theme method,the script is used to mine implicit subject terms of the script,while using SVM to further classify the subject words.

作者薛佳奇杨凡 XUE Jiaqi;YANG Fan(School of Information and Control Engineering,Xi'an University of Architecture and Technology,Xi'an 710055,China;School of Science,Xi'an University of Architecture and Technology,Xi'an 710055,China)

机构地区西安建筑科技大学信息与控制工程学院西安建筑科技大学理学院

出处《智能计算机与应用》 2019年第4期45-50,共6页 Intelligent Computer and Applications

关键词中文影视剧本 ISOMAP降维 LDA 交叉熵困惑度 SVM Chinese film and television script ISOMAP dimension reduction LDA cross entropy perplexity SVM

分类号 TP391.1 [自动化与计算机技术—计算机应用技术]

引文网络
相关文献

参考文献2

1裘友荣.相对熵在图像去噪中的应用[J].遥感信息,2018,33(3):124-129. 被引量：4
2孔锐,施泽生,郭立,张国宣.利用组合核函数提高核主分量分析的性能[J].中国图象图形学报（A辑）,2004,9(1):40-45. 被引量：22

二级参考文献9

1Vapnik V N. The nature of statistical learning theory[M]. New York : Springer Verlag, 1995.
2Muller K R, Mika S, Ratsch G, et al. An introduction to kernel-based learning algorithms [J]. IEEE Transactions on Neural Networks, 2001, 12(2) : 181-201.
3Mika S, Scholkopf B, Smola A J, et al. Kernel PCA and denoising in feature spaces[A]. In:Kearns M S, Solla S A, Cohn D A,Eds. Advances in Neural Information Processing Systems 11[M], Cambridge, MA USA: MIT Press, 1999:536-542.
4Scholkopf B, Smola A J, Muller K R. Non-linear component analysis as a kernel eigenvalue problem[J]. Neural Network,1998,10:1299-1319.
5Scholkopf B, Mika S, Burges C J C, et al. Input space versus feature space in kernel-based methods[J]. IEEE Transactions on Neural Networks, 1999,10(5) : 1000-1017.
6Smola A J. Learning with kernels[D]. Technische Universitat,Berlin, German, 1998.
7Scholkopf B. The kernel trick for distances [R]. Technical Report MSR-TR-2000-51,Microsoft Research, 19 May 2000.
8Burges C J C. A tutorial on support vector machines for pattern recognition[J]. Knowledge Discovery and Data Mining, 1998,2(2) :121-167.
9Hsu Chih-wei, Lin Chih-jen. A comparison of methods for multiclass support vector machines [J]. IEEE Transactions on Neural Networks, 2002,13(2) : 415-425.

共引文献24

1赖苏,熊忠阳,江帆,唐蓉君.利用改进的多项式核函数支持向量机进行文本分类[J].重庆大学学报（自然科学版）,2012,35(S1):41-45. 被引量：2
2张宇萍,黄宝健.随机矩阵的主行列分析法[J].西安工业学院学报,2005,25(3):289-292. 被引量：1
3张宇萍,黄宝健.基于灰度聚集度的图像变化检测[J].纺织高校基础科学学报,2005,18(4):316-319. 被引量：1
4张友静,黄浩,马雪梅.基于KPCA和SAM的城市植被遥感分类研究[J].地理与地理信息科学,2006,22(3):35-38. 被引量：13
5孔锐,张冰.一种高性能的人脸识别方法[J].计算机工程与设计,2006,27(13):2353-2356. 被引量：2
6孔锐,张冰.基于几何思想的快速支持向量机算法[J].中国图象图形学报,2007,12(6):1064-1068. 被引量：4
7丛瑜,肖怀铁,付强.基于核主分量分析的高分辨雷达目标特征提取与识别[J].电光与控制,2008,15(2):31-35. 被引量：9
8张静,王国宏,杨智勇.基于局部特征核主成分分析的SAR图像识别方法[J].宇航学报,2008,29(3):995-1001. 被引量：5
9李翊,张静,吴凌华,杨迎化.一种基于改进核主成分分析的SAR图像识别方法研究[J].海军航空工程学院学报,2009,24(3):307-312. 被引量：8
10谭泗桥,袁哲明,柏连阳,谭显胜,熊洁仪.基于局部核函数与全局核函数支持向量回归优化小样本QSAR建模[J].分子科学学报,2009,25(3):158-162. 被引量：4

同被引文献4

1刘圆圆,王忠建.基于模板的对几种特殊结构句子的语句改写[J].现代电子技术,2009,32(3):157-159. 被引量：1
2胡金铭,史晓东,苏劲松,陈毅东.引入复述技术的统计机器翻译研究综述[J].智能系统学报,2013,8(3):199-207. 被引量：6
3刘亚姝,王志海,侯跃然,严寒冰.一种基于概率主题模型的恶意代码特征提取方法[J].计算机研究与发展,2019,56(11):2339-2348. 被引量：13
4董悦,王梦.基于情感分析与LDA模型的网络舆情案例研究[J].价值工程,2019,38(34):169-172. 被引量：6

引证文献2

1张琳,刘明童,张玉洁,徐金安,陈钰枫.探索低资源的迭代式复述生成增强方法[J].智能系统学报,2022,17(4):680-687. 被引量：1
2黄梓玉,孟捷.基于文本挖掘的纪录片传播影响因素分析[J].统计学与应用,2020,9(4):525-532.

二级引证文献1

1张雪,陈钰枫,徐金安,田凤占.专有名词增强的复述生成方法研究[J].计算机工程,2024,50(3):98-105.

1徐昊,易绵竹.神经网络语言模型的结构与技术研究评述[J].现代计算机,2019,0(19):18-23. 被引量：1
2林萍.试论戏剧表演中的角色塑造[J].北极光,2019,0(4):96-97. 被引量：2
3黄东晋,肖帆,秦汉,蒋晨凤,丁友东.基于Isomap特征降维的人脸表情相似度评估方法[J].现代电影技术,2019,0(6):25-32.
4李旷怡.浅析《推销员之死》舞台表现主义的运用[J].西部广播电视,2019,40(11):94-95. 被引量：1
5邵军.舞台音响艺术效果在戏曲舞台中发挥的功效分析[J].新智慧,2017,0(27):63-63.
6黄畅,郭文忠,郭昆.面向微博热点话题发现的改进BBTM模型研究[J].计算机科学与探索,2019,13(7):1102-1113. 被引量：3
7柏志安,曾剑平.基于重叠度与完整度的LDA主题优选方法[J].计算机工程与应用,2019,55(12):155-161. 被引量：4
8王振亚,戚晓利,吴保林.基于ASL-Isomap流形学习的滚动轴承故障诊断方法[J].噪声与振动控制,2019,39(2):167-174. 被引量：8
9李楠,侯旋.城市物流竞争力分析DAE-WMA优化算法[J].计算机工程与应用,2019,55(16):246-254. 被引量：4
10丁英姿,丁香乾,郭保琪.基于弱监督的改进型GoogLeNet在DR检测中的应用[J].计算机应用,2019,39(8):2484-2488. 被引量：2

智能计算机与应用

2019年第4期

浏览历史

内容加载中请稍等...

基于交叉熵与困惑度的LDA-SVM主题研究被引量：2

参考文献2

二级参考文献9

共引文献24

同被引文献4

引证文献2

二级引证文献1

相关作者

相关机构

相关主题

浏览历史

基于交叉熵与困惑度的LDA-SVM主题研究 被引量：2

参考文献2

二级参考文献9

共引文献24

同被引文献4

引证文献2

二级引证文献1

相关作者

相关机构

相关主题

浏览历史

基于交叉熵与困惑度的LDA-SVM主题研究被引量：2