基于对话内容的交互型文本会话主题挖掘被引量：1

Session topic mining for interactive text based on conversational content

下载PDF

导出

摘要传统的主题挖掘模型一般仅从交互型文本中挖掘出文档主题,为了能够从中挖掘出会话主题并提高挖掘模型的普适性,提出了一种基于对话内容的交互型文本会话主题生成模型。首先通过分析交互型文本的特征,基于主题树的概念,定义了一个5层结构的对话生成树。以此为基础,再基于LDA构建会话主题生成模型(ST-LDA)。最后采用吉布斯抽样法对ST-LDA进行推导,得到会话主题及其分布概率。使用实际数据进行验证,结果表明,ST-LDA模型可以从交互型文本中有效地挖掘出会话主题。此外,成果可以降低分类算法的复杂度,回溯主题—参与者关联关系,具有较好的普适性。 Traditional theme mining model generally digs out the document theme from the interactive text only. In order to explore the session topic and improve the universality of mining model, a kind of interactive text session topic generation model based on the content of the dialogue was put forward. Firstly, by analyzing the characteristics of interactive text and based on the concept of topic tree, a dialog spanning tree was defined with a five-layer structure. Based on this and LDA, the model of session topic generation（ST-LDA） was built. At last, Gibbs sampling method was adopted to deduce the ST-LDA and obtaining session topic and its distribution probability. The results show that the ST-LDA model can dig out a session topic effectively from the interactive text. Besides, the results can reduce the complexity of the classification algorithm and can be back to the theme —participants association. It also has a good universality.

作者彭杰石永革高胜保

机构地区南昌大学信息工程学院中国电信股份有限公司江西分公司

出处《电信科学》北大核心 2016年第9期139-145,共7页 Telecommunications Science

基金国家自然科学基金资助项目(No.61163005) 江西省科技计划基金资助项目(No.2014ZBBE50008)~~

关键词交互型文本对话内容会话主题挖掘对话生成树 LDA interactive text conversation content session topic mining dialog spanning tree latent Dirichlet allocation

分类号 TP181 [自动化与计算机技术—控制理论与控制工程]

引文网络
相关文献

参考文献7

1樊兴华,孙茂松.一种高性能的两类中文文本分类方法[J].计算机学报,2006,29(1):124-131. 被引量：70
2邬晓钧,郑方,徐明星.基于主题森林结构的对话管理模型[J].自动化学报,2003,29(2):275-283. 被引量：6
3孙建旺,吕学强,张雷瀚.基于语义与最大匹配度的短文本分类研究[J].计算机工程与设计,2013,34(10):3613-3618. 被引量：18
4张晨逸,孙建伶,丁轶群.基于MB-LDA模型的微博主题挖掘[J].计算机研究与发展,2011,48(10):1795-1802. 被引量：165
5吕超镇,姬东鸿,吴飞飞.基于LDA特征扩展的短文本分类[J].计算机工程与应用,2015,51(4):123-127. 被引量：49
6林小俊,张猛,暴筱,李军,吴玺宏.基于概念网络的短文本分类方法[J].计算机工程,2010,36(21):4-6. 被引量：9
7张志飞,苗夺谦,高灿.基于LDA主题模型的短文本分类方法[J].计算机应用,2013,33(6):1587-1590. 被引量：76

二级参考文献81

1王细薇,樊兴华,赵军.一种基于特征扩展的中文短文本分类方法[J].计算机应用,2009,29(3):843-845. 被引量：36
2樊兴华,孙茂松.一种高性能的两类中文文本分类方法[J].计算机学报,2006,29(1):124-131. 被引量：70
3Lewis D. D.. An evaluation of phrasal and clustered representalions on a text categorization task. In: Proceedings of SIGIR'92,the 15st ACM International Conference on Research and Development in Information Retrieval, Copenhagen, Denmark,1992, 37-50.
4Sebastiani F,. Machine learning in automated text categorization. ACM Computing Surveys, 2002, 34(1): 1-47.
5Lewis D.. Naive bayes at forty: The independence assumption in information retrieval. In: Proceedings of the 10th European Conference on Machine Learning, Chemnitz, Germany, 1998,4-15.
6Salton G.. Automatic Text Processing: The Transformation,Analysis, and Retrieval of Information by Computer. Reading,MA: Addison Wesley, 1989.
7Mitchell T. M.. Machine Learning. New York: McCraw Hill,1996.
8Joachims T.. Text categorization with support vector machines: Learning with many relevant features. In: Proceedings of the 10th European Conference on Machine Learning,Chemnitz, Germany, 1998, 137-142.
9Yang Y. , Liu X.. A Re-examination of text categorization methods. In: Proceedings of SIGIR'99, the 22nd ACM International Conference on Research and Development in Information Retrieval, Berkeley, CA, 1999, 42-49.
10樊兴华.因果推理和文本分类.清华大学博士后出站报告,2004.

共引文献370

1许睿,龙丹,刘佳,刘畅.基于LDA模型的电力投诉文本热点话题识别[J].云南大学学报（自然科学版）,2020,42(S02):26-31. 被引量：3
2余本功,曹雨蒙,陈杨楠,杨颖.基于nLD-SVM-RF的短文本分类研究[J].数据分析与知识发现,2020,4(1):111-120. 被引量：10
3陶志勇,李小兵,刘影,刘晓芳.基于双向长短时记忆网络的改进注意力短文本分类方法[J].数据分析与知识发现,2019,3(12):21-29. 被引量：23
4邱小宇,林杰.基于Twitter数据的地点分类方法研究[J].科技通报,2020(4):67-71.
5孙登林,李生红,荆涛,刘功申.一种针对不良主题的文本过滤方法[J].信息安全与通信保密,2008,30(2):92-93. 被引量：4
6王细薇,樊兴华,赵军.一种基于特征扩展的中文短文本分类方法[J].计算机应用,2009,29(3):843-845. 被引量：36
7彭昱忠,元昌安,王艳,覃晓.基于内容理解的不良信息过滤技术研究[J].计算机应用研究,2009,26(2):433-438. 被引量：19
8彭京,杨冬青,唐世渭,王腾蛟,高军.基于概念相似度的文本相似计算[J].中国科学（F辑:信息科学）,2009,39(5):534-544. 被引量：17
9刘娜,肖智博,路莹,唐晓君,肖鹏.自适应主题融合的多文档自动摘要算法[J].中南大学学报（自然科学版）,2013,44(S2):205-209.
10姜晓伟,王建民,丁贵广.基于主题模型的微博重要话题发现与排序方法[J].计算机研究与发展,2013,50(S1):179-185. 被引量：12

同被引文献8

1黄晓斌,赵超.文本挖掘在网络舆情信息分析中的应用[J].情报科学,2009,27(1):94-99. 被引量：113
2华秀丽,朱巧明,李培峰.语义分析与词频统计相结合的中文文本相似度量方法研究[J].计算机应用研究,2012,29(3):833-836. 被引量：42
3张雯雯,许鑫.文本挖掘工具述评[J].图书情报工作,2012,56(8):26-31. 被引量：34
4崔建明,刘建明,廖周宇.基于SVM算法的文本分类技术研究[J].计算机仿真,2013,30(2):299-302. 被引量：83
5袁海,陈康,陶彩霞,陈翀.基于中文文本的可视化技术研究[J].电信科学,2014,30(4):114-122. 被引量：14
6刘怀亮,杜坤,秦春秀.基于知网语义相似度的中文文本分类研究[J].现代图书情报技术,2015(2):39-45. 被引量：15
7张键锋,王劲.基于文本挖掘与神经网络的音乐风格分类建模方法[J].电信科学,2015,31(7):80-85. 被引量：9
8琚春华,鲍福光,戴俊彦.一种融入公众情感投入分析的微博话题发现与细分方法[J].电信科学,2016,32(7):97-105. 被引量：6

引证文献1

1李颢,张吉皓.基于文本挖掘技术的客服投诉工单自动分类探讨[J].移动通信,2017,41(23):66-72. 被引量：12

二级引证文献12

1任华,王铮,汪少敏.多种因素向量化的客服工单智能排序应用[J].电信科学,2018,34(12):125-131. 被引量：1
2俞科峰.自动语音识别技术在中国电信多媒体客服系统中的应用[J].移动通信,2018,42(8):1-9. 被引量：3
3杨鹏,刘扬,杨青.基于层次语义理解的电力系统客服工单分类[J].计算机应用与软件,2019,36(7):231-235. 被引量：10
4宋岩,刘汉永,宁向南,孟宪哲.基于层次特征提取的文本分类研究[J].计算机应用与软件,2020,37(2):68-72. 被引量：5
5邓志远.基于自然语言处理的电信系统热点问题的提取[J].信息技术与信息化,2020(1):31-33.
6张兆芝,陈翔,高敏,卢燕燊,张钟杰.基于自然语言的国网投诉工单智能分类模型构建[J].微型电脑应用,2020,36(7):54-57. 被引量：2
7郑创伟,谢志成,邢谷涛,陈少彬,陈义飞.文本分类技术在报业智能客服系统中的应用[J].中国传媒科技,2021(10):149-151.
8蒋海刚.词向量文本挖掘技术在建筑设施管理应用研究[J].电脑知识与技术,2021,17(33):22-25. 被引量：3
9钟世文,梁国脉.客服工单手工记录复核工具实现与应用[J].中国高新科技,2022(10):140-142.
10马晓亮,刘英,杜德泉,张国新.电信运营商AI客服平台技术研究与应用分析[J].电信科学,2023,39(9):141-152. 被引量：1

1汉江边.新浪微博查看双方之间的对话内容[J].电脑知识与技术（经验技巧）,2012(7):94-94.
2媒介概览·国内[J].市场观察（媒介）,2006(2):8-9.
3尹成义,张志华.集团抽样方法在软件测试中的应用[J].海军工程大学学报,2002,14(5):92-96. 被引量：2
4白秋产,金春霞,章慧,周海岩.词共现文本主题聚类算法[J].计算机工程与科学,2013,35(7):164-168. 被引量：13
5温鹏,章洋.高性能发布/订阅系统接口服务的设计与应用[J].软件,2013,34(11):31-35. 被引量：3
6胡祥培,钱国明,胡运权.基于事件逻辑结构化的人机对话生成器[J].系统工程理论方法应用,1995,4(2):40-44.
7朱青,吕晓旭.基于机器学习的HTML标题抽取[J].微计算机信息,2010,26(9):15-16. 被引量：4
8南宫雅岚.《诛仙》中的灵异事件[J].网友世界,2008(11):87-87.
9张瑛,张娅婷.动态文本会话抽取技术研究[J].电视技术,2011,35(11):84-87.
10何芳.浅谈对话文本教学中利用媒体教学的几个关注点[J].中小学电教（下）,2012(8):102-102.

电信科学

2016年第9期

浏览历史

内容加载中请稍等...

基于对话内容的交互型文本会话主题挖掘被引量：1

参考文献7

二级参考文献81

共引文献370

同被引文献8

引证文献1

二级引证文献12

相关作者

相关机构

相关主题

浏览历史

基于对话内容的交互型文本会话主题挖掘 被引量：1

参考文献7

二级参考文献81

共引文献370

同被引文献8

引证文献1

二级引证文献12

相关作者

相关机构

相关主题

浏览历史

基于对话内容的交互型文本会话主题挖掘被引量：1