基于多策略的短文本信息流会话抽取被引量：2

Conversation extraction in short text message streams based on multiple strategies

下载PDF

导出

摘要互联网中存在大量的短文本信息流,需要对其进行会话抽取,将相同主题的内容合并到同一会话中。会话中的内容、时间和用户关系都会对会话抽取的性能产生影响,针对该问题提出了一种基于多策略的会话抽取算法。首先,基于内容、时间和用户关系进行会话分割得到会话片段;然后,利用词向量计算内容语义相似度,并结合时间信息计算会话片段间的相关度,对其进行聚类,实现会话抽取。在三个来源于真实聊天记录的数据集上进行实验的结果表明,本方法优于传统方法,综合F值分别提高了38.5%、15.7%和26.8%。 A large number of short text message streams are existing among the Internet. It is better to extract the conversations of the streams and cluster the messages of the same topic in the same conversation. By analyzing the impact of content,temporal and user connection in short text streams,this paper proposed a multiple strategies based novel conversation extraction method. Firstly,the method segmented the text stream into conversation segments based on content,temporal and user connection. Then,it calculated the semantic similarity based on word vectors,combined the temporal to calculate the relevancy to cluster the candidate conversation segments to complete the conversation extraction. Experimental results on 3 datasets of real chat logs show that this method works better than traditional methods,the average F increases by 38. 5%,15. 7% and26. 8%.

作者李天彩王波席耀一

机构地区解放军信息工程大学信息系统工程学院

出处《计算机应用研究》 CSCD 北大核心 2016年第4期997-1002,共6页 Application Research of Computers

基金国家"863"计划资助项目(2011AA7032030D) 国家社会科学基金资助项目(14BXW028)

关键词会话抽取短文本短文本信息流词向量聊天记录 conversation extraction short text message short text message stream word vectors chart log

分类号 TP391.1 [自动化与计算机技术—计算机应用技术]

引文网络
相关文献

参考文献23

1中国互联网络发展状况统计报告[R].2014.
2Ding Yuxin, Meng Xuejun, Chai Guangren, et al. User identification for instant messages[C] //Proc of International Conference on Neural Information Processing. 2011:11-13.
3Kse C, zyurt O, Ikibas C. A comparison of textual data mining methods for sex identification in chat conversations[C] //Proc of the 4th Asia Conference on Information Retrieval Technology. 2008:638-643.
4Shen Dou, Yang Qiang, Sun Jiantao, et al. Thread detection in dynamic text message streams[C] //Proc of the 29th Annual Internatio-nal ACMSIGIR Conference on Research and Development in Information Retrieval. New York:ACM Press, 2006:35-42.
5夏云庆,黄锦辉,张普.中文网络聊天语言的奇异性与动态性研究[J].中文信息学报,2007,21(3):83-91. 被引量：8
6Zhang Yaoshun, Zhag Zhiyong. MapReduce-based approach on short text conversation clustering[J] . Journal of Computational Information Systems, 2014, 10(8):3511-3521.
7黄九鸣,吴泉源,刘春阳,张旭,贾焰,周斌.短文本信息流的无监督会话抽取技术[J].软件学报,2012,23(4):735-747. 被引量：19
8田野,王文东,饶京海,王冠,郭亮,陈灿峰,马建.短信息的会话检测及组织[J].软件学报,2012,23(10):2586-2599. 被引量：3
9Wang Hao, Lu Zhengdong, Li Hang, et al. A dataset for research on short-text conversation[C] //Proc of Conference on Empirical Methods in Natural Language Processing. 2013:935-945.
10Dasclu M, Dobre C, Trusan-Matu, et al. Beyond traditional NLP:a distributed solution for optimizing chat processing[C] //Proc of the 10th International Symposium on Parallel and Distributed Computing. 2011:133-138.

二级参考文献51

1梁书杰.对网络语言规范的探讨[J].高教论坛,2005(6):191-193. 被引量：10
2李艳,韩金龙.IRC——聊天室非语言交际研究[J].外语电化教学,2003(6):7-11. 被引量：9
3王登文,吴晓云.英汉网络语言语用探析[J].文教资料,2006(27):177-178. 被引量：1
4王鸿雁.汉语网络语言变体探析[J].社科纵横,2005,20(2):156-158. 被引量：5
5贾自艳,何清,张海俊,李嘉佑,史忠植.一种基于动态进化模型的事件探测和追踪算法[J].计算机研究与发展,2004,41(7):1273-1280. 被引量：58
6李梅.谈网络语言的语词类型、特点及规范[J].中华女子学院山东分院学报,2004(3):48-50. 被引量：17
7马静.语言学视野中的网络语言[J].西北工业大学学报（社会科学版）,2002,22(1):52-56. 被引量：22
8祁伟.试论社会流行语和网络语言[J].语言与翻译,2002(3):18-22. 被引量：87
9冯念,冯广艺.网络词语的谐音及规范问题[J].海南师范学院学报（社会科学版）,2005,18(1):138-139. 被引量：11
10袁星新.试论网络语言的基本特点[J].现代语文（理论研究）,2005(12):20-23. 被引量：5

共引文献46

1张全,袁毅.基于汉语字义基元化的新词处理分析[J].微计算机应用,2010,31(3):63-66.
2张瑛,张娅婷.动态文本会话抽取技术研究[J].电视技术,2011,35(11):84-87.
3黄九鸣,吴泉源,刘春阳,张旭,贾焰,周斌.短文本信息流的无监督会话抽取技术[J].软件学报,2012,23(4):735-747. 被引量：19
4刘金岭,王新功,周泓.基于手机短信信息流的热点事件识别[J].计算机应用与软件,2012,29(10):200-204. 被引量：3
5冷伏海,白如江,祝清松.面向科技文献的混合语义信息抽取方法研究[J].图书情报工作,2013,57(11):112-119. 被引量：27
6刘金岭,王新功,周泓.基于短信文本信息流的多热点事件挖掘[J].山东大学学报（工学版）,2013,43(3):7-12. 被引量：6
7湛燕,陈昊.基于主题本体扩展特征的短文本分类[J].河北大学学报（自然科学版）,2014,34(3):307-311. 被引量：4
8苗培,贾代平,石慧.浅谈企业云计算化与实施方案[J].计算机安全,2014(9):56-58. 被引量：1
9陈凤娟.大数据时代图书馆的新媒体营销策略[J].图书馆学刊,2014,36(11):24-26. 被引量：7
10周雪妍,杨静,林泽鸿,吉亚力.基于标题聚类的论坛舆论领袖发现算法[J].计算机工程与设计,2014,35(12):4316-4319. 被引量：3

同被引文献8

1夏云庆,黄锦辉,张普.中文网络聊天语言的奇异性与动态性研究[J].中文信息学报,2007,21(3):83-91. 被引量：8
2严本道,高峰.电子聊天记录的法律定位及证据效力研究[J].山东警察学院学报,2011,23(5):32-37. 被引量：7
3邱云飞,王威,刘大有,邵良杉.基于方差的CHI特征选择方法[J].计算机应用研究,2012,29(4):1304-1306. 被引量：30
4黄九鸣,吴泉源,刘春阳,张旭,贾焰,周斌.短文本信息流的无监督会话抽取技术[J].软件学报,2012,23(4):735-747. 被引量：19
5薛丽敏,李忠,蓝湾湾.基于在线学习RBFNN的网络安全态势预测技术研究[J].信息网络安全,2016(4):23-30. 被引量：11
6尚海,罗森林,韩磊,张笈.基于句义成分的短文本表示方法研究[J].信息网络安全,2016(5):64-70. 被引量：6
7姜凤燕,姜瑾,姜吉婷.基于大数据环境的电子取证研究[J].信息网络安全,2016(9):60-63. 被引量：7
8任浩,罗森林,潘丽敏,高君丰.基于图结构的文本表示方法研究[J].信息网络安全,2017(3):46-52. 被引量：5

引证文献2

1王媛媛,范潮钦,苏玉海.面向聊天记录的语义分析研究[J].信息网络安全,2017(9):89-92. 被引量：3
2吴旭,陈春旭.基于多策略的群聊话题检测技术[J].数据分析与知识发现,2021,5(5):1-9. 被引量：2

二级引证文献5

1孙施宁,赵广晔.基于模式匹配的聊天记录涉案信息分析方法[J].辽宁警察学院学报,2019,21(1):64-69.
2周园林,邵国林.基于群聊文本的分类研究[J].现代计算机,2019,25(8):22-28. 被引量：1
3李沛哲,张征,王燕舞,陈虹,秦肖臻.基于线上教学群聊文本的问句抽取模型[J].中国教育信息化,2022,28(1):70-77.
4蔡云戈,范永胜,冯骥.居民社区在线聊天热点话题的情感分析研究[J].计算机技术与发展,2023,33(5):42-48.
5翟菊叶,叶泽坤.面向地域流动的在线热点话题演化检测方法[J].情报杂志,2023,42(10):105-113.

1黄九鸣,吴泉源,刘春阳,张旭,贾焰,周斌.短文本信息流的无监督会话抽取技术[J].软件学报,2012,23(4):735-747. 被引量：19
2马慧芳,姚伟,贾美惠子,崔彤.融合用户兴趣模型与会话抽取的微博推荐方法[J].计算机应用研究,2015,32(9):2724-2728. 被引量：2
3周泓,刘金岭,王新功.基于短文本信息流的回顾式话题识别模型[J].中文信息学报,2015,29(1):111-117. 被引量：3
4李天彩,刘欣,王波,席耀一,王晓雯.短文本信息流中的用户建模与应用[J].信息工程大学学报,2016,17(2):225-230. 被引量：1
5张瑛,张娅婷.动态文本会话抽取技术研究[J].电视技术,2011,35(11):84-87.
6宗慧,刘金岭.基于短文本信息流的热点话题检测[J].数据采集与处理,2015,30(2):464-468. 被引量：4
7王宗尧,刘金岭,崔俊峰,王敏.基于CRF模型的短文本信息流话题提取[J].淮阴工学院学报,2016,25(5):6-9. 被引量：2
8刘金岭,王新功,周泓.基于短信文本信息流的多热点事件挖掘[J].山东大学学报（工学版）,2013,43(3):7-12. 被引量：6
9孙曰昕,马慧芳,姚伟,张志昌.结合互信息和主题模型的微博话题发现方法[J].计算机工程与应用,2016,52(6):61-66. 被引量：5
10冯凌,林杰,雷星晖.Web日志数据挖掘模型研究[J].计算机集成制造系统,2005,11(8):1073-1075. 被引量：8

计算机应用研究

2016年第4期

浏览历史

内容加载中请稍等...

基于多策略的短文本信息流会话抽取被引量：2

参考文献23

二级参考文献51

共引文献46

同被引文献8

引证文献2

二级引证文献5

相关作者

相关机构

相关主题

浏览历史

基于多策略的短文本信息流会话抽取 被引量：2

参考文献23

二级参考文献51

共引文献46

同被引文献8

引证文献2

二级引证文献5

相关作者

相关机构

相关主题

浏览历史

基于多策略的短文本信息流会话抽取被引量：2