统计模型在中文文本挖掘中的应用被引量：14

Applications of Statistical Models in Chinese Text Mining

导出

摘要本文讨论了中文文本挖掘的三个问题:分词、关键词提取和文本分类。对分词问题,介绍了基于层叠隐马尔可夫模型的ICTCLAS分词法,以及将词与词之间的分隔视为缺失数据并用EM算法求解的WDM方法;对关键词提取问题,提出了贝叶斯因子法,并介绍了使用稀疏回归的CCS方法;对文本分类问题,介绍了根据关键词频率建立分类器的方法,以及先建立主题模型再根据主题概率建立分类器的方法。本文通过两组文本数据对上述方法进行比较,并给出使用建议。 This paper discusses three problems in Chinese text mining, including word segmentation, keyword extraction and text classification. For the word segmentation problem, we introduce the ICT- CLAS method that is based on a hierarchical hidden Markov model, and the WDM method that treats the segmentation between words as missing data and uses the EM algorithm to find the solution. For the keyword extraction problem, we propose a method based on Bayes Factor, and introduce the CCS method that uses sparse regression. For the text classification problem, we introduce a method that builds classifiers on keyword frequencies, and another method that first trains topic models and then builds classifiers on topic proportions datasets, and offers suggestions on their This paper then compares the above methods using two text practical use.

作者王健张俊妮

机构地区北京大学光华管理学院

出处《数理统计与管理》 CSSCI 北大核心 2017年第4期609-619,共11页 Journal of Applied Statistics and Management

关键词中文分词关键词提取文本分类贝叶斯因子 L1范数惩罚主题模型 word segmentation, keyword extraction, text classification, Bayes factor, L1 penalization,topic model

分类号 O212 [理学—概率论与数理统计]

引文网络
相关文献

参考文献1

1孔翔宇,毕秀春,张曙光.财经新闻与股市预测——基于数据挖掘技术的实证分析[J].数理统计与管理,2016,35(2):215-224. 被引量：30

二级参考文献17

1Hearst M A. Text data mining: Issues, techniques, and the relationship to information access [R]. Presentation notes for UW/MS workshop on data mining, 1997.
2Landauer T K, McNamara D S, Dennis S, et al. Handbook of latent semantic analysis [B]. Lawrence Erlbaum, 2007. Cortes C, Vapnik V. Support-vector networks [J]. Machine Learning, 1995, 20: 273-297.
3Blei D M, Ng A Y, Jordan M I. Latent Dirichlet allocation [J]. The Journal of Machine Learning Research, 2003, 3:993 1022.
4Wuthrich B, Permunetilleke D, Leung S, et al. Daily prediction of major stock indices from textual www data [J]. HKIE Transactions, 1998, 5: 151-156.
5Lavrenko V, Schrnill M, Lawrie D, et al. Mining of concurrent text and time series [C]. In KDD-2000 Workshop on Text Mining, 2000, 2000: 37-44.
6Kloptchenko A, Eklund T, Karlsson J, et al. Combining data and text mining techniques for analysing financial reports [J]. Intelligent systems in accounting, finance and management, 2004, 12:29-41.
7Mittermayer M A. Forecasting intraday stock price trends with text mining techniques [C]. Proceed- ings of the 37th Annual Hawaii International Conference on System Sciences, 2004.
8Seo Y W, Giampapa J A, Sycara K. Financial news analysis for intelligent portfolio management [R]. Robotics Institute, 2004..
9Ingvaldsen J E, Gulla J A, Laegreid T, et al. Financial news mining: Monitoring continuous streams of text [C]. Proceedings of IEEE/WIC/ACM International Conference on Web Intelligence, 2006: 321 324.
10Tr'afalis T B, Ince H. Support vector machine for regression and applications to financial forecasting [C]. Proceedings of IEEE-INNS-ENNS International Joint Conference on Neural Networks, 2000, 6: 6348-6348.

共引文献29

1徐维军,付志能,李茂昌,张卫国.基于新闻文本挖掘的股指期货高频预测研究[J].系统科学与数学,2021,41(7):1856-1875. 被引量：2
2田金方,王冬冬,孔雪.投资者关注与概念股异质特征:影响机制与多维测度——基于行为大数据的匹配检验[J].数理统计与管理,2020,39(2):354-367. 被引量：10
3柳青.如何做好财经类新闻采编专业人才培养[J].采写编,2018,0(3):86-87.
4孟雪井,杨亚飞,赵新泉.财经新闻与股市投资策略研究——基于财经网站的文本挖掘[J].投资研究,2016,35(8):29-37. 被引量：7
5陈云松,严飞.网络舆情是否影响股市行情? 基于新浪微博大数据的ARDL模型边限分析[J].社会,2017,37(2):51-73. 被引量：23
6洪亮,李雪思,周莉娜.领域跨越:数据挖掘的应用和发展趋势[J].图书情报知识,2017,34(4):22-32. 被引量：17
7无,王应明,陈可嘉,李艺全,阳成虎.福建省管理工程学科发展报告[J].海峡科学,2017,0(8):69-76.
8贺晓勇,侯冬尽.关于大数据知识库资源信息特征优化检测仿真[J].计算机仿真,2018,35(6):380-383. 被引量：6
9徐翔,靳菁,吕伟欣.网络舆情作为社会传感器对股票指数的影响——基于LDA主题模型的挖掘分析[J].财务与金融,2018,0(6):1-9. 被引量：5
10杨七中,马蓓丽.管理层的“弦外之音”,投资者能听得懂吗?——基于管理层语意的LSTM深度学习研究[J].财经论丛,2019,0(6):63-72. 被引量：7

同被引文献158

1丁晟春,俞沣洋,李真.网络舆情潜在热点主题识别研究[J].数据分析与知识发现,2020,4(2):29-38. 被引量：4
2台钰莹,王乐春,杨东波.元数据标准登记系统平台构建——以文物行业为例[J].图书馆建设,2019,0(S01):15-19. 被引量：4
3周帆,陈晓蝶,钟婷,吴劲.面向金融科技的深度学习技术综述[J].计算机科学,2022,49(S02):20-36. 被引量：2
4侯汉清,黄刚.电子计算机与文献分类[J].现代图书情报技术,1982(1):5-14. 被引量：9
5周钦强,孙炳达,王义.文本自动分类系统文本预处理方法的研究[J].计算机应用研究,2005,22(2):85-86. 被引量：15
6刘刚,张俊,刁常宇.敦煌莫高窟石窟三维数字化技术研究[J].敦煌研究,2005(4):104-109. 被引量：39
7翟凤文,赫枫龄,左万利.字典与统计相结合的中文分词方法[J].小型微型计算机系统,2006,27(9):1766-1771. 被引量：41
8黄昌宁,赵海.中文分词十年回顾[J].中文信息学报,2007,21(3):8-19. 被引量：247
9王运生,谢丙炎,万方浩,肖启明,戴良英.ROC曲线分析在评价入侵物种分布模型中的应用[J].生物多样性,2007,15(4):365-372. 被引量：504
10吴春颖,王士同.基于二元语法的N-最大概率中文粗分模型[J].计算机应用,2007,27(12):2902-2905. 被引量：12

引证文献14

1吴春燕,黄巧梅,刘海清,张捷.文本主要信息的自动获取和主体挖掘[J].信息技术与信息化,2017(3):41-43. 被引量：1
2张学新,郑小乐.基于大数据文本聚类关联的网络招聘信息挖掘[J].咸阳师范学院学报,2017,32(4):60-65.
3杨博文.基于餐饮业网络评论的消费者情感极性分析[J].计算机系统应用,2018,27(8):42-48.
4齐翌辰,王森淼,赵亚慧.基于倒排索引的问答系统的设计与实现[J].教育教学论坛,2018(35):68-69. 被引量：3
5张璐.基于文本挖掘的重庆市旅游评价研究[J].重庆工商大学学报（自然科学版）,2019,36(6):65-72. 被引量：1
6李鲤,吴晔,宋金芳.高职网络营销课程内容改革探索——基于招聘网站有关任职能力的文本分析[J].无锡商业职业技术学院学报,2020,20(1):100-105. 被引量：3
7余本功,张宏梅,曹雨蒙.基于多元特征加权改进的TextRank关键词提取方法[J].数字图书馆论坛,2020,0(3):41-50. 被引量：10
8凤丽洲,杨贵军,徐雪,徐玉慧.基于N-gram的双向匹配中文分词方法[J].数理统计与管理,2020,39(4):633-643. 被引量：12
9杨娟,张远鹏.服装设计知识图谱中的服装装饰工艺分类模型[J].纺织学报,2020,41(8):95-100. 被引量：4
10吴俊,欧阳书凡,李晓华.基于STM和格兰杰因果分析的网络新闻媒体倾向研究[J].系统工程学报,2020,35(4):446-458. 被引量：9

二级引证文献58

1姜宇航,王伟,邹丽芳,王如宾,刘世藩,段雪雷.基于粒子群-变分模态分解、非线性自回归神经网络与门控循环单元的滑坡位移动态预测模型研究[J].岩土力学,2022,43(S01):601-612. 被引量：9
2孙靖然.服装设计中情感表达方式研究与探析[J].化纤与纺织技术,2020,49(9):68-69. 被引量：3
3田丽.情报分析中提取主题信息核心要素的模型及方法[J].计算机与现代化,2018(10):22-25.
4吴俊,邵丹睿,姜尚杨帆.融合语义与情感分析的区块链产业新闻监测研究[J].现代情报,2020,40(11):22-33. 被引量：6
5张峰.水果图案在现代服装设计中的应用研究[J].纺织报告,2020,39(8):75-76.
6张长华.大数据视域下网络招聘数据信息挖掘的研究[J].科学技术创新,2021(10):114-115. 被引量：3
7甄腾飞,熊诗意,罗兹柏.重庆旅游形象的官方宣传与游客感知对比分析[J].内江师范学院学报,2021,36(4):102-109. 被引量：1
8杨志明,张征容,易亮,李宝福.基于智能辨识的配电网运检知识服务应用模型[J].云南电力技术,2021,49(2):45-50. 被引量：1
9谷葆春.基于爬虫的股票涨停板复盘软件的研究与实现[J].现代计算机,2021,27(7):64-68. 被引量：2
10刘双巧,周璐,李彩艳,袁慧敏,张异卓,李昱达,刘锦钢,郑丰杰,孙燕,李宇航.基于SentencePiece的中医学分词模型建模研究[J].世界中医药,2021,16(6):981-985. 被引量：1

1吴小太,吴艳蕾.隐非齐次马尔可夫模型的强大数定律[J].纯粹数学与应用数学,2009,25(3):502-507. 被引量：1
2乐宏昊,谢志远.张量重正化群方法及其应用[J].物理,2017,46(7):424-429. 被引量：2
3刘建宁.数学教学中使用多媒体课件的利与弊[J].黑龙江科技信息,2017(11):169-169.
4Xiaobing Bao Yutong Gong Jiang Deng Shiping Wang Yong Wang.Organic-acid-assisted synthesis of a 3D lasagna-like Fe-N-doped CNTs-G framework： An efficient and stable electrocatalyst for oxygen reduction reactions[J].Nano Research,2017,10(4):1258-1267. 被引量：2

数理统计与管理

2017年第4期

浏览历史

内容加载中请稍等...

统计模型在中文文本挖掘中的应用被引量：14

参考文献1

二级参考文献17

共引文献29

同被引文献158

引证文献14

二级引证文献58

相关作者

相关机构

相关主题

浏览历史

统计模型在中文文本挖掘中的应用 被引量：14

参考文献1

二级参考文献17

共引文献29

同被引文献158

引证文献14

二级引证文献58

相关作者

相关机构

相关主题

浏览历史

统计模型在中文文本挖掘中的应用被引量：14