期刊文献+

基于Python爬虫技术和LDA模型的短文本获取技术分析 被引量:6

下载PDF
导出
摘要 从互联网短文本数据中获取与提取出有价值的信息是目前机器学习研究的热点。在本研究中,以某网站中关于"规划投资"新闻标题的短文本数据作为研究对象。首先基于Python实现了数据爬取,然后基于LDA模型对短文本数据文件实施主题提取,生成规划投资主题聚类,将数据由无序变为有序,由模糊变得准确,最终实现获得有价值信息的目标。
出处 《电大理工》 2019年第3期1-3,11,共4页 Study of Science and Engineering at RTVU.
  • 相关文献

参考文献3

二级参考文献21

  • 1Bourigault D.Surface Grammatical Analysis for the Extraction of Terminological Noun Phrases[C]//Proceedings of COLING' 92.1992:977-981
  • 2Pantel P,Lin D.A Statistical Corpora-based Term Extractor[C] //Lecture Notes in Artificial Intelligence.Springer,Verlag,2001:34-46
  • 3Frantzi K T,Ananiadou S,Mima H.Automatic Recognition of Multi-word terms:the C-value/NC-value Method[J].International Journal on Digital Libraries,2000,3(2):115-130
  • 4Kageura K,Umino B.Methods of Automatic Term Recognition:A Review[J].Terminology,1996,3(2):259-289
  • 5刘桐菊,于浩,杨沐昀.基于TFIDF的专业领域词汇获取的研究[C]//第一届学生计算语言学研讨会论文集.2002
  • 6张普.信息领域汉语术语的特征及其在语料中的分布规律.语言教学与研究,2001,.
  • 7Swanson DR. Undiscovered public knowledge [J]. Library Quarterly, 1986, (56) : 103-118.
  • 8Torvik VI,Smalheiser NR. A quantitative model for linking two disparate sets of articles in Medline [J]. Bioinformaties, 2007,23(13) : 1658-1665.
  • 9Arrowsmith [EB/OL]. http://arrowsmith.psych.uic.edu/arrowsmith_uic/index.html, 2008-12-31.
  • 10MEDLINE Stopwords [EB/OL]. http://kiwi.uchicago.edu/ stopwords_pubmed, 2008-12-31.

共引文献605

同被引文献67

引证文献6

二级引证文献9

相关作者

内容加载中请稍等...

相关机构

内容加载中请稍等...

相关主题

内容加载中请稍等...

浏览历史

内容加载中请稍等...
;
使用帮助 返回顶部