期刊文献+
共找到2篇文章
< 1 >
每页显示 20 50 100
基于多策略的新浪微博大数据抓取及应用 被引量:16
1
作者 孙晓 叶嘉麒 +1 位作者 唐陈意 任福继 《合肥工业大学学报(自然科学版)》 CAS CSCD 北大核心 2014年第10期1210-1215,共6页
微博数据处理属于大数据范畴,其前提是获取大量的微博数据,而由于商业利益以及安全方面的考虑,获取微博数据的途径越来越少。同时随着新浪官方API的逐步更新,数据获取的限制也日益增加。文章尝试利用现有资源,基于多策略获取机制,设计... 微博数据处理属于大数据范畴,其前提是获取大量的微博数据,而由于商业利益以及安全方面的考虑,获取微博数据的途径越来越少。同时随着新浪官方API的逐步更新,数据获取的限制也日益增加。文章尝试利用现有资源,基于多策略获取机制,设计出可稳定获得新浪微博数据的挖掘方案,并给出情感分析应用实例。实验表明,所设计的挖掘方案可以根据需要获取微博上的数据,并可以应用于微博情感分析中。 展开更多
关键词 新浪微博API 大数据 数据挖掘 网络爬虫 多策略
下载PDF
基于重复字串的微博新词非监督自动抽取 被引量:4
2
作者 孙晓 李承程 +1 位作者 叶嘉麒 任福继 《合肥工业大学学报(自然科学版)》 CAS CSCD 北大核心 2014年第6期674-678,724,共6页
文章基于重复字串的统计特征,同时分析微博中存在的口语化语言特点制定相应的语言规则,采用统计和规则相结合的方法,首先对微博的语料进行分词,然后从分词碎片中提取重复出现2次及2次以上的新词,通过多层过滤,得到最终的候选新词。实验... 文章基于重复字串的统计特征,同时分析微博中存在的口语化语言特点制定相应的语言规则,采用统计和规则相结合的方法,首先对微博的语料进行分词,然后从分词碎片中提取重复出现2次及2次以上的新词,通过多层过滤,得到最终的候选新词。实验结果证明,该方法有效地保证了较高的准确率和召回率,同时保证了新词的抽取速度。 展开更多
关键词 自然语言处理 中文分词 重复字串 分词碎片
下载PDF
上一页 1 下一页 到第
使用帮助 返回顶部