期刊文献+
共找到3篇文章
< 1 >
每页显示 20 50 100
基于SGC-LDA模型的财经文本主题研究 被引量:1
1
作者 傅魁 鲁冬 覃桂双 《计算机工程与应用》 CSCD 北大核心 2022年第15期285-293,共9页
传统财经领域研究通常关注结构化数据,较少关注非结构化的财经类文本数据,并且财经文本数据蕴含的信息量巨大。针对上述问题,提出SGC-LDA(sliding-window,genetic factor and common financial topic LDA)财经文本主题研究方法。基于通... 传统财经领域研究通常关注结构化数据,较少关注非结构化的财经类文本数据,并且财经文本数据蕴含的信息量巨大。针对上述问题,提出SGC-LDA(sliding-window,genetic factor and common financial topic LDA)财经文本主题研究方法。基于通用财经主题的文本噪声过滤建模,以降低噪声数据的影响;基于滑动窗口技术,同时引入财经遗传因子,保证主题的连续性;完成能够实现财经文本主题模型的SGC-LDA算法。基于真实财经文本的实证研究表明,财经文本主题主要由投资理财、民生时事、商业动态、金融市场、宏观经济、产业经济六个主要部分组成;结合财经主题特征词和财经文本对财经主题的扩充,能够更完整准确地描述其财经主题。同时模型本身表现出一定的去噪能力,且与基准模型的对比分析,也证实了所提出模型在财经主题建模方面优越的分类性能和主题连续性。 展开更多
关键词 LDA模型 噪声过滤 遗传因子 财经文本 主题建模
下载PDF
基于SGC-LDA的微博用户兴趣主题演化研究 被引量:1
2
作者 傅魁 丁健 覃桂双 《北京邮电大学学报(社会科学版)》 2021年第4期28-41,共14页
针对传统的用户兴趣主题模型存在非动态、噪声性、计算复杂度高和兴趣演化分析维度单一等问题,基于滑动窗口技术,引入兴趣主题遗传因子保持主题连续性,并定义用于捕获通用语义和噪声干扰词的兴趣通用主题。提出了SGC-LDA(sliding-window... 针对传统的用户兴趣主题模型存在非动态、噪声性、计算复杂度高和兴趣演化分析维度单一等问题,基于滑动窗口技术,引入兴趣主题遗传因子保持主题连续性,并定义用于捕获通用语义和噪声干扰词的兴趣通用主题。提出了SGC-LDA(sliding-window,genetic factor and common topic-latent dirichlet allocation)用户兴趣主题模型,并根据该模型对数据集进行主题演化分析,从兴趣主题强度、兴趣主题状态和兴趣主题路径三个维度分析用户的兴趣偏好及演化规律。运用新浪微博语料文本进行实证分析,结果表明,SGC-LDA用户兴趣主题模型优于传统的LDA主题模型,可以准确描述用户兴趣演化规律,漏报率、误报率以及归一化开销均低于未进行主题关联过滤的基准(Baseline)方法,从而证明了模型的有效性。 展开更多
关键词 用户兴趣 主题演化 隐狄利克雷分配模型 演化关系 微博
下载PDF
基于Nutch的多源社交媒体情报采集系统 被引量:1
3
作者 傅魁 覃桂双 《北京邮电大学学报(社会科学版)》 2019年第5期85-92,共8页
以新闻、论坛、贴吧、微博等互联网社交媒体平台为研究对象,在对各平台进行领域建模、情报采集流程设计以及采集内容解析的基础上,设计了基于网络抓取开源工具Nutch的通用采集系统。根据各平台特点,分别将分类排名、分块解析、模拟登录... 以新闻、论坛、贴吧、微博等互联网社交媒体平台为研究对象,在对各平台进行领域建模、情报采集流程设计以及采集内容解析的基础上,设计了基于网络抓取开源工具Nutch的通用采集系统。根据各平台特点,分别将分类排名、分块解析、模拟登录方法应用于新闻、论坛贴吧、微博的采集工作中,以提高系统的通用性和性价比,实现对多源社交媒体情报的高效采集。 展开更多
关键词 NUTCH 社交媒体情报 多源情报采集 内容解析 模拟登录
下载PDF
上一页 1 下一页 到第
使用帮助 返回顶部