社交媒体是股市投资者获取金融信息的重要来源,其中携带的情感等信号与股价走势关系密切.但社交媒体信息表达随意,口语化严重,长度较短且语义密度低,使得基于情感词典的传统文本分析方法存在损失有价值词汇的风险.近期Fan et al.(2021)...社交媒体是股市投资者获取金融信息的重要来源,其中携带的情感等信号与股价走势关系密切.但社交媒体信息表达随意,口语化严重,长度较短且语义密度低,使得基于情感词典的传统文本分析方法存在损失有价值词汇的风险.近期Fan et al.(2021)提出的分步降维框架试图通过充分利用文本本身的语义特征以提升关键信息抽取的精准性.本文将这一框架扩展至社交媒体情景,以系统探索东方财富网股吧短文本是否为个股价格走势提供有效的前导信息.具体而言,首先使用主成分分析方法提取文本中的公共因子,继而对残差矩阵依次实施变量扫描进一步过滤信息,再采用Lasso回归构建预测模型,从而在实现降维的基础上,更大程度地挖掘文本中蕴含的面向个股的独特价值语义.结果表明该框架能够较好地从股吧短文本中抽取预测个股收益的信息.此外,其识别出的具备预测能力的词汇集合也体现了社交媒体短文本不同于其他金融文本的特点,且与传统的金融情感词典差异较大.因此,该分步降维框架为分析社交媒体短文本数据提供了新思路.展开更多
文摘社交媒体是股市投资者获取金融信息的重要来源,其中携带的情感等信号与股价走势关系密切.但社交媒体信息表达随意,口语化严重,长度较短且语义密度低,使得基于情感词典的传统文本分析方法存在损失有价值词汇的风险.近期Fan et al.(2021)提出的分步降维框架试图通过充分利用文本本身的语义特征以提升关键信息抽取的精准性.本文将这一框架扩展至社交媒体情景,以系统探索东方财富网股吧短文本是否为个股价格走势提供有效的前导信息.具体而言,首先使用主成分分析方法提取文本中的公共因子,继而对残差矩阵依次实施变量扫描进一步过滤信息,再采用Lasso回归构建预测模型,从而在实现降维的基础上,更大程度地挖掘文本中蕴含的面向个股的独特价值语义.结果表明该框架能够较好地从股吧短文本中抽取预测个股收益的信息.此外,其识别出的具备预测能力的词汇集合也体现了社交媒体短文本不同于其他金融文本的特点,且与传统的金融情感词典差异较大.因此,该分步降维框架为分析社交媒体短文本数据提供了新思路.