在社交网络和网上论坛中,每时每刻都有新的信息在发布。如何利用金融知识图谱从这些非正式文本中及时准确的识别其中的金融实体,捕捉关键信息并辅助投资决策是人们关心的问题。本文研究了如何从Reddit网络论坛获得实时的金融讨论文本数...在社交网络和网上论坛中,每时每刻都有新的信息在发布。如何利用金融知识图谱从这些非正式文本中及时准确的识别其中的金融实体,捕捉关键信息并辅助投资决策是人们关心的问题。本文研究了如何从Reddit网络论坛获得实时的金融讨论文本数据,通过实体识别模型,识别文本中蕴含的金融实体。针对互联网非正式文本存在着大量的不规范文本,包括名称缩写、简写、拼写错误等,我们构建了一个包含实体别名、简写与常见错误拼写的金融知识图谱,并训练了一个Albert(small)-CRF fine tune模型。在试验测试中,其模型的准确率,召回率都优于基准对比模型。另外模型的推断速度达到了5129 QPS(quest per second),提升了金融实体识别的实时性,有利于快速找到金融决策信息。展开更多
文摘在社交网络和网上论坛中,每时每刻都有新的信息在发布。如何利用金融知识图谱从这些非正式文本中及时准确的识别其中的金融实体,捕捉关键信息并辅助投资决策是人们关心的问题。本文研究了如何从Reddit网络论坛获得实时的金融讨论文本数据,通过实体识别模型,识别文本中蕴含的金融实体。针对互联网非正式文本存在着大量的不规范文本,包括名称缩写、简写、拼写错误等,我们构建了一个包含实体别名、简写与常见错误拼写的金融知识图谱,并训练了一个Albert(small)-CRF fine tune模型。在试验测试中,其模型的准确率,召回率都优于基准对比模型。另外模型的推断速度达到了5129 QPS(quest per second),提升了金融实体识别的实时性,有利于快速找到金融决策信息。