网络中存在大量语义相同或者相似的冗余文本,而文本去重能够解决冗余文本浪费存储空间的问题,并能为信息抽取任务减少不必要的消耗。传统的文本去重算法依赖文字重合度信息,而没有较好地利用文本语义信息,同时也无法捕捉长文本中距离较...网络中存在大量语义相同或者相似的冗余文本,而文本去重能够解决冗余文本浪费存储空间的问题,并能为信息抽取任务减少不必要的消耗。传统的文本去重算法依赖文字重合度信息,而没有较好地利用文本语义信息,同时也无法捕捉长文本中距离较远句子之间的交互信息,去重效果不理想。针对文本语义去重问题,提出一种基于关键词图表示的长文本去重算法。首先,通过抽取文本对中的语义关键词短语,将文本对表示为以关键词短语为节点的图;其次,通过多种方式对节点进行编码,并利用图注意力网络(GAT)学习节点之间的关系,从而得到文本对图的向量表示,并判断文本对是否语义相似;最后,根据文本对的语义相似度进行去重处理。与传统算法相比,所提算法能有效利用文本的语义信息,并能通过图结构将长文本中距离较远的句子用关键词短语的共现关系连接起来,从而增加不同句子之间的语义交互。实验结果表明,所提算法在两个公开数据集CNSE(Chinese News Same Event)和CNSS(Chinese News Same Story)上都取得了比Simhash、BERT(Bidirectional Encoder Representations from Transformers)微调、概念交互图(CIG)等传统算法更好的表现。具体地,所提算法在CNSE数据集上的F1值达到84.65%,在CNSS数据集上的F1值达到90.76%,说明所提算法可以有效提升文本去重任务的效果。展开更多
网络暴力识别与多维度分析对网络舆情态势感知和管控具有十分重要的意义,当前的网络暴力研究主要集中在用户负面情感分析、舆情危机治理及外部网络生态优化等方面,缺乏对网络暴力的定量分析研究,无法在复杂的网络环境中及时感知网络暴...网络暴力识别与多维度分析对网络舆情态势感知和管控具有十分重要的意义,当前的网络暴力研究主要集中在用户负面情感分析、舆情危机治理及外部网络生态优化等方面,缺乏对网络暴力的定量分析研究,无法在复杂的网络环境中及时感知网络暴力发展态势和组成结构。通过分析网络暴力在文本中的存在形式和结构特征,提出了一种基于文本语义的网络暴力分析方法(text semantic based approach for cyber violence analysis,TSCA)。该方法首先运用互信息理论创建暴力领域情感词典,根据暴力领域情感词典和语义环境从评论语料库中生成负面情感词组集;然后,通过卡方检验对负面情感词组集进行暴力特征筛选,生词暴力词组集;最后,从文本和用户角度对网络暴力进行定量计算和多维度分析。在真实的网络热点事件评论文本数据集上与其他方法进行了对比,实验结果表明:该方法达到了良好的网络暴力特征识别效果。展开更多
文摘网络中存在大量语义相同或者相似的冗余文本,而文本去重能够解决冗余文本浪费存储空间的问题,并能为信息抽取任务减少不必要的消耗。传统的文本去重算法依赖文字重合度信息,而没有较好地利用文本语义信息,同时也无法捕捉长文本中距离较远句子之间的交互信息,去重效果不理想。针对文本语义去重问题,提出一种基于关键词图表示的长文本去重算法。首先,通过抽取文本对中的语义关键词短语,将文本对表示为以关键词短语为节点的图;其次,通过多种方式对节点进行编码,并利用图注意力网络(GAT)学习节点之间的关系,从而得到文本对图的向量表示,并判断文本对是否语义相似;最后,根据文本对的语义相似度进行去重处理。与传统算法相比,所提算法能有效利用文本的语义信息,并能通过图结构将长文本中距离较远的句子用关键词短语的共现关系连接起来,从而增加不同句子之间的语义交互。实验结果表明,所提算法在两个公开数据集CNSE(Chinese News Same Event)和CNSS(Chinese News Same Story)上都取得了比Simhash、BERT(Bidirectional Encoder Representations from Transformers)微调、概念交互图(CIG)等传统算法更好的表现。具体地,所提算法在CNSE数据集上的F1值达到84.65%,在CNSS数据集上的F1值达到90.76%,说明所提算法可以有效提升文本去重任务的效果。
文摘网络暴力识别与多维度分析对网络舆情态势感知和管控具有十分重要的意义,当前的网络暴力研究主要集中在用户负面情感分析、舆情危机治理及外部网络生态优化等方面,缺乏对网络暴力的定量分析研究,无法在复杂的网络环境中及时感知网络暴力发展态势和组成结构。通过分析网络暴力在文本中的存在形式和结构特征,提出了一种基于文本语义的网络暴力分析方法(text semantic based approach for cyber violence analysis,TSCA)。该方法首先运用互信息理论创建暴力领域情感词典,根据暴力领域情感词典和语义环境从评论语料库中生成负面情感词组集;然后,通过卡方检验对负面情感词组集进行暴力特征筛选,生词暴力词组集;最后,从文本和用户角度对网络暴力进行定量计算和多维度分析。在真实的网络热点事件评论文本数据集上与其他方法进行了对比,实验结果表明:该方法达到了良好的网络暴力特征识别效果。