为实现对网络敏感信息的检测和过滤,提出一种基于确定有穷自动机的改进算法ST-DFA(swift tree DFA)。对传统的DFA过滤算法进行改进,不再依赖敏感信息语料库,只须建立一次敏感信息决策树,即可实现对网络信息的多次过滤;当敏感词语料库发...为实现对网络敏感信息的检测和过滤,提出一种基于确定有穷自动机的改进算法ST-DFA(swift tree DFA)。对传统的DFA过滤算法进行改进,不再依赖敏感信息语料库,只须建立一次敏感信息决策树,即可实现对网络信息的多次过滤;当敏感词语料库发生更新时,可以实现对敏感词的决策树的实时更新。实验结果表明,ST-DFA算法有较高的工作效率,适合当下对互联网敏感信息的检测与过滤。展开更多
针对信息网络(text-based information network)现有研究多基于网络自身信息建模,受限于任务语料规模,只使用任务相关文本进行建模容易产生语义漂移或语义残缺的问题,本文将外部语料引入建模过程中,利用外部语料得到的词向量对建模过程...针对信息网络(text-based information network)现有研究多基于网络自身信息建模,受限于任务语料规模,只使用任务相关文本进行建模容易产生语义漂移或语义残缺的问题,本文将外部语料引入建模过程中,利用外部语料得到的词向量对建模过程进行优化,提出基于外部词向量的网络表示模型NE-EWV(network embeddingbased on external word vectors),从语义特征空间以及结构特征空间两个角度学习特征融合的网络表示。通过实验,在现实网络数据集中对模型有效性进行了验证。实验结果表明,在链接预测任务中的AUC指标,相比只考虑结构特征的模型提升7%~19%,相比考虑结构与文本特征的模型在大部分情况下有1%~12%提升;在节点分类任务中,与基线方法中性能最好的CANE性能相当。证明引入外部词向量作为外部知识能够有效提升网络表示能力。展开更多
文摘为实现对网络敏感信息的检测和过滤,提出一种基于确定有穷自动机的改进算法ST-DFA(swift tree DFA)。对传统的DFA过滤算法进行改进,不再依赖敏感信息语料库,只须建立一次敏感信息决策树,即可实现对网络信息的多次过滤;当敏感词语料库发生更新时,可以实现对敏感词的决策树的实时更新。实验结果表明,ST-DFA算法有较高的工作效率,适合当下对互联网敏感信息的检测与过滤。
文摘针对信息网络(text-based information network)现有研究多基于网络自身信息建模,受限于任务语料规模,只使用任务相关文本进行建模容易产生语义漂移或语义残缺的问题,本文将外部语料引入建模过程中,利用外部语料得到的词向量对建模过程进行优化,提出基于外部词向量的网络表示模型NE-EWV(network embeddingbased on external word vectors),从语义特征空间以及结构特征空间两个角度学习特征融合的网络表示。通过实验,在现实网络数据集中对模型有效性进行了验证。实验结果表明,在链接预测任务中的AUC指标,相比只考虑结构特征的模型提升7%~19%,相比考虑结构与文本特征的模型在大部分情况下有1%~12%提升;在节点分类任务中,与基线方法中性能最好的CANE性能相当。证明引入外部词向量作为外部知识能够有效提升网络表示能力。