【目的】从海量的文本数据中挖掘创新主题。【方法】以学术知识图谱数据为基础,根据知识点的"热度"、"新颖度"、"权威度"三维指标,筛选出权重较高的作为创新种子,然后根据知识图谱的路径对创新种子进行...【目的】从海量的文本数据中挖掘创新主题。【方法】以学术知识图谱数据为基础,根据知识点的"热度"、"新颖度"、"权威度"三维指标,筛选出权重较高的作为创新种子,然后根据知识图谱的路径对创新种子进行知识关联计算,计算结果输入一个用大量科技论文数据训练而成的深度学习模型,从而生成创新主题;采用的模型为由双向LSTM层组成的Sequence to Sequence模型。【结果】以人工智能领域内中文科技论文作为实验数据,实验结果表明,模型的挖掘结果经过专家人为判断验证,创新效果平均值为6.52。【局限】目前知识图谱的知识丰富度和关联性有限、用于训练模型的训练集质量和体量还有待于进一步提升。【结论】本文模型实现了从文本数据中挖掘出创新主题,但创新主题识别模型的整体水平仍然需要进一步完善优化。展开更多
文摘【目的】从海量的文本数据中挖掘创新主题。【方法】以学术知识图谱数据为基础,根据知识点的"热度"、"新颖度"、"权威度"三维指标,筛选出权重较高的作为创新种子,然后根据知识图谱的路径对创新种子进行知识关联计算,计算结果输入一个用大量科技论文数据训练而成的深度学习模型,从而生成创新主题;采用的模型为由双向LSTM层组成的Sequence to Sequence模型。【结果】以人工智能领域内中文科技论文作为实验数据,实验结果表明,模型的挖掘结果经过专家人为判断验证,创新效果平均值为6.52。【局限】目前知识图谱的知识丰富度和关联性有限、用于训练模型的训练集质量和体量还有待于进一步提升。【结论】本文模型实现了从文本数据中挖掘出创新主题,但创新主题识别模型的整体水平仍然需要进一步完善优化。