期刊文献+
共找到2篇文章
< 1 >
每页显示 20 50 100
基于汉字固有属性的中文字向量方法研究 被引量:4
1
作者 胡浩 李平 陈凯琪 《中文信息学报》 CSCD 北大核心 2017年第3期32-40,共9页
中文短文本在如今高速发展的互联网应用中变得日趋重要,如何从海量短文本消息中挖掘出有价值的信息,已成为当前中文自然语言处理中非常重要且具有挑战性的课题。然而,采用传统的长文本处理方法进行分析往往得不到很好的效果,其根本原因... 中文短文本在如今高速发展的互联网应用中变得日趋重要,如何从海量短文本消息中挖掘出有价值的信息,已成为当前中文自然语言处理中非常重要且具有挑战性的课题。然而,采用传统的长文本处理方法进行分析往往得不到很好的效果,其根本原因在于中文短文本消息的语法及其语义的稀疏性。基于此,该文提出一种基于汉字笔画属性的中文字向量表示方法,并结合深度学习对短文本消息进行相似性计算。该方法结合中文汉字的构词和拼音属性,将中文汉字映射为一个仅32维的空间向量,最后使用卷积神经网络进行语义提取并进行相似性计算。实验结果表明,与现有的短文本相似性计算方法相比,该方法在算法性能及准确率上均有较大的提高。 展开更多
关键词 短文本 中文字向量 深度学习
下载PDF
EntropyRank:基于主题熵的关键短语提取算法 被引量:1
2
作者 尹红 陈雁 李平 《中文信息学报》 CSCD 北大核心 2019年第11期107-114,共8页
关键短语提取是自然语言处理领域的一个重要子任务,其目的是自动识别出文本中的重要短语,现有方法主要强调词语间相关关系和词语自身影响力会影响关键短语提取效果。考虑到关键短语应准确地表示文档主题这一特点,该文提出一种基于主题... 关键短语提取是自然语言处理领域的一个重要子任务,其目的是自动识别出文本中的重要短语,现有方法主要强调词语间相关关系和词语自身影响力会影响关键短语提取效果。考虑到关键短语应准确地表示文档主题这一特点,该文提出一种基于主题熵的关键短语提取算法。该算法利用隐含狄利克雷分布训练文档和词的主题分布,并结合两个主题分布来表示特定文档下的词主题分布,然后计算词主题分布的信息熵即主题熵来表示词语自身影响力,最后在词共现网络上使用随机游走方法计算每个候选短语的得分。在6个公开数据集上的实验结果表明,与现有的无监督关键短语提取算法相比,该算法在F1指标上能提高2.61%~6.98%。 展开更多
关键词 关键短语提取 随机游走 主题模型 词语影响力
下载PDF
上一页 1 下一页 到第
使用帮助 返回顶部