期刊文献+
共找到3篇文章
< 1 >
每页显示 20 50 100
一种单词移动距离度量下的文档查询方法研究
1
作者 王伟迪 陈珂 +2 位作者 胡天磊 陈刚 寿黎但 《计算机科学与探索》 CSCD 北大核心 2018年第11期1718-1728,共11页
单词移动距离(word mover.s distance,WMD)是最近提出的一种有效的文档相似性度量方式,其融合了Word2Vec词向量表达的语义信息,并依据推土机距离(earth mover.s distance,EMD)计算文档间的距离。然而,单词移动距离存在两个缺陷:第一点... 单词移动距离(word mover.s distance,WMD)是最近提出的一种有效的文档相似性度量方式,其融合了Word2Vec词向量表达的语义信息,并依据推土机距离(earth mover.s distance,EMD)计算文档间的距离。然而,单词移动距离存在两个缺陷:第一点是它采用不够精确的词频来作为单词的权重;第二点是单词移动距离度量下的查询效率很低。为了改善应用单词移动距离时的效果,考虑到单词的重要性而采用TF-IDF(term frequency-inverse document frequency)评分作为单词权重,进而得到一种改进的单词移动距离(TI-WMD)。为了提高单词移动距离度量下的文档查询效率,提出了一种近似的层次化查询方法。首先,依据文档的单词质心向量采用局部敏感哈希为文档集合构建哈希索引。在查询过程中,依据查询文档的单词质心向量和多探寻局部敏感哈希方法获得候选文档集,接着依据文档标签与过滤-细化框架在候选文档集中获得TI-WMD度量下的近似k近邻。在Reuters-21578和20-Newsgroups两个文档数据集上的实验结果表明,相对于WMD与PrefetchPrune方法,TI-WMD与层次化查询在准确性和效率上更具优势。 展开更多
关键词 单词移动距离 推土机距离 局部敏感哈希 近似k近邻 层次化查询
下载PDF
基于键盘距离和依存分析的拼写纠错方法 被引量:1
2
作者 谢文慧 易荣庆 彭涛 《吉林大学学报(理学版)》 CAS CSCD 北大核心 2018年第5期1179-1186,共8页
利用基于键盘距离和依存分析的拼写纠错模型,解决文本输入过程中产生的非词错误.通过综合考虑邻近权值、依存关系权值及词频三部分构造最终的拼写纠错模型,并在Brown语料库、Gutenberg语料库和Inaugural语料库上验证该模型.实验结果表明... 利用基于键盘距离和依存分析的拼写纠错模型,解决文本输入过程中产生的非词错误.通过综合考虑邻近权值、依存关系权值及词频三部分构造最终的拼写纠错模型,并在Brown语料库、Gutenberg语料库和Inaugural语料库上验证该模型.实验结果表明,该模型可有效进行非词纠错. 展开更多
关键词 键盘距离 单词距离 依存分析 SpellKD模型 非词错误
下载PDF
基于单词的源程序相似度度量方法
3
作者 朱红梅 孙未 +1 位作者 王鲁 张亮 《科技广场》 2014年第11期10-16,共7页
为了帮助教师快速准确地识别程序设计类作业中的抄袭现象,本文研究了一种源程序相似度度量方法,根据学生提交的源程序,基于单词统计程序源代码之间的编辑距离和最长公共子序列的长度,计算程序对之间的相似度,通过设定合理的动态阈值,判... 为了帮助教师快速准确地识别程序设计类作业中的抄袭现象,本文研究了一种源程序相似度度量方法,根据学生提交的源程序,基于单词统计程序源代码之间的编辑距离和最长公共子序列的长度,计算程序对之间的相似度,通过设定合理的动态阈值,判断源程序对之间是否存在抄袭。实验结果表明,该方法能够及时有效和准确地识别学生提交的相似源程序。 展开更多
关键词 源程序 相似度 基于单词的编辑距离 基于单词的最长公共子序列
下载PDF
上一页 1 下一页 到第
使用帮助 返回顶部