期刊导航
期刊开放获取
河南省图书馆
退出
期刊文献
+
任意字段
题名或关键词
题名
关键词
文摘
作者
第一作者
机构
刊名
分类号
参考文献
作者简介
基金资助
栏目信息
任意字段
题名或关键词
题名
关键词
文摘
作者
第一作者
机构
刊名
分类号
参考文献
作者简介
基金资助
栏目信息
检索
高级检索
期刊导航
共找到
3
篇文章
<
1
>
每页显示
20
50
100
已选择
0
条
导出题录
引用分析
参考文献
引证文献
统计分析
检索结果
已选文献
显示方式:
文摘
详细
列表
相关度排序
被引量排序
时效性排序
一种单词移动距离度量下的文档查询方法研究
1
作者
王伟迪
陈珂
+2 位作者
胡天磊
陈刚
寿黎但
《计算机科学与探索》
CSCD
北大核心
2018年第11期1718-1728,共11页
单词移动距离(word mover.s distance,WMD)是最近提出的一种有效的文档相似性度量方式,其融合了Word2Vec词向量表达的语义信息,并依据推土机距离(earth mover.s distance,EMD)计算文档间的距离。然而,单词移动距离存在两个缺陷:第一点...
单词移动距离(word mover.s distance,WMD)是最近提出的一种有效的文档相似性度量方式,其融合了Word2Vec词向量表达的语义信息,并依据推土机距离(earth mover.s distance,EMD)计算文档间的距离。然而,单词移动距离存在两个缺陷:第一点是它采用不够精确的词频来作为单词的权重;第二点是单词移动距离度量下的查询效率很低。为了改善应用单词移动距离时的效果,考虑到单词的重要性而采用TF-IDF(term frequency-inverse document frequency)评分作为单词权重,进而得到一种改进的单词移动距离(TI-WMD)。为了提高单词移动距离度量下的文档查询效率,提出了一种近似的层次化查询方法。首先,依据文档的单词质心向量采用局部敏感哈希为文档集合构建哈希索引。在查询过程中,依据查询文档的单词质心向量和多探寻局部敏感哈希方法获得候选文档集,接着依据文档标签与过滤-细化框架在候选文档集中获得TI-WMD度量下的近似k近邻。在Reuters-21578和20-Newsgroups两个文档数据集上的实验结果表明,相对于WMD与PrefetchPrune方法,TI-WMD与层次化查询在准确性和效率上更具优势。
展开更多
关键词
单词
移动
距离
推土机
距离
局部敏感哈希
近似k近邻
层次化查询
下载PDF
职称材料
基于键盘距离和依存分析的拼写纠错方法
被引量:
1
2
作者
谢文慧
易荣庆
彭涛
《吉林大学学报(理学版)》
CAS
CSCD
北大核心
2018年第5期1179-1186,共8页
利用基于键盘距离和依存分析的拼写纠错模型,解决文本输入过程中产生的非词错误.通过综合考虑邻近权值、依存关系权值及词频三部分构造最终的拼写纠错模型,并在Brown语料库、Gutenberg语料库和Inaugural语料库上验证该模型.实验结果表明...
利用基于键盘距离和依存分析的拼写纠错模型,解决文本输入过程中产生的非词错误.通过综合考虑邻近权值、依存关系权值及词频三部分构造最终的拼写纠错模型,并在Brown语料库、Gutenberg语料库和Inaugural语料库上验证该模型.实验结果表明,该模型可有效进行非词纠错.
展开更多
关键词
键盘
距离
单词距离
依存分析
SpellKD模型
非词错误
下载PDF
职称材料
基于单词的源程序相似度度量方法
3
作者
朱红梅
孙未
+1 位作者
王鲁
张亮
《科技广场》
2014年第11期10-16,共7页
为了帮助教师快速准确地识别程序设计类作业中的抄袭现象,本文研究了一种源程序相似度度量方法,根据学生提交的源程序,基于单词统计程序源代码之间的编辑距离和最长公共子序列的长度,计算程序对之间的相似度,通过设定合理的动态阈值,判...
为了帮助教师快速准确地识别程序设计类作业中的抄袭现象,本文研究了一种源程序相似度度量方法,根据学生提交的源程序,基于单词统计程序源代码之间的编辑距离和最长公共子序列的长度,计算程序对之间的相似度,通过设定合理的动态阈值,判断源程序对之间是否存在抄袭。实验结果表明,该方法能够及时有效和准确地识别学生提交的相似源程序。
展开更多
关键词
源程序
相似度
基于
单词
的编辑
距离
基于
单词
的最长公共子序列
下载PDF
职称材料
题名
一种单词移动距离度量下的文档查询方法研究
1
作者
王伟迪
陈珂
胡天磊
陈刚
寿黎但
机构
浙江大学计算机科学与技术学院
出处
《计算机科学与探索》
CSCD
北大核心
2018年第11期1718-1728,共11页
基金
国家重点基础研究发展计划No.2015CB352400
国家自然科学基金Nos.61672455
+1 种基金
61472348
浙江省基础公益研究项目No.LY18F020005~~
文摘
单词移动距离(word mover.s distance,WMD)是最近提出的一种有效的文档相似性度量方式,其融合了Word2Vec词向量表达的语义信息,并依据推土机距离(earth mover.s distance,EMD)计算文档间的距离。然而,单词移动距离存在两个缺陷:第一点是它采用不够精确的词频来作为单词的权重;第二点是单词移动距离度量下的查询效率很低。为了改善应用单词移动距离时的效果,考虑到单词的重要性而采用TF-IDF(term frequency-inverse document frequency)评分作为单词权重,进而得到一种改进的单词移动距离(TI-WMD)。为了提高单词移动距离度量下的文档查询效率,提出了一种近似的层次化查询方法。首先,依据文档的单词质心向量采用局部敏感哈希为文档集合构建哈希索引。在查询过程中,依据查询文档的单词质心向量和多探寻局部敏感哈希方法获得候选文档集,接着依据文档标签与过滤-细化框架在候选文档集中获得TI-WMD度量下的近似k近邻。在Reuters-21578和20-Newsgroups两个文档数据集上的实验结果表明,相对于WMD与PrefetchPrune方法,TI-WMD与层次化查询在准确性和效率上更具优势。
关键词
单词
移动
距离
推土机
距离
局部敏感哈希
近似k近邻
层次化查询
Keywords
word mover's distance
earth mover's distance
locality-sensitive Hashing
approximate k nearest neighbor
hierarchical query
分类号
TP311 [自动化与计算机技术—计算机软件与理论]
下载PDF
职称材料
题名
基于键盘距离和依存分析的拼写纠错方法
被引量:
1
2
作者
谢文慧
易荣庆
彭涛
机构
吉林大学计算机科学与技术学院
国网吉林省电力有限公司
吉林大学符号计算与知识工程教育部重点实验室
出处
《吉林大学学报(理学版)》
CAS
CSCD
北大核心
2018年第5期1179-1186,共8页
基金
国家自然科学基金(批准号:60903098)
吉林省发改委产业技术研究与开发专项基金(批准号:2015Y055)
吉林省科技厅重点科技攻关项目(批准号:20150204040GX)
文摘
利用基于键盘距离和依存分析的拼写纠错模型,解决文本输入过程中产生的非词错误.通过综合考虑邻近权值、依存关系权值及词频三部分构造最终的拼写纠错模型,并在Brown语料库、Gutenberg语料库和Inaugural语料库上验证该模型.实验结果表明,该模型可有效进行非词纠错.
关键词
键盘
距离
单词距离
依存分析
SpellKD模型
非词错误
Keywords
keyboard distance
word distance
dependency parsing
SpellKD model
non-word error
分类号
TP391 [自动化与计算机技术—计算机应用技术]
下载PDF
职称材料
题名
基于单词的源程序相似度度量方法
3
作者
朱红梅
孙未
王鲁
张亮
机构
山东农业大学信息科学与工程学院
出处
《科技广场》
2014年第11期10-16,共7页
基金
山东省国际科技合作项目<大规模本体的模块化方法与技术及其应用合作研究>
山东省教育厅研究生教育创新计划项目(编号:SDYY13116)
+1 种基金
山东学位与研究生教育学会研究生教育管理科研项目(编号:sdxh12b51)
山东省科技发展计划(编号:2013GNC21006)
文摘
为了帮助教师快速准确地识别程序设计类作业中的抄袭现象,本文研究了一种源程序相似度度量方法,根据学生提交的源程序,基于单词统计程序源代码之间的编辑距离和最长公共子序列的长度,计算程序对之间的相似度,通过设定合理的动态阈值,判断源程序对之间是否存在抄袭。实验结果表明,该方法能够及时有效和准确地识别学生提交的相似源程序。
关键词
源程序
相似度
基于
单词
的编辑
距离
基于
单词
的最长公共子序列
Keywords
Source Program
Similarity
Word-Based Editing Distance
Word-Based Longest Common Sub-sequence
分类号
TP301 [自动化与计算机技术—计算机系统结构]
下载PDF
职称材料
题名
作者
出处
发文年
被引量
操作
1
一种单词移动距离度量下的文档查询方法研究
王伟迪
陈珂
胡天磊
陈刚
寿黎但
《计算机科学与探索》
CSCD
北大核心
2018
0
下载PDF
职称材料
2
基于键盘距离和依存分析的拼写纠错方法
谢文慧
易荣庆
彭涛
《吉林大学学报(理学版)》
CAS
CSCD
北大核心
2018
1
下载PDF
职称材料
3
基于单词的源程序相似度度量方法
朱红梅
孙未
王鲁
张亮
《科技广场》
2014
0
下载PDF
职称材料
已选择
0
条
导出题录
引用分析
参考文献
引证文献
统计分析
检索结果
已选文献
上一页
1
下一页
到第
页
确定
用户登录
登录
IP登录
使用帮助
返回顶部