期刊文献+
共找到7篇文章
< 1 >
每页显示 20 50 100
基于语义指纹和LCS的文本去重方法 被引量:4
1
作者 陈露 吴国仕 李晶 《软件》 2014年第11期25-30,共6页
为了解决传统中文文本去重准确率低的问题,本文提出了一种基于语义指纹和LCS的文本去重方法。针对中文文本,预处理后抽取出文本摘要,然后使用tf-idf算法分别得出文本内容特征向量和摘要特征向量,分别将这两个向量作为simhash算法的输入... 为了解决传统中文文本去重准确率低的问题,本文提出了一种基于语义指纹和LCS的文本去重方法。针对中文文本,预处理后抽取出文本摘要,然后使用tf-idf算法分别得出文本内容特征向量和摘要特征向量,分别将这两个向量作为simhash算法的输入,计算得到文章的内容指纹和摘要指纹。计算两个文本对应的两个指纹的汉明距离,代入本文公式,最终得到这两文本的指纹距离;使用指纹对文本对进行初步筛选,对判定为相似的两个文本使用LCS算法进行进一步对比,避免误判,最终实现中文文本快速去重。实验过程中,通过与LCS算法、simhash算法等多种算法的结果进行对比,可以体现该方法在算法精确度方面的优势,同时,该方法的运行速度优势也能较好地支持大数据量文本的去重操作。 展开更多
关键词 理论计算机科学 语义指纹 simhash LCS 文本去重
下载PDF
基于语义指纹的海量文本快速相似检测算法研究 被引量:3
2
作者 姜雪 万正景 +1 位作者 梁燕 陶以政 《电脑知识与技术》 2016年第12X期175-177,共3页
相似检测算法在海量文本信息处理中具有广泛的应用,尤其是Simhash算法因其指纹局部敏感特性、检测效率高在文本查重、网页检测等大规模数据处理中都十分常见。针对传统Simhash算法无法支持近义词、多义词等自然语言处理上的语义问题,通... 相似检测算法在海量文本信息处理中具有广泛的应用,尤其是Simhash算法因其指纹局部敏感特性、检测效率高在文本查重、网页检测等大规模数据处理中都十分常见。针对传统Simhash算法无法支持近义词、多义词等自然语言处理上的语义问题,通过对现有同义词扩展方案的研究,提出基于语义指纹的相似检测算法。在Simhash算法基础上,融入同义词扩展编码信息,生成文本语义指纹进行匹配检测,以提高文本相似度检测性能。另外,根据文本语义指纹建立多层分段索引,实现在海量文本信息中快速匹配出相似文档。通过与传统的Simhash算法进行实验对比,体现出该方法在准确率、效率等方面的优势。 展开更多
关键词 文本相似 语义指纹 Simhash 同义词扩展 互信息
下载PDF
基于语义指纹的中文文本快速去重 被引量:5
3
作者 李纲 毛进 陈璟浩 《现代图书情报技术》 CSSCI 北大核心 2013年第9期41-47,共7页
针对中文文本,抽取出文本内容特征,结合Simhash算法生成中文文本的语义指纹,通过语义指纹的海明距离判断文本间相似程度。整合Single-Pass快速聚类算法对语义指纹快速聚类,所得的语义指纹聚类即为文本去重的最终结果,从而实现面向中文... 针对中文文本,抽取出文本内容特征,结合Simhash算法生成中文文本的语义指纹,通过语义指纹的海明距离判断文本间相似程度。整合Single-Pass快速聚类算法对语义指纹快速聚类,所得的语义指纹聚类即为文本去重的最终结果,从而实现面向中文文本的快速去重流程。实验过程中,通过与Shingle算法对比,可以体现该方法在算法精确度、鲁棒性等方面的优势,同时该方法的运行速度优势也能较好地支持大数据量文本的去重操作。 展开更多
关键词 语义指纹 Simhash Single—Pass 文本去重
原文传递
USPTO专利发明人重名辨识方法综述 被引量:1
4
作者 于永胜 董诚 +1 位作者 韩红旗 李仲 《天津科技》 2018年第2期22-27,共6页
英文专利发明人姓名歧义现象越来越严重,极大阻碍了英文专利数据的研究应用。为了解英文专利发明人重名辨识方法的研究现状,进行了方法调研和总结:首先,介绍专利发明人重名辨识研究的意义及困难;其次,对国内外现有的专利发明人重名辨识... 英文专利发明人姓名歧义现象越来越严重,极大阻碍了英文专利数据的研究应用。为了解英文专利发明人重名辨识方法的研究现状,进行了方法调研和总结:首先,介绍专利发明人重名辨识研究的意义及困难;其次,对国内外现有的专利发明人重名辨识方法进行梳理,主要将其分为基于规则的方法和基于机器学习的方法;最后,对发明人重名辨识方法的优缺点进行总结分析,并对未来方法研究进行展望。建议将深度学习算法和语义指纹算法融入到专利发明人重名辨识方法中,以便更加高效准确地进行发明人重名辨识。 展开更多
关键词 重名辨识 机器学习 语义指纹 聚类
下载PDF
基于稀疏分布式表征的英文著者姓名消歧研究 被引量:7
5
作者 翟晓瑞 韩红旗 +1 位作者 张运良 李仲 《计算机应用研究》 CSCD 北大核心 2019年第12期3534-3538,共5页
为将稀疏分布式表征理论应用到著者姓名消歧,了解其在解决姓名消歧问题时的效果,提出了基于稀疏分布式表征的英文文献著者姓名消歧方法。该方法选择论文摘要文本信息作为消歧特征,将其生成二进制表示的SDR码。根据待消歧论文的SDR与同... 为将稀疏分布式表征理论应用到著者姓名消歧,了解其在解决姓名消歧问题时的效果,提出了基于稀疏分布式表征的英文文献著者姓名消歧方法。该方法选择论文摘要文本信息作为消歧特征,将其生成二进制表示的SDR码。根据待消歧论文的SDR与同名作者的论文SDR相似度对比来实现著者姓名消歧。最终得到的结果为准确率98. 21%,召回率76. 75%,F值86. 17%,证明提出的消歧方法具有较好的效果。通过将该方法与利用合著者特征进行消歧的方法进行对比,说明该方法能够较好地解决文献著者姓名歧义问题。此外,该方法还可将作者未收录在作者库中的论文识别出来并将其指派给新作者,无须重新学习和更新模型。 展开更多
关键词 姓名消歧 稀疏分布式表征 语义指纹 层级时序记忆模型
下载PDF
社交网络中意见领袖的敏感舆论倾向识别 被引量:1
6
作者 宋振 徐雅斌 《计算机工程与设计》 北大核心 2021年第11期3293-3300,F0003,共9页
为准确识别意见领袖的敏感舆论倾向,有效把控敏感类舆情的发展,提出基于多任务学习的敏感舆论倾向识别模型(MTL-SA-LSTM)和基于指纹汇聚技术的快速识别模型。以准确识别意见领袖的敏感舆论倾向为目标,兼顾其识别效率。采用指纹汇聚技术... 为准确识别意见领袖的敏感舆论倾向,有效把控敏感类舆情的发展,提出基于多任务学习的敏感舆论倾向识别模型(MTL-SA-LSTM)和基于指纹汇聚技术的快速识别模型。以准确识别意见领袖的敏感舆论倾向为目标,兼顾其识别效率。采用指纹汇聚技术关联原始敏感词和变形敏感词,采用语义指纹技术快速识别重复或相似度较高文本的敏感舆论倾向,通过MTL-SA-LSTM模型,对文本中的敏感舆论及舆论倾向两个任务进行识别。对比实验结果表明,该模型具有较高的识别准确率及识别效率。 展开更多
关键词 社交网络 敏感舆论倾向 多任务学习 指纹汇聚 语义指纹
下载PDF
FAST TEXT LOCATION BASED ON DISCRETE WAVELET TRANSFORM 被引量:2
7
作者 LiXiaohua ShenLansun 《Journal of Electronics(China)》 2005年第4期385-394,共10页
The paper describes a texture-based fast text location scheme which operates directly in the Discrete Wavelet Transform (DWT) domain. By the distinguishing texture characteristics encoded in wavelet transform domain, ... The paper describes a texture-based fast text location scheme which operates directly in the Discrete Wavelet Transform (DWT) domain. By the distinguishing texture characteristics encoded in wavelet transform domain, the text is fast detected from complex background images stored in the compressed format such as JPEG2000 without full decompress. Compared with some traditional character location methods, the proposed scheme has the advantages of low computational cost, robust to size and font of characters and high accuracy. Preliminary experimental results show that the proposed scheme is efficient and effective. 展开更多
关键词 Text location Discrete Wavelet Transform (DWT) Semantic content Texture analysis Image/video indexing
下载PDF
上一页 1 下一页 到第
使用帮助 返回顶部