期刊文献+
共找到36篇文章
< 1 2 >
每页显示 20 50 100
一种基于RoBERTa模型的文本搜索排序方法
1
作者 唐伟广 陈勇 姚剑 《计算机与网络》 2024年第5期448-455,共8页
针对日益增长的资料快速检索共享需求,利用鲁棒性优化的BERT方法(Robustly optimized BERT approach,RoBERTa)预训练模型对现有资料进行训练,基于Transformer自注意力机制的语言学习模型,生成文本嵌入向量,将文本向量作为全文本的上下... 针对日益增长的资料快速检索共享需求,利用鲁棒性优化的BERT方法(Robustly optimized BERT approach,RoBERTa)预训练模型对现有资料进行训练,基于Transformer自注意力机制的语言学习模型,生成文本嵌入向量,将文本向量作为全文本的上下文表征。通过将关键搜索词向量化,使用欧氏距离计算向量与其他向量之间的距离,并使用快速排序算法,以找到最相似的向量输出显示,解决基于内容和上下文语义搜索的应用需求。 展开更多
关键词 TRANSFORMER 文本搜索 注意力机制 嵌入向量
下载PDF
一种基于粗糙集的Web文本搜索算法 被引量:1
2
作者 彭云 万红新 《微计算机信息》 2009年第30期182-183,204,共3页
Web文本搜索是搜索引擎的重要功能,但是往往搜索的文本关联程度不高,大量搜索的文本结果不是关注度和兴趣度很高的文本集合。提出了基于粗糙集的Web文本搜索技术,直接从给定待搜索的文本关键词出发,通过不可分辨关系和不可分辨类确定搜... Web文本搜索是搜索引擎的重要功能,但是往往搜索的文本关联程度不高,大量搜索的文本结果不是关注度和兴趣度很高的文本集合。提出了基于粗糙集的Web文本搜索技术,直接从给定待搜索的文本关键词出发,通过不可分辨关系和不可分辨类确定搜索文本的内容约简,导出搜索文本的关联或分类规则,在一定程度上可以提高搜索文本的关联度和内聚度,约简文本搜索的结果集合,改善文本搜索的鲁棒性和有效性。 展开更多
关键词 粗糙集 文本搜索 搜索引擎 文本约简
下载PDF
智能文本搜索新技术 被引量:3
3
作者 王占一 徐蔚然 郭军 《智能系统学报》 北大核心 2012年第1期40-49,共10页
面对当今互联网上海量的信息,以及搜索信息准确、高效、个性化等需求,提出了一套包括信息检索、信息抽取和信息过滤在内的智能文本搜索新技术.首先举荐了与信息检索新技术相关的企业检索、实体检索、博客检索、相关反馈子任务.然后介绍... 面对当今互联网上海量的信息,以及搜索信息准确、高效、个性化等需求,提出了一套包括信息检索、信息抽取和信息过滤在内的智能文本搜索新技术.首先举荐了与信息检索新技术相关的企业检索、实体检索、博客检索、相关反馈子任务.然后介绍了与信息抽取技术相关的实体关联和实体填充子任务,以及与信息过滤技术相关的垃圾邮件过滤子任务.这些关键技术融合在一起,在多个著名的国际评测中得到应用,如美国主办的文本检索会议评测和文本分析会议评测,并且在互联网舆情、短信舆情和校园网对象搜索引擎等实际系统中得到了检验. 展开更多
关键词 智能文本搜索 文本检索 文本分析
下载PDF
Facebook推文本搜索广告
4
《互联网周刊》 2012年第17期14-14,共1页
8月23日,Facebook在搜索结果中正式加入赞助广告信息。Facebook在一份发送给各营销商的声明中表示,已于当天正式推出所谓的“赞助结果”(Sponsored Results)文本搜索广告服务。
关键词 文本搜索 广告信息 搜索结果 广告服务 发送
下载PDF
十款批量文本搜索替换软件全接触
5
作者 炎之川 《软件月月通》 2001年第9期42-47,共6页
关键词 文本搜索替换软件 工具软件 CFALSearch2000软件
原文传递
相似文本的快速搜索 被引量:1
6
作者 燕继坤 郑辉 席建民 《计算机工程》 CAS CSCD 北大核心 2004年第15期22-23,71,共3页
相似文本的快速搜索是大规模文本处理需要解决的基本问题。从两方面改进了Udi的相似文本搜索方法,通过Hash把集合映射成ID,从而得到更快的集合比较算法,重新定义了相似关系,能够减少误判,同时对有固定格式的文本也有更好的效果。
关键词 大规模文本处理 相似文本搜索 复制检测
下载PDF
面向化工领域的Web文本搜索与分类
7
作者 于海英 潘云东 +1 位作者 李亮 万乐 《计算机与应用化学》 CAS CSCD 北大核心 2006年第3期279-281,共3页
随着网络信息资源的迅速增加,对于主题Web文本信息的搜索与分类日益成为信息处理领域的一个重要问题。本文建立了一个面向化工领域的Web文本搜索与分类系统,该系统在crawler子系统搜集Web文档的基础上,利用支持向量机对网页进行二次分类... 随着网络信息资源的迅速增加,对于主题Web文本信息的搜索与分类日益成为信息处理领域的一个重要问题。本文建立了一个面向化工领域的Web文本搜索与分类系统,该系统在crawler子系统搜集Web文档的基础上,利用支持向量机对网页进行二次分类,找出化工专业中文网页;然后利用向量空间模型,对分类好的专业网页进行多子类分类。与综合搜索引擎相比,具有速度快、搜索信息准确度高和具备学习能力的特点。 展开更多
关键词 化工 文本搜索与分类 搜集器 支持向量机 向量空间模型
原文传递
基于倒排索引的文本相似搜索 被引量:4
8
作者 杨建武 陈晓鸥 《计算机工程》 CAS CSCD 北大核心 2005年第5期1-3,共3页
根据文本向量的维分布的稀疏性,提出了基于倒排索引的文本相似搜索算法。该算法通过倒排索引进行维过滤,快速获得尽量小的目标集的超集。实验表明,在海量文本环境下,该方法虽略微损失准确度,但其速度远远高于传统基于多维索引的算法。
关键词 相似搜索 倒排索引 多维索引 文本相似搜索
下载PDF
基于区域搜索与矩特征分类的文本精确定位 被引量:1
9
作者 周慧灿 刘琼 王耀南 《计算机工程与应用》 CSCD 北大核心 2011年第10期164-168,共5页
提出一种基于特定颜色分布区域搜索的文本定位方法,利用文字通常呈现为单一的颜色被不同的背景颜色包围的特点,以单一的颜色作为依据,搜索被包围的文本候选区域;然后,在区域合并与分离算法的基础上,利用不变矩特征和支持向量机(SVM)分... 提出一种基于特定颜色分布区域搜索的文本定位方法,利用文字通常呈现为单一的颜色被不同的背景颜色包围的特点,以单一的颜色作为依据,搜索被包围的文本候选区域;然后,在区域合并与分离算法的基础上,利用不变矩特征和支持向量机(SVM)分类器实现候选区域的进一步筛选。与一般基于形状和纹理的方法相比,由于采用了文字颜色的空间分布特征,避开了文本与其他元素的形状和纹理特征交错问题,保证了算法适应性。基于精确区域搜索的不变矩特征提取,降低了分类器的训练难度,使分类器能很好地适应背景和文字尺寸变化以及部分遮挡等复杂情形。实验表明,该方法具有较好的复杂环境适应性和非常高的准确性。 展开更多
关键词 文本区域搜索 文本定位 不变矩特征 支持向量机
下载PDF
网络文本数据搜索引擎与搜索技术 被引量:3
10
作者 李勇 《情报理论与实践》 CSSCI 北大核心 2001年第4期298-300,共3页
This paper describes the functions,characteristics and operating principles of search engines based on Web text,and the searching and data mining technologies for Web-based text information.Methods of computer-aided t... This paper describes the functions,characteristics and operating principles of search engines based on Web text,and the searching and data mining technologies for Web-based text information.Methods of computer-aided text clustering and abstacting are also given.Finally,it gives some guidelines for the assessment of searching quality. 展开更多
关键词 网络文本数据搜索引擎 搜索技术 文本分类算法 文本质量 查询质量
下载PDF
基于文本的网络图像信息搜索技术
11
作者 李国健 《电子技术与软件工程》 2014年第14期115-115,共1页
随着互联网的快速发展和各种数字化多媒体设备的普及,现如今图像信息的数量也在迅猛地发展,网络上的信息呈现爆炸式的增长,用户们没有过多的时间和精力在海量的信息数据中寻找自己所需要的,而是希望能够精确又全面地找到想要的内容,在... 随着互联网的快速发展和各种数字化多媒体设备的普及,现如今图像信息的数量也在迅猛地发展,网络上的信息呈现爆炸式的增长,用户们没有过多的时间和精力在海量的信息数据中寻找自己所需要的,而是希望能够精确又全面地找到想要的内容,在这一背景下,图像信息的搜索技术得到了业内人士的广泛关注。基于此,本文通过介绍基于文本的网络图像信息搜索技术,找出这项搜索技术的优点和不足,从而更好地发展网络图像信息的搜索技术。 展开更多
关键词 文本搜索 网络图像信息 搜索技术
下载PDF
结合依存图卷积与文本片段搜索的方面情感三元组抽取 被引量:5
12
作者 徐康 李霏 姬东鸿 《计算机工程》 CAS CSCD 北大核心 2023年第4期61-67,共7页
现有基于序列标注或文本生成的三元组抽取模型通常未考虑完整文本片段级别的交互,且忽略了句法知识的应用。为解决上述问题,提出一种基于依存图卷积与文本片段搜索的深度学习模型来联合抽取方面情感三元组。通过预训练语言模型BERT编码... 现有基于序列标注或文本生成的三元组抽取模型通常未考虑完整文本片段级别的交互,且忽略了句法知识的应用。为解决上述问题,提出一种基于依存图卷积与文本片段搜索的深度学习模型来联合抽取方面情感三元组。通过预训练语言模型BERT编码层学习句子中每个单词的上下文表达,同时利用图卷积神经网络学习句子单词之间的依存关系和句法标签信息,以捕获远距离的方面词与观点词之间的语义关联关系,并采用文本片段搜索构造候选方面词与观点词及其特征表示,最终使用多个分类器同时进行方面词与观点词抽取及情感极性判断。在ASTE-Data-V2数据集上的实验结果表明,该模型在14res、14lap、15res和16res子集上的F1值相比于JET模型提升了10.61、10.54、4.91和8.48个百分点,具有较高的方面情感三元组抽取效率。 展开更多
关键词 方面情感三元组抽取 图卷积神经网络 深度学习 依存句法分析 文本片段搜索
下载PDF
Lucene应用中Pdf文档文本数据提取方法研究 被引量:1
13
作者 杜德生 田小军 《自动化技术与应用》 2009年第3期50-51,58,共3页
基于Lucene的搜索已在各种应用系统中已经得到广泛应用,但是Lucene仅仅提供了全文文本搜索的函数库。本文研究了Pdf文档文本数据的提取方法,其优点在于能快速对Pdf文档文本数据进行提取,得到站内Pdf文档文本数据。
关键词 LUCENE 文本搜索 PDF文档
下载PDF
智慧企业中的智慧搜索 被引量:2
14
作者 陈扬斌 李青 庄越挺 《通信学报》 EI CSCD 北大核心 2015年第12期89-96,共8页
现代企业除了面临复杂的生产环境和网络环境外,还需积极应对和处理随之产生的海量数据。这些数据服务于企业发展是智慧企业的目的之一。基于企业各个环节可能产生的各种数据类型和对应的搜索技术,智慧搜索旨在为智慧企业的实现与发展增... 现代企业除了面临复杂的生产环境和网络环境外,还需积极应对和处理随之产生的海量数据。这些数据服务于企业发展是智慧企业的目的之一。基于企业各个环节可能产生的各种数据类型和对应的搜索技术,智慧搜索旨在为智慧企业的实现与发展增加一种新的智慧服务。通过实例来阐述智慧搜索的内涵和外延,以及智慧搜索能为企业带来的不同级别的服务和相应的挑战。 展开更多
关键词 智慧企业 智慧搜索 大数据 文本搜索
下载PDF
基于关联规则的微博主题搜索策略研究 被引量:1
15
作者 何跃 王迪 张丽丽 《情报杂志》 CSSCI 北大核心 2013年第6期131-136,共6页
在Web2.0时代,微博已成为一个有重要价值的信息平台。为了利用微博平台为用户提供较好的搜索服务,论文应用关联规则挖掘技术识别微博相关话题,利用相关话题扩充机制和话题语义相似度度量,构建微博搜索索引文件。实验分析表明:相对于传... 在Web2.0时代,微博已成为一个有重要价值的信息平台。为了利用微博平台为用户提供较好的搜索服务,论文应用关联规则挖掘技术识别微博相关话题,利用相关话题扩充机制和话题语义相似度度量,构建微博搜索索引文件。实验分析表明:相对于传统的关键词搜索策略,论文提出的搜索策略能从浩瀚的微博信息平台中找到更加有效的搜索结果。 展开更多
关键词 Web文本挖掘微博搜索 用户影响力 关联规则 潜在语义分析
下载PDF
Google搜索引擎算法的秘密 被引量:2
16
作者 Julian Bucknall 丁宁 《Internet信息世界》 2002年第5期88-91,共4页
Google和其他Web搜索引擎是如何让你用一系列的词来找到相关的网页?它们不可能先下载十几亿个网页然后找出你想要的内容吧?它们应该进行了一些预处理,并建立了索引。这篇文章讨论的就是关于这些的事。
关键词 Google搜索引擎算法 文本搜索算法 RLE压缩算法 网页 WEB
下载PDF
改良串搜索
17
作者 Baseza-Y 张方维 《软件》 北大核心 1989年第9期712-723,共12页
关键词 文本搜索 搜索 模式匹配 B-M算法
下载PDF
Python文本搜索技术在处理非结构化数据中的应用
18
作者 陈纪帆 《中国审计》 2024年第22期61-63,共3页
随着互联网技术的不断发展,审计工作中面临的数据大部分以非结构化数据形态存储,如会议记录、投标文件、合同文件等,这些数据成为审计揭示问题和风险的重要信息来源。如何高效地从非结构化数据中提取关键信息,是目前审计工作函须解决的... 随着互联网技术的不断发展,审计工作中面临的数据大部分以非结构化数据形态存储,如会议记录、投标文件、合同文件等,这些数据成为审计揭示问题和风险的重要信息来源。如何高效地从非结构化数据中提取关键信息,是目前审计工作函须解决的问题。Python文本搜索技术以其开源、易用、扩展性强的特点,广泛应用于筛选与分析特定文本模式,以及文本提取。本文探讨Python文本搜索技术在处理非结构化数据中的应用场景,并结合具体审计项目,总结一般性的审计操作流程。 展开更多
关键词 非结构化数据 文本搜索 文本模式 Python 文本提取 合同文件 投标文件 审计项目
原文传递
谷歌将在搜索广告中加入视频预览功能
19
《计算机与网络》 2009年第16期5-5,共1页
据国外媒体报道,谷歌将在纯文本搜索广告中加入视频预览功能,希望借此探索网络搜索广告的创收渠道。
关键词 预览功能 文本搜索 广告 视频 网络搜索
下载PDF
面向农业科研办公的垂直搜索引擎研究与设计 被引量:1
20
作者 李昀 邓颖 吴华瑞 《西南师范大学学报(自然科学版)》 CAS 北大核心 2020年第9期43-50,共8页
在农业科研办公过程中,科研人员进行信息检索的频率高,信息需求精度高,但传统的综合性搜索引擎检索农业实用技术、政策法规、专题数据等方向性比较强的农业信息,通常返回结果数据量庞大、主旨范围宽泛,导致内容不精准、搜索面太广,筛选... 在农业科研办公过程中,科研人员进行信息检索的频率高,信息需求精度高,但传统的综合性搜索引擎检索农业实用技术、政策法规、专题数据等方向性比较强的农业信息,通常返回结果数据量庞大、主旨范围宽泛,导致内容不精准、搜索面太广,筛选结果专业性不足;且现阶段主流的农业领域的垂直搜索引擎的搜索策略主要建立在传统的文本检索上,在自身领域数据量有限的情况下,搜索结果查全率不高,且搜索结果没有排序依据(大多仅仅按信息发生时间为排序依据).本文对农业互联网信息搜索引擎进行了研究,通过对各级农业管理部门网站、农业科研院所网站、农业新闻网站、农业商业网站等数据源的模块进行定位,通过爬虫进行数据更新检测与定时抓取,从数据源上有效减少不相关信息;基于数百个互联网数据源农业相关模块的信息抽取,采用word2vec和本文提出的基于文本特征表达的doc2vec,分别创建农业词向量、文档向量空间,用来应对搜索关键词为无序词组和有序语句的搜索场景,确保垂直搜索的智能和返回结果的准确.经过实验验证,本文提出的doc2vec+tf-idf搜索算法能够在有序搜索中达到较高的准确率,结合word2vec进行的无序搜索,有针对地进行语义搜索,可以进一步提高搜索引擎的查准率,满足日益增长的对农业领域信息搜索的高效高质的需求. 展开更多
关键词 农业信息搜索引擎 语义相似度 word2vec doc2vec TF-IDF 文本智能搜索
下载PDF
上一页 1 2 下一页 到第
使用帮助 返回顶部