期刊文献+
共找到7篇文章
< 1 >
每页显示 20 50 100
一种提高中文搜索引擎检索质量的HTML解析方法 被引量:20
1
作者 宋睿华 马少平 +1 位作者 陈刚 李景阳 《中文信息学报》 CSCD 北大核心 2003年第4期19-26,共8页
中文搜索引擎经常会返回大量的无关项或者不含具体信息的间接项 ,产生这类问题的一个原因是网页中存在着大量与主题无关的文字。对使用关键字检索方法的搜索引擎来说 ,想在检索或者后处理阶段解决这类问题不仅要付出一定代价 ,而且在大... 中文搜索引擎经常会返回大量的无关项或者不含具体信息的间接项 ,产生这类问题的一个原因是网页中存在着大量与主题无关的文字。对使用关键字检索方法的搜索引擎来说 ,想在检索或者后处理阶段解决这类问题不仅要付出一定代价 ,而且在大多数情况下是不可能的。在这篇论文中 ,我们提出了网页噪声的概念 ,并针对中文网页的特点 ,实现了一种对网页自动分块并去噪的HTML解析方法 ,从而达到在预处理阶段消除潜在无关项和间接项的目的。实验结果表明 ,该方法能够在不占用查询时间的前提下 10 0 %地消除中文搜索引擎隐藏的间接项 ,以及大约 11%的无法过滤或隐藏的无关项或间接项 ,从而大幅度提高检索结果的查准率。 展开更多
关键词 中文搜索引擎 检索质量 HTML解析方法 网页噪声 分块模型 网页去噪 中文信息处理
下载PDF
一种提高Web信息检索精度的分段检索方法 被引量:2
2
作者 宋睿华 马少平 张敏 《广西师范大学学报(自然科学版)》 CAS 2003年第A01期151-155,共5页
在Web上存在一些长文档,它们包含着多个子主题,如果把这样的文档分成段,每个段的内容只围绕一个主题,将会提高检索质量.阐述了使用HTML结构中带有语义特征的标记来将多主题的文档分成段,在此基础上,对10G规模的Web数据实现了分段检索的... 在Web上存在一些长文档,它们包含着多个子主题,如果把这样的文档分成段,每个段的内容只围绕一个主题,将会提高检索质量.阐述了使用HTML结构中带有语义特征的标记来将多主题的文档分成段,在此基础上,对10G规模的Web数据实现了分段检索的方法,并通过使用TREC-9的查询做实验,比较了分段检索方法和传统的文档检索方法的检索质量.实验结果显示,在多主题文档集上分段检索方法比文档检索方法的11点平均准确率提高了大约9%,而在所有文档集上分段检索比文档检索提高了大约1.6%.分析发现,分段检索方法可以明显改善结果的排序,而且实际检索质量提高的幅度比现有的评价结果显示的更显著. 展开更多
关键词 信息检索 分段检索 Web数据 HTML结构
下载PDF
基于语义关系查询扩展的文档重构方法 被引量:55
3
作者 张敏 宋睿华 马少平 《计算机学报》 EI CSCD 北大核心 2004年第10期1395-1401,共7页
已知文档与用户查询之间相同概念不同表达形式造成的词不匹配问题是影响信息检索效果的重要原因之一 .该文提出了根据词之间的语义关系进行扩展和替换的文档重构方法 .它与传统的查询扩展不同 ,实现了同一概念信息的聚集 ,是更接近于人... 已知文档与用户查询之间相同概念不同表达形式造成的词不匹配问题是影响信息检索效果的重要原因之一 .该文提出了根据词之间的语义关系进行扩展和替换的文档重构方法 .它与传统的查询扩展不同 ,实现了同一概念信息的聚集 ,是更接近于人类进行信息查找的思维方法 .进一步地 ,研究给出一种有效的实时文档重构检索策略 ,解决了文档重构方法在实际应用中的可行性 .在标准测试数据集上的实验表明 ,基于查询扩展的文档重构方法不仅比不扩展的最佳性能始终有 14 %~ 2 3.4 %的提高 ,而且比相对应的传统查询扩展方法也有约 16 %的提高 . 展开更多
关键词 文档重构 语义关系 查询扩展 语义相似性 词不匹配 概念检索 信息检索 实时文档重构检索
下载PDF
DF还是IDF?主特征模型在Web信息检索中的使用 被引量:13
4
作者 张敏 马少平 宋睿华 《软件学报》 EI CSCD 北大核心 2005年第5期1012-1020,共9页
Web信息检索的难点之一就是简短、模糊的用户查询与存在大量冗余和噪声的文档之间的不匹配.对Web文档信息特征进行分析,提出Web文档主特征词、主特征域和主特征空间的概念,在该空间上使用文档频度DF(document frequency)信息而非传统意... Web信息检索的难点之一就是简短、模糊的用户查询与存在大量冗余和噪声的文档之间的不匹配.对Web文档信息特征进行分析,提出Web文档主特征词、主特征域和主特征空间的概念,在该空间上使用文档频度DF(document frequency)信息而非传统意义上的IDF(inverse document frequency)信息进行权值计算,并给出一个改进的相似度计算模型.使用该模型在10G和19G的两个大规模Web文档集合上进行了3组标准测试.比较实验表明,与传统IDF思想相比,在各项评价指标上,DF相关的主特征权值计算方法都能始终较大幅度地提高系统性能,最大达到18.6%的性能改善. 展开更多
关键词 WEB信息检索 主特征模型 权值计算 文档频度
下载PDF
多模态与文本预训练模型的文本嵌入差异研究
5
作者 孙宇冲 程曦苇 +3 位作者 宋睿华 车万翔 卢志武 文继荣 《北京大学学报(自然科学版)》 EI CAS CSCD 北大核心 2023年第1期48-56,共9页
为了详细地分析文本单模态预训练模型RoBERTa和图文多模态预训练模型WenLan文本嵌入的差异,提出两种定量比较方法,即在任一空间中,使用距离一个词最近的k近邻词集合表示其语义,进而通过集合间的Jaccard相似度来分析两个空间中词的语义变... 为了详细地分析文本单模态预训练模型RoBERTa和图文多模态预训练模型WenLan文本嵌入的差异,提出两种定量比较方法,即在任一空间中,使用距离一个词最近的k近邻词集合表示其语义,进而通过集合间的Jaccard相似度来分析两个空间中词的语义变化;将每个词与其k近邻词组成词对,分析词对之间的关系。实验结果表明,图文多模态预训练为更抽象的词(如成功和爱情等)带来更多的语义变化,可以更好地区分反义词,发现更多的上下义词,而文本单模态预训练模型更擅长发现同义词。另外,图文多模态预训练模型能够建立更广泛的词之间的相关关系。 展开更多
关键词 多模态预训练 文本表示 文本嵌入分析
下载PDF
悟道·文澜:超大规模多模态预训练模型带来了什么? 被引量:1
6
作者 卢志武 金琴 +1 位作者 宋睿华 文继荣 《中兴通讯技术》 2022年第2期25-32,共8页
提出了悟道·文澜的BriVL双塔模型。该模型利用6.5亿对互联网图文数据,通过自监督的任务来训练,是目前最大的中文通用图文预训练模型。同时,还提出了悟道·文澜的多语言多模态预训练单塔模型—MLMM。实验结果证明,这两个模型在... 提出了悟道·文澜的BriVL双塔模型。该模型利用6.5亿对互联网图文数据,通过自监督的任务来训练,是目前最大的中文通用图文预训练模型。同时,还提出了悟道·文澜的多语言多模态预训练单塔模型—MLMM。实验结果证明,这两个模型在多个国际公开数据集上均取得了最佳性能。设计了实验并讨论超大规模多模态预训练模型对文本编码、图像生成和图文互检带来的影响,以及文澜模型的落地应用与学科交叉成果。 展开更多
关键词 多模态预训练 多语言预训练 双塔模型 单塔模型
下载PDF
Learning Query Ambiguity Models by Using Search Logs 被引量:1
7
作者 宋睿华 窦志成 +1 位作者 洪小文 俞勇 《Journal of Computer Science & Technology》 SCIE EI CSCD 2010年第4期728-738,共11页
Identifying ambiguous queries is crucial to research on personalized Web search and search result diversity. Intuitively, query logs contain valuable information on how many intentions users have when issuing a query.... Identifying ambiguous queries is crucial to research on personalized Web search and search result diversity. Intuitively, query logs contain valuable information on how many intentions users have when issuing a query. However, previous work showed user clicks alone are misleading in judging a query as being ambiguous or not. In this paper, we address the problem of learning a query ambiguity model by using search logs. First, we propose enriching a query by mining the documents clicked by users and the relevant follow up queries in a session. Second, we use a text classifier to map the documents and the queries into predefined categories. Third, we propose extracting features from the processed data. Finally, we apply a state-of-the-art algorithm, Support Vector Machine (SVM), to learn a query ambiguity classifier. Experimental results verify that the sole use of click based features or session based features perform worse than the previous work based on top retrieved documents. When we combine the two sets of features, our proposed approach achieves the best effectiveness, specifically 86% in terms of accuracy. It significantly improves the click based method by 5.6% and the session based method by 4.6%. 展开更多
关键词 ambiguous query log mining query classification
原文传递
上一页 1 下一页 到第
使用帮助 返回顶部