期刊文献+
共找到61篇文章
< 1 2 4 >
每页显示 20 50 100
基于完形填空的方面级情感四元组预测
1
作者 彭文忠 夏家莉 +4 位作者 万齐智 刘德喜 万本庭 曹重华 夏池玉 《计算机学报》 EI CAS CSCD 北大核心 2024年第8期1744-1768,共25页
方面情感四元组预测(ASQP)任务旨在从给定的评论语句中提取所有方面词以及相应的方面类别、观点表达和情感极性,有助于全面了解用户对产品或服务不同方面的评价情况.现有情感四元组预测方法主要存在以下局限:(1)判别式模型没有利用promp... 方面情感四元组预测(ASQP)任务旨在从给定的评论语句中提取所有方面词以及相应的方面类别、观点表达和情感极性,有助于全面了解用户对产品或服务不同方面的评价情况.现有情感四元组预测方法主要存在以下局限:(1)判别式模型没有利用prompt捕获情感元素之间的语义关系;(2)生成式模型要么简单地将情感元素类型标签组合形成prompt,缺乏理解标签类型涵义的语境;要么将离散模板作为解码器的输入,而编码器则无法捕获到模板中情感元素之间的语义关系.为了缓解这些问题,本文首先基于完形填空思想研制离散和连续2类prompt,提供理解4个情感元素类型涵义的语境,帮助模型更好地捕获情感元素之间的语义关系;然后,基于设计的prompt,提出C-ASQP框架,包含判别式模型DC-ASQP和生成式模型GC-ASQP.在DC-ASQP中,采用2阶段策略,先预测4个情感元素中2个较为容易的情感元素,再将预测结果嵌入到设计的prompt中,帮助模型理解情感元素类型的涵义,从而有效预测另外2个情感元素.在GC-ASQP中,将设计的prompt作为编码器的输入,借助预训练模型的学习模式,充分利用预训练模型蕴含的知识提升四元组的生成效果.实验结果显示,DC-ASQP模型在4个常用数据集上的F1值相比同类判别式最优模型分别提高4.70%、6.48%、6.97%和2.60%,GC-ASQP模型的F1值比最优基准模型分别提高0.86%、1.67%、0.15%和1.02%,验证了将ASQP建模为完形填空任务的有效性,所设计的2类prompt以及C-ASQP框架是有效的. 展开更多
关键词 方面情感四元组预测 完形填空 离散和连续prompt 判别式和生成式模型 C-ASQP框架
下载PDF
面向混合类型关键词查询的非合作结构化深网数据源选择 被引量:6
2
作者 万常选 邓松 +2 位作者 刘德喜 江腾蛟 刘喜平 《计算机研究与发展》 EI CSCD 北大核心 2014年第4期905-917,共13页
为有效地利用深网中的资源,深网集成应运而生.为了提高深网集成的效率和返回结果的质量,数据源选择成为深网集成的关键技术.深网数据源大多数是结构化和非合作型的.当前已有的非合作结构化深网数据源选择的研究分为2类:一类是面向离散... 为有效地利用深网中的资源,深网集成应运而生.为了提高深网集成的效率和返回结果的质量,数据源选择成为深网集成的关键技术.深网数据源大多数是结构化和非合作型的.当前已有的非合作结构化深网数据源选择的研究分为2类:一类是面向离散型关键词查询的源选择;另一类是面向字符型关键词查询的源选择,而未见面向混合类型关键词查询的结构化数据源选择的相关研究.基于此,将用户查询关键词分为检索型关键词和约束型关键词,基于主题词与主题词、主题词与特征词和直方图与直方图的关联特征构建了面向检索型、约束型混合关键词查询的层次化数据源摘要,有效地反映了非合作结构化深网数据源选择中检索型关键词的检索意图和约束型关键词的约束相关性,并依据此摘要给出了相应的数据源选择策略.实验结果表明,该方法在面向混合类型关键词查询的非合作结构化深网数据源选择时具有较好的记录召回率及准确率. 展开更多
关键词 混合类型关键词检索 非合作 结构化 深网 数据源选择
下载PDF
基于用户反馈的深网数据源选择 被引量:3
3
作者 邓松 万常选 +1 位作者 刘喜平 廖国琼 《小型微型计算机系统》 CSCD 北大核心 2012年第11期2367-2371,共5页
在因特网上,每个主题往往拥有成百上千个相关的深网数据源,从众多的数据源中找到合适的源进行数据集成变得越来越重要.传统的考虑源质量的选择方法是不考虑源主题特性的,而是根据经验选取统一的质量维度,因而在不同主题下选择准确性有... 在因特网上,每个主题往往拥有成百上千个相关的深网数据源,从众多的数据源中找到合适的源进行数据集成变得越来越重要.传统的考虑源质量的选择方法是不考虑源主题特性的,而是根据经验选取统一的质量维度,因而在不同主题下选择准确性有较大的差异.基于此,提出基于用户反馈的深网源选择方法,依据用户反馈获取特定主题源的核心质量维度从而建立质量评价模型.选取了三个不同主题下的数据源进行了相关的验证,实验结果表明,针对不同主题下的数据源选取,该方法均具有较高的准确性且计算量较少. 展开更多
关键词 用户反馈 数据质量 深网 数据源选择
下载PDF
非合作结构化深网数据源摘要的动态更新 被引量:1
4
作者 邓松 万常选 +3 位作者 吁亮 刘德喜 雷刚 王映龙 《微电子学与计算机》 CSCD 北大核心 2014年第4期36-39,43,共5页
利用同领域数据源主题更新的关联特点,提出了一种非合作结构化深网数据源摘要的动态更新方法,在保证数据源选择效果的前提下,较大幅度地提高了数据源摘要更新的效率(即减少了数据源摘要更新的工作量).实验结果表明,该方法可以减少87.7%... 利用同领域数据源主题更新的关联特点,提出了一种非合作结构化深网数据源摘要的动态更新方法,在保证数据源选择效果的前提下,较大幅度地提高了数据源摘要更新的效率(即减少了数据源摘要更新的工作量).实验结果表明,该方法可以减少87.7%以上的摘要更新工作量,同时具有较好的召回率及准确率. 展开更多
关键词 动态 非合作 结构化深网 数据源选择
下载PDF
面向医学领域实体关联检索的深网数据源选择 被引量:1
5
作者 邓松 陈辉 《计算机工程与应用》 CSCD 北大核心 2016年第10期135-140,共6页
每个领域下的深网数据源众多,如果检索领域内所有深网以获取所需的集成信息,那么工作量将十分巨大,因而数据源选择技术应运而生。医学领域实体间存在着丰富的关联关系,把相关关联信息进行有效集成可以促进人们健康生活。为提升医学领域... 每个领域下的深网数据源众多,如果检索领域内所有深网以获取所需的集成信息,那么工作量将十分巨大,因而数据源选择技术应运而生。医学领域实体间存在着丰富的关联关系,把相关关联信息进行有效集成可以促进人们健康生活。为提升医学领域实体关联的信息集成效率,提出了一种基于实体关联特征的数据源选择方法。基于实体关联图中的实体权重以及链接信息,构建了实体关联矩阵摘要;基于实体关联查询意图提出了数据源相关性计算方法。利用领域数据集进行了大量的实验,结果表明所提出方法准确率和召回率较高,可以为医学领域信息集成提供有效支撑。 展开更多
关键词 数据源选择 摘要 医学 实体关联
下载PDF
基于主题与概率模型的非合作深网数据源选择 被引量:1
6
作者 邓松 万常选 《软件学报》 EI CSCD 北大核心 2017年第12期3241-3256,共16页
在深网数据集成过程中,用户希望仅检索少量数据源便能获取高质量的检索结果,因而数据源选择成为其核心技术.为满足基于相关性和多样性的集成检索需求,提出一种适合小规模抽样文档摘要的深网数据源选择方法.该方法在数据源选择过程中首... 在深网数据集成过程中,用户希望仅检索少量数据源便能获取高质量的检索结果,因而数据源选择成为其核心技术.为满足基于相关性和多样性的集成检索需求,提出一种适合小规模抽样文档摘要的深网数据源选择方法.该方法在数据源选择过程中首先度量数据源与用户查询的相关性,然后进一步考虑候选数据源提供数据的多样性.为提升数据源相关性判别的准确性,构建了基于层次主题的数据源摘要,并在其中引入了主题内容相关性偏差概率模型,且给出了基于人工反馈的偏差概率模型构建方法以及基于概率分析的数据源相关性度量方法.为提升数据源选择结果的多样性程度,在基于层次主题的数据源摘要中建立了多样性链接有向边,并给出了数据源多样性的评价方法.最后,将基于相关性和多样性的数据源选择问题转化为一个组合优化问题,提出了基于优化函数的数据源选择策略.实验结果表明:在基于少量抽样文档进行数据源选择时,该方法具有较高的选择准确率. 展开更多
关键词 深网 数据源选择 主题 概率模型 TextRank
下载PDF
基于用户反馈的Web多媒体数据源的选取
7
作者 邓松 万常选 刘喜平 《管理学报》 CSSCI 2011年第12期1831-1834,共4页
针对Web多媒体主题的特点采用用户反馈机制,提出了用户推荐可信度度量准则,准确获取了多媒体数据源核心质量维度,建立了相关的质量模型。实验结果表明,该方法在多媒体数据源选取时,准确性较高且计算量较小。
关键词 数据源 质量维度 多媒体 用户反馈
下载PDF
基于神经网络与领域知识的外交国际合作元素抽取 被引量:1
8
作者 张子靖 万常选 +3 位作者 刘德喜 刘玉 刘喜平 江腾蛟 《计算机应用研究》 CSCD 北大核心 2020年第3期739-744,共6页
为了能够实时了解国际双边合作中有价值的信息,高效地智能提取Web外交新闻中的国际合作元素就显得至关重要。将国际合作元素抽取抽象为类似命名实体识别的问题,首先,界定国际合作元素的内涵;其次,提取了蕴涵领域知识的规则;再次,结合神... 为了能够实时了解国际双边合作中有价值的信息,高效地智能提取Web外交新闻中的国际合作元素就显得至关重要。将国际合作元素抽取抽象为类似命名实体识别的问题,首先,界定国际合作元素的内涵;其次,提取了蕴涵领域知识的规则;再次,结合神经网络与领域知识提出了面向外交新闻文本的国际合作元素抽取方法;最后在相同语料库中与神经网络方法以及自身规则组合进行了比较,实验结果表明该方法具有更好的效果。 展开更多
关键词 国际合作元素 神经网络 序列标注 命名实体识别 Web外交新闻
下载PDF
基于种子词和数据集的垃圾弹幕屏蔽词典的自动构建 被引量:3
9
作者 汪舸 吴方君 《计算机工程与科学》 CSCD 北大核心 2020年第7期1302-1308,共7页
随着弹幕视频的流行,弹幕已经成为了互联网时代青年互动交流的一种形式,但随着弹幕数量的增多,如何屏蔽垃圾弹幕成为一个问题。在各类视频网站提出的关键词屏蔽法的基础上,提出了分别基于种子词和数据集的2类屏蔽词典自动构建方法。第1... 随着弹幕视频的流行,弹幕已经成为了互联网时代青年互动交流的一种形式,但随着弹幕数量的增多,如何屏蔽垃圾弹幕成为一个问题。在各类视频网站提出的关键词屏蔽法的基础上,提出了分别基于种子词和数据集的2类屏蔽词典自动构建方法。第1类方法主要采用Google的自然语言处理工具word2vec和PMI,寻找与种子词相似性较大或共现次数较多的词添加到屏蔽词典中去;第2类方法主要采用TF-IDF、LDA主题模型和信息增益IG的方法,从垃圾弹幕数据集中提取关键词来构建屏蔽词典。最后,对所构建的屏蔽词典进行评测,实验结果表明,词典规模在400~500时,弹幕屏蔽效果最好。同时,还考察了LDA主题数和数据集规模等因素对弹幕屏蔽效果的影响。 展开更多
关键词 弹幕 关键词屏蔽 屏蔽词典 种子词
下载PDF
基于多数据源的XQuery查询重写优化技术
10
作者 周正 万常选 《科技广场》 2006年第7期7-9,共3页
本文主要阐述了XQuery对XML查询优化的相关内容,主要涉及的技术包括最小化、XML代数、索引技术、倒排列表、选择估计、重写机制等。本文阐述了其中基于多数据源的重写算法的具体思想和核心算法。
关键词 XQUERY 冗余 代数 索引 倒排列表 选择估计 重写
下载PDF
基于语义分析的评价对象-情感词对抽取 被引量:61
11
作者 江腾蛟 万常选 +2 位作者 刘德喜 刘喜平 廖国琼 《计算机学报》 EI CSCD 北大核心 2017年第3期617-633,共17页
评价对象-情感词对是情感词及其所修饰评价对象的组合,评价对象-情感词对的识别是细粒度情感分析的一个原子任务和关键任务.现有的研究大多集中在商品评论上,随着金融大数据的涌现,金融评论的情感挖掘意义凸显.与商品评论不同,中文金融... 评价对象-情感词对是情感词及其所修饰评价对象的组合,评价对象-情感词对的识别是细粒度情感分析的一个原子任务和关键任务.现有的研究大多集中在商品评论上,随着金融大数据的涌现,金融评论的情感挖掘意义凸显.与商品评论不同,中文金融评论中评价对象数目繁多且构成形式复杂,虚指评价对象和隐式评价对象也更常见;情感词的词性更丰富,其在句中的句法成分也更灵活、语义更丰富.针对金融评论的这些特点,该文提出了基于浅层语义与语法分析相结合的评价对象-情感词对抽取方法.考虑到金融评论多动词情感词,设计了语义角色标注与依存句法分析相结合的评价对象-情感词对抽取规则,解决了评价对象构成的复杂性问题;基于语义和领域知识对虚指评价对象进行了判别和替换,以明确其实际的指向和含义;基于特殊情感词搭配表、上下文搭配表及频繁搭配表提出了隐式评价对象识别的新思路,能有效地识别出缺省和隐含评价对象.在大规模的中文金融评论上进行了详细的实验测试,实验结果表明了该方法的有效性. 展开更多
关键词 情感分析 中文金融评论 评价对象-情感词对 语义角色标注 依存句法分析
下载PDF
基于多特征融合的在线论坛用户心理健康自动评估 被引量:28
12
作者 刘德喜 夏先益 +3 位作者 万常选 刘喜平 江腾蛟 付淇 《计算机学报》 EI CSCD 北大核心 2019年第7期1553-1569,共17页
心理健康问题会对社会和谐和家庭幸福造成严重破坏,提前发现有心理健康问题的潜在患者,有利于对其进行及时辅导和治疗.人们利用互联网或社交网络交流沟通、表达情感和观点,这为心理健康的观察提供了新的窗口.本文提出基于多特征融合的... 心理健康问题会对社会和谐和家庭幸福造成严重破坏,提前发现有心理健康问题的潜在患者,有利于对其进行及时辅导和治疗.人们利用互联网或社交网络交流沟通、表达情感和观点,这为心理健康的观察提供了新的窗口.本文提出基于多特征融合的在线论坛用户心理健康自动评估框架F 3 TMH,该框架采用贪婪法F 3 TMH_G、投票法 F 3 TMH_V、后期融合法F 3 TMH_L和降噪自编码器法F 3 TMH_DA四种特征融合策略,融合帖子(或其作者)的行为与属性特征、语言或用词风格特征、内容特征(N-Grams特征、主题特征、词向量特征)、上下文特征,对论坛中帖子所反映的用户(心理康健状况)需要干预的紧急程度( crisis :非常紧急, red :紧急, amber :不紧急, green :不需要任何干预)进行自动评估.在CLPsych2017 shared task评测任务所提供的数据集上,考察了各类特征、不同的特征融合策略对心理健康自动评估性能的影响.实验发现,相对于行为与属性特征和语言特征,内容特征表现更好,其中基于Word2Vec的词向量特征表现最佳,其 Non -green ( crisis 、 red、amber 三类)的 F1 均值达到0.429.尽管单独使用行为与属性特征表现不佳,但该特征对 crisis 类帖子的识别影响很大,在融合所有特征的基础上去掉该特征后会导致 crisis 类帖子的 F1 值下降19.7%.实验还显示,多种类型特征的融合较单一类型的特征表现更优,特征融合后 Non -green 的 F1 值(0.479)较单一最优特征(0.429)提高11.6%.各种特征融合策略各有优势,例如,后期融合策略F 3 TMH_L2更有利于识别心理健康危机程度较高的用户( crisis 和 red 类帖子), Urgent 的 F1 值达到0.608,而F 3 TMH_L则更有利于识别 crisis 类的帖子,自编码融合策略F 3 TMH_DA对于识别数据量相对较多的 Flagged 类(所有非 green 类的并集)帖子更有优势,其 F1 值达到0.872.最后还探讨了上下文信息对用户心理危机程度识别的影响.此外,F 3 TMH_V参加了CLPsych2017 shared task评测,在官方对参赛系统排名的评价指标 Non -green F1 上得分0.467,排名第一,优于采用深度学习等其他模型和特征的参赛系统。 展开更多
关键词 在线论坛用户 心理健康自动评估 行为与属性特征 语言特征 内容特征 多特征融合
下载PDF
基于词性标注和依存句法的Web金融信息情感计算 被引量:17
13
作者 万常选 江腾蛟 +1 位作者 钟敏娟 边海容 《计算机研究与发展》 EI CSCD 北大核心 2013年第12期2554-2569,共16页
基于词袋模型的文本情感倾向性分析没有考虑句子的句法结构对句子语义的理解,基于依存句法分析的方法试图解决这一问题.目前基于依存句法分析的方法对影响文本情感的依存关系的选择多根据人为观察,带有随意性.根据影响句子情感倾向性的... 基于词袋模型的文本情感倾向性分析没有考虑句子的句法结构对句子语义的理解,基于依存句法分析的方法试图解决这一问题.目前基于依存句法分析的方法对影响文本情感的依存关系的选择多根据人为观察,带有随意性.根据影响句子情感倾向性的原极性、修饰极性和动态极性,1)找出了影响句子情感倾向性的4种词性:形容词、动词、副词和名词;2)从词性和汉语句子成分理解的角度,逐一分析了24种依存关系对句子情感计算的影响,找出了可能影响句子情感倾向性的8种依存关系;3)根据这8种依存关系中可能的词性组合设计了6种情感计算规则,并提出了基于二叉树的情感计算策略,设计了情感计算二叉树的构建算法和基于情感计算二叉树的情感计算算法;4)在Web金融信息上进行了实验测试,实验结果表明了该方法的有效性. 展开更多
关键词 情感计算 情感倾向性分析 Web金融信息 词性标注 依存句法分析
下载PDF
一种词聚类LDA的商品特征提取算法 被引量:12
14
作者 彭云 万常选 +2 位作者 江腾蛟 刘德喜 刘喜平 《小型微型计算机系统》 CSCD 北大核心 2015年第7期1458-1463,共6页
商品评论中经常会使用一些词义近似或上下文相关的中低频词来描述商品特征,如何有效辨识这些中低频词是商品特征抽取的一个难点.由于缺乏先验知识,主题模型难以发现并抽取中低频特征词.提出基于词义相似度和上下文相关度相结合的词聚类... 商品评论中经常会使用一些词义近似或上下文相关的中低频词来描述商品特征,如何有效辨识这些中低频词是商品特征抽取的一个难点.由于缺乏先验知识,主题模型难以发现并抽取中低频特征词.提出基于词义相似度和上下文相关度相结合的词聚类度量算法,在此基础上构建了一种基于词聚类先验知识的潜在狄利克雷分配的商品主题特征提取模型.首先对词项按词义相似度、上下文相关度进行聚类;然后在商品主题特征抽取中引入词聚类因素作为权重影响因子,使得同一个聚类簇中的词项属于同一主题的概率增加.相关实验结果表明,本文提出的词聚类和特征提取算法具有较好的效果. 展开更多
关键词 词聚类 上下文相关 LDA模型 特征提取
下载PDF
基于句法语义依存分析的中文金融事件抽取 被引量:25
15
作者 万齐智 万常选 +1 位作者 胡蓉 刘德喜 《计算机学报》 EI CSCD 北大核心 2021年第3期508-530,共23页
事件抽取在自然语言处理应用中扮演着重要的角色,如股票市场趋势预测.传统事件抽取较为关注触发词和论元所属类型的正确性,较少地结合应用需求去分析研究事件抽取效果及使用价值.在财经领域,事件作用对象及动作是关注的重点.因此,本文... 事件抽取在自然语言处理应用中扮演着重要的角色,如股票市场趋势预测.传统事件抽取较为关注触发词和论元所属类型的正确性,较少地结合应用需求去分析研究事件抽取效果及使用价值.在财经领域,事件作用对象及动作是关注的重点.因此,本文聚焦于金融事件,抽取三元组事件ET(Sub,Pred,Obj).在中文财经新闻中,存在大量事件嵌套和成分共享等现象,致使易出现事件漏抽和事件成分缺失的情况.为了解决这些问题,本文建立一个句法和语义依存分析相结合的中文事件抽取框架,归纳了4种常见缺省结构,并设计相应的补全规则.首先,基于句法依存树,分析动词词法和句法结构,建立核心动词链,使得每个核心动词对应一个事件,解决事件漏抽问题.然后,在句法依存树的基础上添加语义依存关系,建立事件间语义关联,得到句法语义依存分析(Syntactic Semantic Dependency Parsing,SSDP)树.第三,调整SSDP树,优化句法结构,形成SSDP图,使得同等句法结构的词结点处于相同层级,为后续事件抽取提供途径.第四,归纳4种常见缺省结构,设计相应补全规则,解决事件成分缺失问题.最后,在中文财经新闻标题和CoNLL2009中文语料上进行详细的实验测试,实验结果表明该方法是有效的. 展开更多
关键词 中文事件抽取 核心动词链 句法语义依存分析图 事件语义关联 缺省补全
下载PDF
考虑Web金融信息的上市企业财务危机预测模型研究 被引量:14
16
作者 边海容 万常选 +1 位作者 刘德喜 江腾蛟 《计算机科学》 CSCD 北大核心 2013年第11期295-298,315,共5页
以往财务危机预测研究主要基于财务指标,而随着研究的深入,财务指标本身的局限性也日益凸显,如财务报表的滞后性及财务数据易于被操纵等,这影响了财务危机预测模型的性能。鉴于此,通过情感倾向值的计算,将Web金融信息文本有效地数值化,... 以往财务危机预测研究主要基于财务指标,而随着研究的深入,财务指标本身的局限性也日益凸显,如财务报表的滞后性及财务数据易于被操纵等,这影响了财务危机预测模型的性能。鉴于此,通过情感倾向值的计算,将Web金融信息文本有效地数值化,并将其作为预测指标变量用于财务危机预测,使用LIBSVM分别构建纯财务指标预测模型和引入Web金融信息指标变量后的混合指标预测模型,并对模型的预测结果进行了比较分析。混合指标预测模型在预测的有效性、稳定性和超前性上均好于纯财务指标预测模型。 展开更多
关键词 情感分析 预测模型 Web金融信息 财务危机
下载PDF
基于关联规则挖掘和极性分析的商品评论情感词典构建 被引量:14
17
作者 钟敏娟 万常选 刘德喜 《情报学报》 CSSCI 北大核心 2016年第5期501-509,共9页
作为情感倾向性分析的基础性工作,情感词典构建包括情感词的识别与极性判断两大任务。本文以亚马逊网站上的音乐商品评论信息作为数据源,力图构建该领域的情感词典。首先利用关联规则挖掘算法充分挖掘领域主题词和情感词之间的关系,获... 作为情感倾向性分析的基础性工作,情感词典构建包括情感词的识别与极性判断两大任务。本文以亚马逊网站上的音乐商品评论信息作为数据源,力图构建该领域的情感词典。首先利用关联规则挖掘算法充分挖掘领域主题词和情感词之间的关系,获取体现领域特征的情感词;然后针对每个情感词,引入词项间的混合相关关系,结合PageRank模型构建情感词的量化图模型,获得每个情感词的极性。实验结果表明,本文所提方法能有效地构建音乐领域情感词典,不仅能够识别该领域特征的情感词,同时还能较为准确地判断该情感词的情感原极性。 展开更多
关键词 情感倾向性 情感词典 关联规则 PAGERANK 混合相关关系
下载PDF
基于结点权重模型的XML片段检索策略 被引量:5
18
作者 刘德喜 万常选 +2 位作者 刘喜平 钟敏娟 江腾蛟 《计算机学报》 EI CSCD 北大核心 2013年第8期1729-1744,共16页
当用户向XML检索引擎提交查询后,返回的结果通常远远多于用户的期望,返回结果中难免有一些不相关的文档或结点.对于以文档为中心的XML文档集合,XML片段检索是根据用户的查询,从XML检索引擎返回的XML文档或结点中抽取出仅包含数百字节的... 当用户向XML检索引擎提交查询后,返回的结果通常远远多于用户的期望,返回结果中难免有一些不相关的文档或结点.对于以文档为中心的XML文档集合,XML片段检索是根据用户的查询,从XML检索引擎返回的XML文档或结点中抽取出仅包含数百字节的片段,用户可以通过该片段判断片段所在的XML文档或结点与查询的真实相关性,以决定是否有必要进一步阅读,从而有效地提高从XML文档中获取信息的效率.该文提出了基于结点权重模型的XML片段检索策略.该策略先利用结点权重模型ATG(平均主题概括强度)对XML文档集中的标签或路径设置权重,再将该权重用于BM25模型,得到BM25NW检索模型.在利用BM25NW检索出XML结点后,对结点中定长窗口进行评分,考察其是否适合作为片段内容.最后在保证信息冗余较小的条件下,选择得分较高的窗口内容组成片段返回给用户.INEX 2011片段检索任务上的评测结果显示,基于结点权重模型ATG的XML片段检索策略具有很强的竞争力,性能明显优于其它参赛系统. 展开更多
关键词 XML片段检索 结点权重模型 平均主题概括强度 窗口
下载PDF
基于协陪义动词的中文隐式实体关系抽取 被引量:4
19
作者 万常选 甘丽新 +3 位作者 江腾蛟 刘德喜 刘喜平 刘玉 《计算机学报》 EI CSCD 北大核心 2019年第12期2795-2820,共26页
实体关系抽取的目标在于探测实体之间的显式关系和隐式关系.现有研究大多集中在显式实体关系抽取,而忽略了隐式实体关系抽取.针对旅游和新闻领域文本经常包含许多由协陪义动词引发的隐式实体关系,本文研究了基于协陪义动词的中文隐式实... 实体关系抽取的目标在于探测实体之间的显式关系和隐式关系.现有研究大多集中在显式实体关系抽取,而忽略了隐式实体关系抽取.针对旅游和新闻领域文本经常包含许多由协陪义动词引发的隐式实体关系,本文研究了基于协陪义动词的中文隐式实体关系抽取问题.将机器学习方法与规则相结合,借助于显式实体关系对隐式实体关系进行推理.首先,利用依存句法分析,设计了协陪义候选句型分类算法以及相应的协陪义成分识别算法;其次,根据协陪义成分和协陪义动词作用范围的特点,设计了三种句内基于协陪义动词的隐式实体关系推理规则;最后,利用协陪义句中零形回指的先行词,建立不同句子中协陪义动词的主体成分与客体成分之间的联系,实现句间基于协陪义动词的隐式实体关系抽取.另外,本文还提出了趋向核心动词特征提取算法,进一步提高了动词特征对显式实体关系抽取的效果.基于真实的旅游领域和新闻领域文本数据集进行了详细的实验测试,实验结果表明了方法的有效性. 展开更多
关键词 关系抽取 隐式关系 协陪义动词 显式关系 动词特征
下载PDF
基于词共现模型的常问问题集的自动问答系统研究 被引量:7
20
作者 钟敏娟 万常选 刘爱红 《情报学报》 CSSCI 北大核心 2009年第2期242-247,共6页
在自动问答系统中引入基于Frequendy asked questions(FAQ)的辅助模块满足常见问题的回答是一种有效的手段,其中关键问题是用户提出的问句与FAQ中问句的相似度比较,找出FAQ中最相似的问句,并返回对应的答案。本文将词共现模型引入到... 在自动问答系统中引入基于Frequendy asked questions(FAQ)的辅助模块满足常见问题的回答是一种有效的手段,其中关键问题是用户提出的问句与FAQ中问句的相似度比较,找出FAQ中最相似的问句,并返回对应的答案。本文将词共现模型引入到问句的相似度匹配中,利用互信息构造共现词汇,同时,结合相关关键词个数及问句长度等信息计算问句之间的相似度。相关实验结果表明,结合词共现模型的FAQ自动问答系统具有较高的准确率和较快的响应速度。 展开更多
关键词 自动问答 FAQ 词共现模型 相似度计算
下载PDF
上一页 1 2 4 下一页 到第
使用帮助 返回顶部