期刊文献+
共找到9篇文章
< 1 >
每页显示 20 50 100
基于共现概率训练的情感词典的扩充 被引量:3
1
作者 季鹏飞 王先超 张顺香 《阜阳师范学院学报(自然科学版)》 2019年第4期49-53,共5页
针对微博涌现出越来越多带有情感倾向的新词,为了将这些新词扩充到传统情感词典,本文提出基于共现概率训练的情感词典的扩充算法。首先进行文本预处理,然后运用共现概率以及新词情感概率判断新词是否可以扩充,并且计算已载入情感词典的... 针对微博涌现出越来越多带有情感倾向的新词,为了将这些新词扩充到传统情感词典,本文提出基于共现概率训练的情感词典的扩充算法。首先进行文本预处理,然后运用共现概率以及新词情感概率判断新词是否可以扩充,并且计算已载入情感词典的新词的新情感词情感倾向,最后迭代计算将新词扩充到情感词典。实验表明此扩充算法优于传统无监督学习算法。 展开更多
关键词 共现概率 情感词典 情感词 迭代
下载PDF
基于共现概率的三支聚类模型
2
作者 花遇春 赵燕 马建敏 《西北大学学报(自然科学版)》 CAS CSCD 北大核心 2022年第5期797-804,共8页
三支聚类对不确定对象引入了边界域,可以有效解决传统二支聚类方法中由于信息不完整而导致划分不准确的问题。如何获得三支聚类的核心域和边界域是目前研究三支聚类的重点之一。该文将共现概率与三支聚类相结合,提出了基于共现概率的三... 三支聚类对不确定对象引入了边界域,可以有效解决传统二支聚类方法中由于信息不完整而导致划分不准确的问题。如何获得三支聚类的核心域和边界域是目前研究三支聚类的重点之一。该文将共现概率与三支聚类相结合,提出了基于共现概率的三支聚类模型。首先,基于朴素贝叶斯确定两样本的共现概率;其次,给出了基于共现概率的相似关系及其粗糙集的下、上近似,获得三支聚类的核心域和边界域;最后,在UCI数据集上的实验结果显示,该方法提高了聚类精度,验证了其可行性。 展开更多
关键词 K-MEANS聚类 三支聚类 共现概率 朴素贝叶斯 相似关系
下载PDF
基于词典和统计的语料库词汇级对齐算法 被引量:8
3
作者 刘小虎 吴葳 +3 位作者 李生 赵铁军 蔡萌 鞠英杰 《情报学报》 CSSCI 北大核心 1997年第1期21-27,共7页
语料库词汇一级的对齐,对于充分发挥语料库的作用意义重大。本文对汉英句子一级对齐的语料库,提出了借助于词典和语料库统计信息的有效的对齐算法。首先利用词典的词的译文及其同义词在目标语中寻找对齐;其次利用汉语词汇与英语单词... 语料库词汇一级的对齐,对于充分发挥语料库的作用意义重大。本文对汉英句子一级对齐的语料库,提出了借助于词典和语料库统计信息的有效的对齐算法。首先利用词典的词的译文及其同义词在目标语中寻找对齐;其次利用汉语词汇与英语单词的共现统计信息以最大的互信息寻找对齐词汇以及相邻短语。 展开更多
关键词 语料库 词汇级对齐 共现概率 信息处理
下载PDF
自动分词中未登录词问题的一揽子解决方案 被引量:26
4
作者 陈小荷 《语言文字应用》 CSSCI 北大核心 1999年第3期103-109,共7页
确定未登录词边界是汉语自动分析中特有的一个问题,未登录词的种类和数量之多,是处理大规模真实文本的严重障碍。本文分析了现有的解决未登录词问题的各种方案,提出两趟分词、在“分词碎片”中计算单字成词概率和未登录词概率的一揽... 确定未登录词边界是汉语自动分析中特有的一个问题,未登录词的种类和数量之多,是处理大规模真实文本的严重障碍。本文分析了现有的解决未登录词问题的各种方案,提出两趟分词、在“分词碎片”中计算单字成词概率和未登录词概率的一揽子解决方案,并报告一个初步的、令人鼓舞的开放测试结果。 展开更多
关键词 未登录词 汉语自动分词 单字词 共现概率 计算语言学 语料库 一揽子解决方案 代汉语词典》 词性标注 最大匹配法
下载PDF
体裁互文性的度量 被引量:1
5
作者 万亚平 阳小华 +1 位作者 刘志明 张娟 《南华大学学报(自然科学版)》 2015年第3期64-68,共5页
在信息检索或资源推荐系统当中,用户查询和返回结果之间的匹配程度反映了用户满意程度.体裁可以作为除内容以外的另一种方式来提高用户检索体验.本文给出信息空间中体裁的基本概念,使用向量来定义体裁,并在此基础上给出体裁互文性的内... 在信息检索或资源推荐系统当中,用户查询和返回结果之间的匹配程度反映了用户满意程度.体裁可以作为除内容以外的另一种方式来提高用户检索体验.本文给出信息空间中体裁的基本概念,使用向量来定义体裁,并在此基础上给出体裁互文性的内在定义,用距离度量体裁互文性.此外根据语篇在信息处理过程中的共现概率,建立体裁互文性的外在定义,研究体裁互文性两种定义下的度量,证明体裁互文性两种定义的统一和量化计算的一致. 展开更多
关键词 体裁互文性 体裁向量 共现概率
下载PDF
增量跨模态检索方法 被引量:2
6
作者 江朝杰 杨良怀 +1 位作者 高楠 范玉雷 《小型微型计算机系统》 CSCD 北大核心 2021年第10期2234-2240,共7页
跨模态检索是可由一个模态样本查询能够返回另一模态语义相关结果的检索方法.但是在许多实际检索系统中,新数据是不断增量迭代的,这就要求检索模型具有良好的可扩展性.然而当下的大多数跨模态检索方法未聚焦于可扩展性的研究,无法平衡... 跨模态检索是可由一个模态样本查询能够返回另一模态语义相关结果的检索方法.但是在许多实际检索系统中,新数据是不断增量迭代的,这就要求检索模型具有良好的可扩展性.然而当下的大多数跨模态检索方法未聚焦于可扩展性的研究,无法平衡新知识和旧知识之间的关系.针对跨模态检索中存在的这个问题,本文提出了增量跨模态检索方法(Incremental Cross M odal Retrieval,ICM R).该方法仅使用增量样本数据集进行模型的扩展.所提方法包含两个阶段:阶段1是基于跨模态的知识蒸馏网络构建,目的是防止增量学习模型对旧数据集的灾难性遗忘;阶段2是生成不同模态哈希编码的特征表示,利用构建的新旧标签共现概率矩阵更有效的将新增类别语义信息加入到特征表示当中.实验表明基于跨模态的增量学习模型仍能保持旧数据集检索任务性能,并且在新增类样本集上也具有良好的检索精度. 展开更多
关键词 跨模态检索 蒸馏学习 共现概率矩阵 增量学习
下载PDF
应用联合极值分布评估热带气旋影响风险——以“海葵”对上海地区影响为例 被引量:8
7
作者 徐明 雷小途 杨秋珍 《灾害学》 CSCD 北大核心 2014年第3期124-130,共7页
热带气旋成灾是致灾因子、受灾对象的物理暴露与脆弱性以及应对灾害能力等共同作用的复杂的非线性过程。在应灾能力无显著变化的前提下,受灾风险大小及灾情轻重常与热带气旋风雨的影响强弱相一致。热带气旋风雨越大,越趋于小概率事件时... 热带气旋成灾是致灾因子、受灾对象的物理暴露与脆弱性以及应对灾害能力等共同作用的复杂的非线性过程。在应灾能力无显著变化的前提下,受灾风险大小及灾情轻重常与热带气旋风雨的影响强弱相一致。热带气旋风雨越大,越趋于小概率事件时,其超出承灾体忍受能力或设防标准可能性越大,导致严重灾害的可能性越大。所以,可根据热带气旋风雨强度的出现可能性大小确立风险阈值判据,以此评估影响风险程度。该研究应用了气象随机现象在时间域与空间域分布上具等价性的原理,以热带气旋"海葵"对上海地区影响为例开展试验,建立了以日降水量区域极值、极大风速区域极值为边际分布的热带气旋风雨影响强度联合分布模型。结果显示,根据联合分布模型得出的热带气旋影响风雨共现超越概率能较好地表征影响风险程度,尤其对受灾严重的高风险区有相当确定的鉴判。这为基于气象资料提高极端事件影响评估的准确性提供了有价值的思路,也为规避及转移风险或合理利用资源提供客观依据。 展开更多
关键词 热带气旋 联合极值分布 超越概率 风险评估 分区
下载PDF
对零回指缩略语的识别与还原技术初探
8
作者 郭晓翀 郑家恒 《计算机工程与设计》 CSCD 北大核心 2009年第5期1239-1241,1266,共4页
缩略语在汉语中的高频使用,使得缩略语的识别成为中文信息处理不可回避的问题。利用规则对初分词后形成的散串进行缩略语的识别,然后利用缩略语相对稳定的抽取规律这一特性,通过统计生成缩略语字对应原语言词的词典,利用匹配概率和共现... 缩略语在汉语中的高频使用,使得缩略语的识别成为中文信息处理不可回避的问题。利用规则对初分词后形成的散串进行缩略语的识别,然后利用缩略语相对稳定的抽取规律这一特性,通过统计生成缩略语字对应原语言词的词典,利用匹配概率和共现概率进行缩略语对应原语言的还原。在实验中,经封闭测试,缩略语的识别正确率为93.0%,召回率为94.3%,缩略语的还原正确率为72.3%。 展开更多
关键词 缩略语 原语言 零回指 共现概率 匹配概率
下载PDF
基于PPMI的异质属性网络嵌入
9
作者 东坤杰 周丽华 +2 位作者 朱月英 杜国王 黄通 《计算机研究与发展》 EI CSCD 北大核心 2022年第12期2781-2793,共13页
属性网络嵌入旨在映射网络中的节点和链接关系到低维空间,同时保留其固有的结构和属性特征.异质属性网络中多种类型的节点和链接关系给网络嵌入学习提供了丰富的辅助信息,同时也带来了新的挑战.提出异质属性网络嵌入模型(heterogeneous ... 属性网络嵌入旨在映射网络中的节点和链接关系到低维空间,同时保留其固有的结构和属性特征.异质属性网络中多种类型的节点和链接关系给网络嵌入学习提供了丰富的辅助信息,同时也带来了新的挑战.提出异质属性网络嵌入模型(heterogeneous attribute network embedding based on the PPMI,HANEP),旨在将网络中多种类型的节点和(或)多种类型的链接关系映射到低维、紧凑的空间,同时保护节点的属性特征和不同类型对象之间的异质链接承载的复杂、多样且丰富的语义信息.HANEP模型首先基于样本属性的相似性构建属性图、依据元路径抽取异质属性网络的拓扑结构,然后通过随机冲浪获得属性和拓扑概率共现(probabilistic co-occurrence,PCO)矩阵,并计算其正点对互信息(positive point-wise mutual information,PPMI),进而采用多个自编码器(auto-encoder,AE)捕捉节点属性和异质链接的本质信息.元路径可以捕捉异质网络中多种类型节点间的链接关系,构建属性图可以清晰描述节点属性的非线性流行结构,属性和拓扑的局部成对约束和图表示有助于整合节点属性和网络拓扑的一致性和互补性关系,PPMI表示可以捕捉属性和拓扑的高阶近邻信息及潜在的复杂非线性关系.在3个真实数据集上的实验结果验证了HANEP算法的有效性. 展开更多
关键词 网络分析 异质属性网络嵌入 自编码器 概率矩阵 正点对互信息
下载PDF
上一页 1 下一页 到第
使用帮助 返回顶部