期刊文献+
共找到9篇文章
< 1 >
每页显示 20 50 100
基于分布式语义学的中文语义关系量化研究
1
作者 林植楠 《现代语言学》 2024年第9期527-536,共10页
基于分布式语义学理论的词向量蕴含了丰富的语义信息,一定程度上标志着自然语言处理和计算语言学领域进入了大模型发展时代。由于词向量的可计算属性,逐渐发展出了多种基于词向量的语义计算任务,语义关系辨析便是语义计算任务当中重要... 基于分布式语义学理论的词向量蕴含了丰富的语义信息,一定程度上标志着自然语言处理和计算语言学领域进入了大模型发展时代。由于词向量的可计算属性,逐渐发展出了多种基于词向量的语义计算任务,语义关系辨析便是语义计算任务当中重要的一项。本研究基于fastText中文词向量和腾讯中文词向量的方法计算出表征语义关联强度的余弦相似度值,并得出以下结论:fastText中文词向量和腾讯中文词向量在辨别近义关系、反义关系、上下义关系、部分–整体关系这4种语义关系的任务上表现存在一定差异;通过比较Spearman相关系数,fastText中文词向量在实验数据上表现出其习得了更强的语义相似度特征,腾讯中文词向量则体现出其学习到了更强的语义相关度特征;在反义词辨析任务上,fastText中文词向量和腾讯中文词向量都在高度规约化的反义词对上计算出很高的余弦相似度值。The word embeddings, based on the distributed semantics theory, which contains rich linguistic information, have contributed a lot to the development of large language model (LLM) in the fields of natural language processing and computational linguistics. Due to the computable properties of word embeddings, various semantic computing tasks based on them have gradually emerged, among which semantic relation discrimination is an important task in semantic computation. In our study, we adopt two word-embedding methods, the fastText Chinese word embeddings and the Tencent Chinese word embeddings, to calculate Chinese semantic relations, where the cosine similarity is used to represent the semantic association strength between words. The following are our findings in this study: First, the fastText Chinese embeddings and the Tencent Chinese embeddings show some differences in the task of distinguishing the four types of semantic relation in Chinese, namely, synonymy, antonymy, hyponymy and meronymy;Second, by comparing the Spearman correlation coefficient, the fastText embeddings have acquired more knowledge of semantic similarity between words, while the Tencent Chinese word embeddings have acquired more knowledge of semantic relatedness between words;Third, both the fastText Chinese embeddings and the Tencent Chinese word embeddings give higher values of cosine similarity to highly conventionalized antonyms. 展开更多
关键词 分布式语义 词向量 语义关系计算 语义相似性 语义相关性
下载PDF
基于Agent的数据库分布式语义缓存 被引量:1
2
作者 富宇 唐国维 高雅田 《计算机工程》 CAS CSCD 北大核心 2009年第16期48-50,共3页
以大型数据库应用为背景,基于多Agent技术,构建一个分布式数据库访问平台。研究分布式环境下的语义缓存技术,提出一种Agent平台下的智能预取算法,以及一种改进的黑板模型,用于实现多Agent间的通信。在大型数据库系统上的性能测试结果表... 以大型数据库应用为背景,基于多Agent技术,构建一个分布式数据库访问平台。研究分布式环境下的语义缓存技术,提出一种Agent平台下的智能预取算法,以及一种改进的黑板模型,用于实现多Agent间的通信。在大型数据库系统上的性能测试结果表明,该方案对海量数据的统计查询性能有显著提高。 展开更多
关键词 多AGENT系统 分布式语义缓存 预取 黑板模型
下载PDF
基于分布式语义分析的学术创新跨领域演化探析
3
作者 陈柏彤 康宇杰 《图书情报工作》 CSSCI 北大核心 2024年第12期95-108,共14页
[目的/意义]学术创新研究对于把握科学发展规律,促进科研合作交流至关重要。针对当前学术创新相关研究在创新演化分析方面的不足,基于分布式语义分析技术,通过上下文挖掘考察同一学术创新在不同领域中的应用场景变化,跟踪并探析学术创... [目的/意义]学术创新研究对于把握科学发展规律,促进科研合作交流至关重要。针对当前学术创新相关研究在创新演化分析方面的不足,基于分布式语义分析技术,通过上下文挖掘考察同一学术创新在不同领域中的应用场景变化,跟踪并探析学术创新的跨领域演化特征。[方法/过程]围绕上述研究问题,首先构建探索性研究方案,包括学术创新的跨领域分布测度、分布式语义表征、领域间上下文差异性测度和领域演化特征词提取,其后选取具体创新对研究方案进行实证检验。[结果/结论]结果表明,构建的研究方案在实际应用中能够有效把握学术创新的跨领域分布情况及跨领域演化特征,相关成果有效拓展学术创新研究范畴,并将知识演化研究推进到创新实体层面,实现对具体创新在不同领域中的差异性演化情况的跟踪。 展开更多
关键词 学术创新 创新演化 分布式语义 创新扩散 知识演化
原文传递
一种分布式语义增强的词汇链文本表示模型构建方法 被引量:2
4
作者 曲云鹏 王文玲 《现代图书情报技术》 CSSCI 2016年第9期34-41,共8页
【目的】利用分布式语义关联计算词衔接关系,解决目前词汇链构建时存在的词间关系探测深度不够等问题,提高词汇链构建质量。【方法】对词汇链构建的技术方法进行归纳,利用WordNet词典关系来计算文本中语言单元的语义关联,利用分布式记... 【目的】利用分布式语义关联计算词衔接关系,解决目前词汇链构建时存在的词间关系探测深度不够等问题,提高词汇链构建质量。【方法】对词汇链构建的技术方法进行归纳,利用WordNet词典关系来计算文本中语言单元的语义关联,利用分布式记忆模型来计算语言单元之间的潜在语义关系,将这两种语义关系结合起来实现词汇链文本表示模型的构建。同时在理论研究的基础之上选择医学领域科技论文进行对比实验。【结果】在文本主题描述方面,本文方法的词汇链构建结果要优于非贪婪算法,算法耗时与非贪婪算法相当。【局限】算法耗时较长;没有完整考虑词衔接关系;只在对医学领域科技文献的主题识别中验证了该方法的有效性,还需要在更多领域进行证明。【结论】分布式语义关联可以识别潜在语义,对使用多元短语构建词汇链也有较大的帮助,能有效地增强词汇链构建效果。 展开更多
关键词 WORDNET 分布式记忆 词汇链 分布式语义
原文传递
语义仓储构建技术研究进展 被引量:1
5
作者 邹益民 张智雄 +1 位作者 钱力 王颖 《情报学报》 CSSCI 北大核心 2013年第1期13-21,共9页
如何对海量的RDF数据进行存储、查询、存取和推理是RDF数据管理研究领域最关心的问题之一,文章界定了语义仓储的概念及其与关系数据库管理系统的区别,根据语义存储介质和组织方式的不同对语义仓储进行了分类,结合实际的案例对基于内... 如何对海量的RDF数据进行存储、查询、存取和推理是RDF数据管理研究领域最关心的问题之一,文章界定了语义仓储的概念及其与关系数据库管理系统的区别,根据语义存储介质和组织方式的不同对语义仓储进行了分类,结合实际的案例对基于内存、基于传统数据库和原生方式存储模式的语义仓储的优缺点、适用范围和不同存储模式之间的区别和联系进行了分析,在语义仓储的分布式存储策略上,对集中式语义仓储和自组织语义仓储这两种网络结构的组织形式和应用系统做了综述,还对语义仓储测试基准及应用系统的研究进展进行了分析,讨论存在的问题及未来可能的研究方向。 展开更多
关键词 RDF存储 语义仓储 存储模式 分布式语义仓储 测试基准
下载PDF
基于语义相似度计算的临床诊断自动编码算法研究 被引量:12
6
作者 宁温馨 于明 《医学信息学杂志》 CAS 2016年第2期52-56,共5页
提出一种为中文临床诊断自动进行ICD-10编码的算法,利用分布式语义相似度计算方法计算文本语义相似度,考虑到中文的语言特点,不仅基于词语构建词向量,还基于汉字构建词向量,测试二者对查准率和查全率的影响。结果显示该算法在测试集上... 提出一种为中文临床诊断自动进行ICD-10编码的算法,利用分布式语义相似度计算方法计算文本语义相似度,考虑到中文的语言特点,不仅基于词语构建词向量,还基于汉字构建词向量,测试二者对查准率和查全率的影响。结果显示该算法在测试集上获得较高的准确率。 展开更多
关键词 自动编码 语义相似度 分布式语义 ICD-10
下载PDF
基于无监督学习的部分-整体关系获取 被引量:9
7
作者 贾真 何大可 +1 位作者 尹红风 李天瑞 《西南交通大学学报》 EI CSCD 北大核心 2014年第4期590-596,共7页
针对面向中文自由文本的部分-整体关系抽取问题,提出一种基于无监督学习的方法.首先提出子模式提取算法,从领域文本集中获取概念对和概念对所在上下文模式,利用概念对和概念对上下文模式建立分布式语义模型;然后采用协同聚类算法将具有... 针对面向中文自由文本的部分-整体关系抽取问题,提出一种基于无监督学习的方法.首先提出子模式提取算法,从领域文本集中获取概念对和概念对所在上下文模式,利用概念对和概念对上下文模式建立分布式语义模型;然后采用协同聚类算法将具有相同语义关系的概念对聚合成簇,通过训练L1正则化逻辑回归模型提取簇的特征并得到代表每个簇语义关系的概念对上下文模式;最后根据模式识别表达部分-整体关系的簇,从而获取部分-整体关系概念对.实验结果表明,该方法取得较好的性能,F度量达到68.97%,优于传统聚类方法(55.77%)和模式匹配方法(61.95%). 展开更多
关键词 本体 无监督学习 部分-整体关系 分布式语义模型 协同聚类
下载PDF
基于三元组文档表示的文本分类 被引量:1
8
作者 冯雪 《计算机工程与设计》 北大核心 2019年第2期394-398,共5页
为解决现有文档表示方法中不包含结构特征以及难以融入外部知识的问题,提出基于三元组的文档表示方法,并结合分布式向量语义表示。基于三元组的文档表示方法的另一个优势是可以非常方便地融入词向量特征,扩展三元组的语义表示。该方法... 为解决现有文档表示方法中不包含结构特征以及难以融入外部知识的问题,提出基于三元组的文档表示方法,并结合分布式向量语义表示。基于三元组的文档表示方法的另一个优势是可以非常方便地融入词向量特征,扩展三元组的语义表示。该方法在完全相同且不使用外部知识的实验设置下,能显著提升文本分类的性能;当词向量特征被利用后,文本分类性能增强了约0.8%;当融入自动抽取的外部背景三元组知识后,进一步带来了1.2%的性能提升。 展开更多
关键词 文档表示 文本分类 分布式语义 三元组 外部知识
下载PDF
基于免疫原理词表示的词相似度计算
9
作者 杨锦锋 关毅 《智能计算机与应用》 2015年第3期61-64,共4页
词相似度计算在自然语言处理、信息抽取等研究中发挥重要作用。基于语料的词相似度计算是一类重要方法,其基本思路是从语料中学习词的向量表示,基于向量余弦相似度值作为词的语义相似度。本文提出一种新的基于免疫原理词表示的词相似度... 词相似度计算在自然语言处理、信息抽取等研究中发挥重要作用。基于语料的词相似度计算是一类重要方法,其基本思路是从语料中学习词的向量表示,基于向量余弦相似度值作为词的语义相似度。本文提出一种新的基于免疫原理词表示的词相似度计算方法,并在Sem Eval 2012 Task 4数据上进行了验证并和其他方法进行比较,实验表明本文的方法是有效的,并且优于大多数比较系统。 展开更多
关键词 词相似度 词表示 免疫原理 分布式语义假设
下载PDF
上一页 1 下一页 到第
使用帮助 返回顶部