期刊文献+
共找到713篇文章
< 1 2 36 >
每页显示 20 50 100
Word Embeddings and Semantic Spaces in Natural Language Processing
1
作者 Peter J. Worth 《International Journal of Intelligence Science》 2023年第1期1-21,共21页
One of the critical hurdles, and breakthroughs, in the field of Natural Language Processing (NLP) in the last two decades has been the development of techniques for text representation that solves the so-called curse ... One of the critical hurdles, and breakthroughs, in the field of Natural Language Processing (NLP) in the last two decades has been the development of techniques for text representation that solves the so-called curse of dimensionality, a problem which plagues NLP in general given that the feature set for learning starts as a function of the size of the language in question, upwards of hundreds of thousands of terms typically. As such, much of the research and development in NLP in the last two decades has been in finding and optimizing solutions to this problem, to feature selection in NLP effectively. This paper looks at the development of these various techniques, leveraging a variety of statistical methods which rest on linguistic theories that were advanced in the middle of the last century, namely the distributional hypothesis which suggests that words that are found in similar contexts generally have similar meanings. In this survey paper we look at the development of some of the most popular of these techniques from a mathematical as well as data structure perspective, from Latent Semantic Analysis to Vector Space Models to their more modern variants which are typically referred to as word embeddings. In this review of algoriths such as Word2Vec, GloVe, ELMo and BERT, we explore the idea of semantic spaces more generally beyond applicability to NLP. 展开更多
关键词 Natural Language processing Vector Space Models Semantic Spaces Word Embeddings Representation Learning Text Vectorization Machine Learning Deep Learning
下载PDF
Sentence,Phrase,and Triple Annotations to Build a Knowledge Graph of Natural Language Processing Contributions—A Trial Dataset 被引量:1
2
作者 Jennifer D’Souza Sören Auer 《Journal of Data and Information Science》 CSCD 2021年第3期6-34,共29页
Purpose:This work aims to normalize the NLPCONTRIBUTIONS scheme(henceforward,NLPCONTRIBUTIONGRAPH)to structure,directly from article sentences,the contributions information in Natural Language Processing(NLP)scholarly... Purpose:This work aims to normalize the NLPCONTRIBUTIONS scheme(henceforward,NLPCONTRIBUTIONGRAPH)to structure,directly from article sentences,the contributions information in Natural Language Processing(NLP)scholarly articles via a two-stage annotation methodology:1)pilot stage-to define the scheme(described in prior work);and 2)adjudication stage-to normalize the graphing model(the focus of this paper).Design/methodology/approach:We re-annotate,a second time,the contributions-pertinent information across 50 prior-annotated NLP scholarly articles in terms of a data pipeline comprising:contribution-centered sentences,phrases,and triple statements.To this end,specifically,care was taken in the adjudication annotation stage to reduce annotation noise while formulating the guidelines for our proposed novel NLP contributions structuring and graphing scheme.Findings:The application of NLPCONTRIBUTIONGRAPH on the 50 articles resulted finally in a dataset of 900 contribution-focused sentences,4,702 contribution-information-centered phrases,and 2,980 surface-structured triples.The intra-annotation agreement between the first and second stages,in terms of F1-score,was 67.92%for sentences,41.82%for phrases,and 22.31%for triple statements indicating that with increased granularity of the information,the annotation decision variance is greater.Research limitations:NLPCONTRIBUTIONGRAPH has limited scope for structuring scholarly contributions compared with STEM(Science,Technology,Engineering,and Medicine)scholarly knowledge at large.Further,the annotation scheme in this work is designed by only an intra-annotator consensus-a single annotator first annotated the data to propose the initial scheme,following which,the same annotator reannotated the data to normalize the annotations in an adjudication stage.However,the expected goal of this work is to achieve a standardized retrospective model of capturing NLP contributions from scholarly articles.This would entail a larger initiative of enlisting multiple annotators to accommodate different worldviews into a“single”set of structures and relationships as the final scheme.Given that the initial scheme is first proposed and the complexity of the annotation task in the realistic timeframe,our intraannotation procedure is well-suited.Nevertheless,the model proposed in this work is presently limited since it does not incorporate multiple annotator worldviews.This is planned as future work to produce a robust model.Practical implications:We demonstrate NLPCONTRIBUTIONGRAPH data integrated into the Open Research Knowledge Graph(ORKG),a next-generation KG-based digital library with intelligent computations enabled over structured scholarly knowledge,as a viable aid to assist researchers in their day-to-day tasks.Originality/value:NLPCONTRIBUTIONGRAPH is a novel scheme to annotate research contributions from NLP articles and integrate them in a knowledge graph,which to the best of our knowledge does not exist in the community.Furthermore,our quantitative evaluations over the two-stage annotation tasks offer insights into task difficulty. 展开更多
关键词 Scholarly knowledge graphs Open science graphs Knowledge representation Natural language processing Semantic publishing
下载PDF
基于业务流程的认知图谱 被引量:1
3
作者 刘耀 李雨萌 宋苗苗 《计算机应用》 CSCD 北大核心 2024年第6期1699-1705,共7页
针对目前软件项目开发过程中无法充分利用已有业务资源,进而导致开发效率低、能力弱等问题,通过研究业务资源之间的关联,提出一种基于业务流程的认知图谱。首先,通过正式文档抽取业务知识,提出建立知识层级的方法并修正;其次,通过代码... 针对目前软件项目开发过程中无法充分利用已有业务资源,进而导致开发效率低、能力弱等问题,通过研究业务资源之间的关联,提出一种基于业务流程的认知图谱。首先,通过正式文档抽取业务知识,提出建立知识层级的方法并修正;其次,通过代码特征挖掘与代码实体相似度判断构建代码网络表示模型;最后,利用实际业务数据进行实验验证,并与向量空间模型(VSM)、多样化排序和深度学习等方法进行对比。最终构建的基于业务流程的认知图谱在代码检索方面优于目前基于文本匹配的方法和深度学习算法,分别在前5准确率(precision@5)、平均精度均值(mAP)、归一化折扣增益值(?-NDCG)这3项指标上高过多样化排序的代码检索方法4.30、0.38和2.74个百分点,有效解决了潜在业务词汇识别、业务认知推理表示等多个问题,提升了代码检索效果与业务资源利用率。 展开更多
关键词 认知图谱 业务知识 网络表示模型 自然语言处理 软件开发过程
下载PDF
MCM-ICE:联合独立编码和协同编码的多模态分类模型
4
作者 郭锐锋 魏靖烜 +1 位作者 于碧辉 孙林壮 《小型微型计算机系统》 CSCD 北大核心 2024年第9期2080-2086,共7页
多模态数据处理是一个重要的研究领域,它可以通过结合文本、图像等多种信息来提高模型性能.然而,由于不同模态之间的异构性以及信息融合的挑战,设计有效的多模态分类模型仍然是一个具有挑战性的问题.本文提出了一种新的多模态分类模型—... 多模态数据处理是一个重要的研究领域,它可以通过结合文本、图像等多种信息来提高模型性能.然而,由于不同模态之间的异构性以及信息融合的挑战,设计有效的多模态分类模型仍然是一个具有挑战性的问题.本文提出了一种新的多模态分类模型——MCM-ICE,它通过联合独立编码和协同编码策略来解决特征表示和特征融合的挑战.MCM-ICE在Fashion-Gen和Hateful Memes Challenge两个数据集上进行了实验,结果表明该模型在这两项任务中均优于现有的最先进方法.本文还探究了协同编码模块Transformer输出层的不同向量选取对结果的影响,结果表明选取[CLS]向量和去除[CLS]的向量的平均池化向量可以获得最佳结果.消融研究和探索性分析支持了MCM-ICE模型在处理多模态分类任务方面的有效性. 展开更多
关键词 多模态数据处理 特征表示 特征融合 协同编码
下载PDF
利用BERT和覆盖率机制改进的HiNT文本检索模型
5
作者 邸剑 刘骏华 曹锦纲 《智能系统学报》 CSCD 北大核心 2024年第3期719-727,共9页
为有效提升文本语义检索的准确度,本文针对当前文本检索模型衡量查询和文档的相关性时不能很好地解决文本歧义和一词多义等问题,提出一种基于改进的分层神经匹配模型(hierarchical neural matching model,HiNT)。该模型先对文档的各个... 为有效提升文本语义检索的准确度,本文针对当前文本检索模型衡量查询和文档的相关性时不能很好地解决文本歧义和一词多义等问题,提出一种基于改进的分层神经匹配模型(hierarchical neural matching model,HiNT)。该模型先对文档的各个段提取关键主题词,然后用基于变换器的双向编码器(bidirectional encoder representations from transformers,BERT)模型将其编码为多个稠密的语义向量,再利用引入覆盖率机制的局部匹配层进行处理,使模型可以根据文档的局部段级别粒度和全局文档级别粒度进行相关性计算,提高检索的准确率。本文提出的模型在MS MARCO和webtext2019zh数据集上与多个检索模型进行对比,取得了最优结果,验证了本文提出模型的有效性。 展开更多
关键词 基于变换器的双向编码器 分层神经匹配模型 覆盖率机制 文本检索 语义表示 特征提取 自然语言处理 相似度 多粒度
下载PDF
基于KA-SRCN-pSTAP的低空风切变风速估计方法
6
作者 李海 朱玥琪 郭景瑞 《雷达科学与技术》 北大核心 2024年第3期255-264,共10页
针对由于独立同分布(IID)样本严重不足,导致极化空时自适应(pSTAP)处理性能下降,进而导致低空风切变风速估计不准确的问题,本文提出了一种基于知识辅助的稀疏表示杂波零陷极化空时自适应(KA-SRCN-pSTAP)的低空风切变风速估计方法。该方... 针对由于独立同分布(IID)样本严重不足,导致极化空时自适应(pSTAP)处理性能下降,进而导致低空风切变风速估计不准确的问题,本文提出了一种基于知识辅助的稀疏表示杂波零陷极化空时自适应(KA-SRCN-pSTAP)的低空风切变风速估计方法。该方法首先利用杂波脊的先验知识辅助构造极化空时稀疏字典,然后利用极化空时稀疏字典,通过SRCN算法挑选原子并对到杂波线性子空间补空间上的投影矩阵进行估计,从而得到pSTAP权矢量,最后构造pSTAP滤波器对地杂波进行抑制,准确估计低空风切变风速。该方法仅使用少量IID样本,将SRCN算法与极化-空时域相结合,完成对风切变风速的有效估计。仿真实验结果证明该方法可以有效实现少样本情况下的风速准确估计。 展开更多
关键词 机载双极化气象雷达 极化空时自适应处理 稀疏表示 地杂波抑制 风速估计
下载PDF
生成式人工智能及其教育应用的基本争议和对策 被引量:12
7
作者 苗逢春 《开放教育研究》 北大核心 2024年第1期4-15,共12页
本文是对联合国教科文组织《生成式人工智能教育与研究应用指南》的系列解读第二篇,着重讨论生成式人工智能及其教育应用引发的基本争议。“基于工作过程”技术缺陷,生成式人工智能已引发加速数据贫穷、技术不透明导致服务辖区内治理缺... 本文是对联合国教科文组织《生成式人工智能教育与研究应用指南》的系列解读第二篇,着重讨论生成式人工智能及其教育应用引发的基本争议。“基于工作过程”技术缺陷,生成式人工智能已引发加速数据贫穷、技术不透明导致服务辖区内治理缺失、未经许可搜集训练用数据、模型架构不可解释、基础模型不理解真实世界、生成的信息污染互联网、强势价值观投射、助长违法性深伪等多重争议。生成式人工智能会对平等、包容、学习主体能动性、价值观及语言文化多样性、知识建构的多元性等教育核心价值产生直接而深远的冲击,而这些核心价值应被秉承为考证生成式人工智能教育适用性的逻辑基点。决策者和实践者应遵循“优先管制、确保包容、引导应用”的逻辑路径,强化全系统监管法规和执法能力,确保教育生成式人工智能生态系统安全可信、自主可控、本地适用,进而通过能力建设和实践指导等措施引导合理的教育应用实践。 展开更多
关键词 生成式人工智能 内容加工 训练数据集来源 公平、包容及语言文化多样性
下载PDF
柴油机多源冲击振动信号稀疏表示及其故障诊断应用
8
作者 赵南洋 茆志伟 +1 位作者 张进杰 江志农 《噪声与振动控制》 CSCD 北大核心 2024年第4期125-131,152,共8页
柴油机在船舶、核电、车辆等领域应用广泛,对其进行监测与故障诊断具有重要意义。随着设备健康监测技术的发展,数据存储压力日益显著,信号稀疏表示成为一种有效的解决措施。针对柴油机振动信号具有强冲击、非平稳的特点,提出一种基于分... 柴油机在船舶、核电、车辆等领域应用广泛,对其进行监测与故障诊断具有重要意义。随着设备健康监测技术的发展,数据存储压力日益显著,信号稀疏表示成为一种有效的解决措施。针对柴油机振动信号具有强冲击、非平稳的特点,提出一种基于分解信号(Decomposed Signal,DS)字典的柴油机多源冲击信号稀疏表示方法,并以稀疏系数作为特征应用于柴油机气门间隙异常故障诊断。首先,采用变分时域分解(Variational Time-domain Decomposition,VTDD)对信号进行处理获得分解信号。然后,将分解信号组成DS字典。接着,通过正交匹配追踪(Orthogonal Matching Pursuit,OMP)算法实现原信号和分解冲击信号的稀疏表示。最后,以稀疏系数作为特征进行柴油机气门间隙异常故障诊断。测试结果表明,所提方法具有较好的应用效果,故障诊断准确率高于90%。 展开更多
关键词 故障诊断 柴油机 振动与冲击 信号分解 稀疏表示
下载PDF
基于概念预测和关系预测的AMR解析与对齐方法
9
作者 陈亮 高博飞 +1 位作者 常宝宝 张亦驰 《中文信息学报》 CSCD 北大核心 2024年第7期18-30,共13页
抽象语义表示(Abstract Meaning Representation,AMR)是一种深层次的句子级语义表示形式,其将句子中的语义信息抽象为由概念结点与关系组成的有向无环图,相比其他较为浅层的语义表示形式如语义角色标注、语义依存分析等,AMR因其出色的... 抽象语义表示(Abstract Meaning Representation,AMR)是一种深层次的句子级语义表示形式,其将句子中的语义信息抽象为由概念结点与关系组成的有向无环图,相比其他较为浅层的语义表示形式如语义角色标注、语义依存分析等,AMR因其出色的深层次语义信息捕捉能力,被广泛运用在例如信息抽取、智能问答、对话系统等多种下游任务中。AMR解析过程将自然语言转换成AMR图。虽然AMR图中的大部分概念结点和关系与句子中的词语具有较为明显的对齐关系,但原始的英文AMR语料中并没有给出具体的对齐信息。为了克服对齐信息不足给AMR解析以及AMR在下游任务上的应用造成的阻碍,Li等人[14]提出并标注了具有概念和关系对齐的中文AMR语料库。然而,现有的AMR解析方法并不能很好地在AMR解析的过程中利用和生成对齐信息。因此,该文首次提出了一种可以利用并且生成对齐信息的AMR解析方法,包括了概念预测和关系预测两个阶段。该文提出的方法具有高度的灵活性和可扩展性,实验结果表明,该方法在公开数据集CAMR 2.0和CAMRP 2022盲测集分别取得了77.6(+10.6)和70.7(+8.5)的Align Smatch分数,超过了过去基于序列到序列(Sequence-to-Sequence)模型的方法。该文同时对AMR解析的性能和细粒度指标进行详细的分析,并对存在的改进方向进行了展望。该文的代码和模型参数已经开源到https://github.com/pkunlp-icler/Two-Stage-CAMRP,供复现与参考。 展开更多
关键词 语义解析 抽象语义表示 中文自然语言处理
下载PDF
融合量子干涉信息的双重特征文本表示模型
10
作者 高珲 张鹏 张静 《模式识别与人工智能》 EI CSCD 北大核心 2024年第2期172-180,共9页
在信息检索领域,量子干涉理论已应用于文档相关性、次序效应等核心问题的研究中,旨在建模用户认知引起的类量子干涉现象.文中从语言理解的需求出发,利用量子理论的数学工具分析语义组合过程中存在的语义演化现象,提出融合量子干涉信息... 在信息检索领域,量子干涉理论已应用于文档相关性、次序效应等核心问题的研究中,旨在建模用户认知引起的类量子干涉现象.文中从语言理解的需求出发,利用量子理论的数学工具分析语义组合过程中存在的语义演化现象,提出融合量子干涉信息的双重特征文本表示模型(Quantum Interference Based Duet-Feature Text Representation Model,QDTM).模型以约化密度矩阵为语言表示的核心组件,有效建模维度级别的语义干涉信息.在此基础上,构建捕获全局特征信息与局部特征信息的模型结构,满足语言理解过程中不同粒度的语义特征需求.在文本分类数据集和问答数据集上的实验表明,QDTM的性能优于量子启发的语言模型和神经网络文本匹配模型. 展开更多
关键词 量子干涉 文本匹配 约化密度矩阵 语义表示 自然语言处理
下载PDF
面向多核CPU与GPU平台的图处理系统关键技术综述
11
作者 张园 曹华伟 +5 位作者 张婕 申玥 孙一鸣 敦明 安学军 叶笑春 《计算机研究与发展》 EI CSCD 北大核心 2024年第6期1401-1428,共28页
图计算作为分析与挖掘关联关系的一种关键技术,已在智慧医疗、社交网络分析、金融反欺诈、地图道路规划、计算科学等领域广泛应用.当前,通用CPU与GPU架构的并行结构、访存结构、互连结构及同步机制的不断发展,使得多核CPU与GPU成为图处... 图计算作为分析与挖掘关联关系的一种关键技术,已在智慧医疗、社交网络分析、金融反欺诈、地图道路规划、计算科学等领域广泛应用.当前,通用CPU与GPU架构的并行结构、访存结构、互连结构及同步机制的不断发展,使得多核CPU与GPU成为图处理加速的常用平台.但由于图处理具有处理数据规模大、数据依赖复杂、访存计算比高等特性,加之现实应用场景下的图数据分布不规则且图中的顶点与边呈现动态变化,给图处理的性能提升和高可扩展性带来严峻挑战.为应对上述挑战,大量基于多核CPU与GPU平台的图处理系统被提出,并在该领域取得显著成果.为了让读者了解多核CPU与GPU平台上图处理优化相关技术的演化,首先剖析了图数据、图算法、图应用特性,并阐明图处理所面临的挑战.然后分类梳理了当前已有的基于多核CPU与GPU平台的图处理系统,并从加速图处理设计的角度,详细、系统地总结了关键优化技术,包括图数据预处理、访存优化、计算加速和数据通信优化等.最后对已有先进图处理系统的性能、可扩展性等进行分析,并从不同角度对图处理未来发展趋势进行展望,希望对从事图处理系统研究的学者有一定的启发. 展开更多
关键词 多核CPU与GPU平台 图处理系统 图数据表示 负载均衡 不规则访存 动态图处理
下载PDF
面向过程文本的合规性检查方法
12
作者 林雷蕾 钱忱 +1 位作者 闻立杰 邱泓钧 《软件学报》 EI CSCD 北大核心 2024年第10期4696-4709,共14页
合规性检查是过程挖掘领域的重要场景之一,其目标是判断实际运行的业务行为与理想的业务行为是否一致,进而为业务过程管理提供决策依据.传统的合规性检查方法存在度量指标过多、效率低等问题.此外,现有研究在检查过程文本与过程模型之... 合规性检查是过程挖掘领域的重要场景之一,其目标是判断实际运行的业务行为与理想的业务行为是否一致,进而为业务过程管理提供决策依据.传统的合规性检查方法存在度量指标过多、效率低等问题.此外,现有研究在检查过程文本与过程模型之间的合规性时严重依赖专家知识.为此,提出面向过程文本的合规性检查方法.首先,基于过程模型的执行语义生成图轨迹,并利用词向量模型提取图轨迹中的结构特征.同时,引入霍夫曼树提升词向量模型的效率.接着,对过程文本和模型中的活动特征进行提取,并利用孪生机制提升训练效率.最后,对所有特征进行融合,并利用全连接层预测过程文本与过程模型之间的一致性得分.实验表明,所提方法的平均绝对误差值要比已有方法低2个百分点. 展开更多
关键词 过程挖掘 孪生机制 一致性度量 特征表示
下载PDF
左侧角回在词汇语义加工中的作用
13
作者 张向阳 王小娟 杨剑峰 《心理科学进展》 CSCD 北大核心 2024年第4期616-626,共11页
大脑左侧角回是语言认知神经科学研究发现的一个重要语义加工脑区。该脑区在词汇语义加工中的具体功能还没有得到统一的认识,成为研究者广泛关注的热点和焦点问题。结构上,角回位于颞叶、枕叶和顶叶交接区,并且具有广泛的白质纤维束连接... 大脑左侧角回是语言认知神经科学研究发现的一个重要语义加工脑区。该脑区在词汇语义加工中的具体功能还没有得到统一的认识,成为研究者广泛关注的热点和焦点问题。结构上,角回位于颞叶、枕叶和顶叶交接区,并且具有广泛的白质纤维束连接,这决定了它可能具有跨区域信息整合的功能。它在高水平语义表征、模态和特征信息联合表征、语义关系表征以及语义整合加工中参与激活,可能是语义表征和加工的信息“聚合区”。然而,左侧角回在语义表征枢纽、语义执行控制加工、默认模式网络的语义加工三方面还存在功能争论,未来研究需要综合考虑左侧角回的解剖结构基础及其与广泛脑区连接的特点,对角回子区域的功能进行深入细致地探讨。 展开更多
关键词 左侧角回 语义表征 语义加工 聚合区
下载PDF
基于自然语言处理的意图驱动网络表征
14
作者 姬泽阳 杨春刚 +2 位作者 李富强 欧阳颖 刘祥林 《系统工程与电子技术》 EI CSCD 北大核心 2024年第1期318-325,共8页
巨量网络规模、复杂网络结构和低效人工配置等问题需要网络配置自动化和无人化。意图驱动网络可实现去人工的网络自动配置,其中意图表征是关键;然而,现有意图表征范式未能形成统一的标准语法规则。提出了自然语言处理与知识图谱相结合... 巨量网络规模、复杂网络结构和低效人工配置等问题需要网络配置自动化和无人化。意图驱动网络可实现去人工的网络自动配置,其中意图表征是关键;然而,现有意图表征范式未能形成统一的标准语法规则。提出了自然语言处理与知识图谱相结合的意图驱动网络表征系统,该系统支持语音、文本等形式的意图输入。所提意图表征方法利用文本检错、纠错和相似度检测技术提升了意图表征的效果,将意图表征结果保存为知识图谱,实现了标准、统一的语法规则,并通过实验验证了该系统的有效性。 展开更多
关键词 意图驱动网络 意图表征 自然语言处理 知识图谱
下载PDF
违实条件句前件小句语义表征加工机制的ERP研究
15
作者 梁牧寒 范琳 《语言科学》 北大核心 2024年第1期44-58,共15页
本研究采用ERP技术,通过操纵汉语违实条件句和因果条件句前件小句中语义信息与语境信息的一致性,对违实条件句前件小句语义表征加工的时间进程进行了考察。研究发现:1)在句首连词位置,“要是”比“因为”引发了更大的P3a成分和P600成分... 本研究采用ERP技术,通过操纵汉语违实条件句和因果条件句前件小句中语义信息与语境信息的一致性,对违实条件句前件小句语义表征加工的时间进程进行了考察。研究发现:1)在句首连词位置,“要是”比“因为”引发了更大的P3a成分和P600成分;2)在前件小句句中动词位置,语境不一致条件引发了更大的P600成分;3)在前件小句句末名词位置,在因果条件句中,语境不一致条件比一致条件诱发了更大的N400成分,而在违实条件句中该效应并未出现。结果表明,读者对汉语违实条件句前件小句中语义表征的加工分为三个阶段:首先,假设连词“要是”作为违实成分,引发了违实语境的建立;之后,读者建构并加工假设表征;最后读者建构起事实表征,并对假设表征和事实表征共同加工。本研究支持并扩展了双重表征理论。 展开更多
关键词 汉语违实条件句 前件小句 加工机制 双重表征 事件相关电位
下载PDF
基于霍克斯过程的动态异质网络表征学习方法
16
作者 陈蕾 邓琨 刘星妍 《电信科学》 北大核心 2024年第8期78-93,共16页
现有的异质网络表征学习方法主要关注静态网络,忽略了时间属性对节点表示的重要影响。然而,真实的异质信息网络极具动态性,节点和边的微小变化都可能影响整个结构和语义。鉴于此,提出了基于霍克斯过程的动态异质网络表征学习方法。首先... 现有的异质网络表征学习方法主要关注静态网络,忽略了时间属性对节点表示的重要影响。然而,真实的异质信息网络极具动态性,节点和边的微小变化都可能影响整个结构和语义。鉴于此,提出了基于霍克斯过程的动态异质网络表征学习方法。首先,利用关系旋转编码方式和注意力机制,学习相邻节点的注意力系数,获得节点的向量表示。其次,学习不同元路径的最优加权组合以更好捕获网络的结构和语义信息。最后,基于时间衰减效应,通过邻域形成序列将时间特征引入节点表示中,得到节点的最终嵌入表示。在多种基准数据集上的实验结果表明,所提方法在性能上显著优于对比模型。在节点分类任务中,Macro-F1平均提高了0.15%~3.45%,在节点聚类任务中,归一化互信息(normalized mutual information,NMI)值提高了1.08%~3.57%。 展开更多
关键词 网络表征学习 动态异质信息网络 注意力机制 元路径 霍克斯过程
下载PDF
基于双重多视角表示的目标级隐性情感分类
17
作者 崔蒙蒙 刘井平 +2 位作者 阮彤 宋雨秋 杜渂 《计算机工程》 CSCD 北大核心 2024年第1期79-90,共12页
目标级隐性情感分类是自然语言处理中一项重要的情感分析任务。目前多数研究主要侧重于对上下文感知的目标进行建模,且建模信息源较为单一,难以充分捕获到目标词在文本中的隐性情感。针对该问题,提出基于双重多视角表示学习的目标级隐... 目标级隐性情感分类是自然语言处理中一项重要的情感分析任务。目前多数研究主要侧重于对上下文感知的目标进行建模,且建模信息源较为单一,难以充分捕获到目标词在文本中的隐性情感。针对该问题,提出基于双重多视角表示学习的目标级隐性情感分类方法,采用3种视角对目标和输入文本进行建模,分别设计文本自身的表示学习、图视角下的表示学习以及外部知识视角下的表示学习,并通过卷积神经网络将3种视角下的表示进行深度融合。此外,同时采用上述3种视角对目标进行表示学习,将文本的语义表示和目标的语义表示相结合,并输入到情感极性分类器中。在5个公共数据集上进行实验并与8个基线模型的对比结果表明,该方法性能达到了最优水平,在News MTSC-mt和News MTSC-rw隐性情感分析数据集上的F1_m值分别比最好模型提高1.0%和2.6%,在Laptop14、Restaurant14和Twitter显性情感分析数据集上的F1_m值分别比最好模型提高3.6%、1.4%和1.6%。 展开更多
关键词 目标级隐性情感分类 自然语言处理 情感分析 双重多视角 表示学习
下载PDF
基于用户权威度和多特征融合的微博谣言检测模型
18
作者 许莉芬 曹霑懋 +1 位作者 郑明杰 肖博健 《计算机工程与科学》 CSCD 北大核心 2024年第4期752-760,共9页
网络谣言的广泛传播及其对社会的负面影响急切需要高效的谣言检测模型。由于数据集的文本缺乏语义信息和严格的句法结构,结合用户特征和语境特征来丰富语义信息显得很有意义。对此,提出一种基于用户权威度和多特征融合的微博谣言检测模... 网络谣言的广泛传播及其对社会的负面影响急切需要高效的谣言检测模型。由于数据集的文本缺乏语义信息和严格的句法结构,结合用户特征和语境特征来丰富语义信息显得很有意义。对此,提出一种基于用户权威度和多特征融合的微博谣言检测模型MRUAMF。首先,抽取出用户信息完整度、用户活跃度、用户交际广度和用户平台认证指数4项指标构建用户权威度定量计算模型,通过级联用户权威度及其构成指标,并使用2层全连接网络融合特征,有效量化用户特征。其次,考虑到语境对谣言理解的有效性,提取相关语境特征。最后,使用BERT预训练模型提取文本特征,并结合多模态适应门MAG融合用户特征、语境特征与文本特征。在微博数据集上进行的实验表明,相比基线模型,MRUAMF模型的检测性能更优,准确率达0.941。 展开更多
关键词 谣言检测 BERT MAG 用户权威度 层次分析法
下载PDF
基于BERT与细粒度特征提取的数据法学问答系统
19
作者 宋文豪 汪洋 +2 位作者 朱苏磊 张倩 吴晓燕 《上海师范大学学报(自然科学版中英文)》 2024年第2期211-216,共6页
首先利用bidirectional encoder representations from transformers(BERT)模型的强大的语境理解能力来提取数据法律文本的深层语义特征,然后引入细粒度特征提取层,依照注意力机制,重点关注文本中与数据法律问答相关的关键部分,最后对... 首先利用bidirectional encoder representations from transformers(BERT)模型的强大的语境理解能力来提取数据法律文本的深层语义特征,然后引入细粒度特征提取层,依照注意力机制,重点关注文本中与数据法律问答相关的关键部分,最后对所采集的法律问答数据集进行训练和评估.结果显示:与传统的多个单一模型相比,所提出的模型在准确度、精确度、召回率、F1分数等关键性能指标上均有提升,表明该系统能够更有效地理解和回应复杂的数据法学问题,为研究数据法学的专业人士和公众用户提供更高质量的问答服务. 展开更多
关键词 bidirectional encoder representations from transformers(BERT)模型 细粒度特征提取 注意力机制 自然语言处理(NLP)
下载PDF
Classification of Conversational Sentences Using an Ensemble Pre-Trained Language Model with the Fine-Tuned Parameter
20
作者 R.Sujatha K.Nimala 《Computers, Materials & Continua》 SCIE EI 2024年第2期1669-1686,共18页
Sentence classification is the process of categorizing a sentence based on the context of the sentence.Sentence categorization requires more semantic highlights than other tasks,such as dependence parsing,which requir... Sentence classification is the process of categorizing a sentence based on the context of the sentence.Sentence categorization requires more semantic highlights than other tasks,such as dependence parsing,which requires more syntactic elements.Most existing strategies focus on the general semantics of a conversation without involving the context of the sentence,recognizing the progress and comparing impacts.An ensemble pre-trained language model was taken up here to classify the conversation sentences from the conversation corpus.The conversational sentences are classified into four categories:information,question,directive,and commission.These classification label sequences are for analyzing the conversation progress and predicting the pecking order of the conversation.Ensemble of Bidirectional Encoder for Representation of Transformer(BERT),Robustly Optimized BERT pretraining Approach(RoBERTa),Generative Pre-Trained Transformer(GPT),DistilBERT and Generalized Autoregressive Pretraining for Language Understanding(XLNet)models are trained on conversation corpus with hyperparameters.Hyperparameter tuning approach is carried out for better performance on sentence classification.This Ensemble of Pre-trained Language Models with a Hyperparameter Tuning(EPLM-HT)system is trained on an annotated conversation dataset.The proposed approach outperformed compared to the base BERT,GPT,DistilBERT and XLNet transformer models.The proposed ensemble model with the fine-tuned parameters achieved an F1_score of 0.88. 展开更多
关键词 Bidirectional encoder for representation of transformer conversation ensemble model fine-tuning generalized autoregressive pretraining for language understanding generative pre-trained transformer hyperparameter tuning natural language processing robustly optimized BERT pretraining approach sentence classification transformer models
下载PDF
上一页 1 2 36 下一页 到第
使用帮助 返回顶部