期刊文献+
共找到716篇文章
< 1 2 36 >
每页显示 20 50 100
Word Embeddings and Semantic Spaces in Natural Language Processing 被引量:1
1
作者 Peter J. Worth 《International Journal of Intelligence Science》 2023年第1期1-21,共21页
One of the critical hurdles, and breakthroughs, in the field of Natural Language Processing (NLP) in the last two decades has been the development of techniques for text representation that solves the so-called curse ... One of the critical hurdles, and breakthroughs, in the field of Natural Language Processing (NLP) in the last two decades has been the development of techniques for text representation that solves the so-called curse of dimensionality, a problem which plagues NLP in general given that the feature set for learning starts as a function of the size of the language in question, upwards of hundreds of thousands of terms typically. As such, much of the research and development in NLP in the last two decades has been in finding and optimizing solutions to this problem, to feature selection in NLP effectively. This paper looks at the development of these various techniques, leveraging a variety of statistical methods which rest on linguistic theories that were advanced in the middle of the last century, namely the distributional hypothesis which suggests that words that are found in similar contexts generally have similar meanings. In this survey paper we look at the development of some of the most popular of these techniques from a mathematical as well as data structure perspective, from Latent Semantic Analysis to Vector Space Models to their more modern variants which are typically referred to as word embeddings. In this review of algoriths such as Word2Vec, GloVe, ELMo and BERT, we explore the idea of semantic spaces more generally beyond applicability to NLP. 展开更多
关键词 Natural Language processing Vector Space Models Semantic Spaces Word Embeddings Representation Learning Text Vectorization Machine Learning Deep Learning
下载PDF
Comparative Analysis of Machine Learning Algorithms for Email Phishing Detection Using TF-IDF, Word2Vec, and BERT
2
作者 Arar Al Tawil Laiali Almazaydeh +3 位作者 Doaa Qawasmeh Baraah Qawasmeh Mohammad Alshinwan Khaled Elleithy 《Computers, Materials & Continua》 SCIE EI 2024年第11期3395-3412,共18页
Cybercriminals often use fraudulent emails and fictitious email accounts to deceive individuals into disclosing confidential information,a practice known as phishing.This study utilizes three distinct methodologies,Te... Cybercriminals often use fraudulent emails and fictitious email accounts to deceive individuals into disclosing confidential information,a practice known as phishing.This study utilizes three distinct methodologies,Term Frequency-Inverse Document Frequency,Word2Vec,and Bidirectional Encoder Representations from Transform-ers,to evaluate the effectiveness of various machine learning algorithms in detecting phishing attacks.The study uses feature extraction methods to assess the performance of Logistic Regression,Decision Tree,Random Forest,and Multilayer Perceptron algorithms.The best results for each classifier using Term Frequency-Inverse Document Frequency were Multilayer Perceptron(Precision:0.98,Recall:0.98,F1-score:0.98,Accuracy:0.98).Word2Vec’s best results were Multilayer Perceptron(Precision:0.98,Recall:0.98,F1-score:0.98,Accuracy:0.98).The highest performance was achieved using the Bidirectional Encoder Representations from the Transformers model,with Precision,Recall,F1-score,and Accuracy all reaching 0.99.This study highlights how advanced pre-trained models,such as Bidirectional Encoder Representations from Transformers,can significantly enhance the accuracy and reliability of fraud detection systems. 展开更多
关键词 ATTACKS email phishing machine learning security representations from transformers(BERT) text classifeir natural language processing(NLP)
下载PDF
Sentence,Phrase,and Triple Annotations to Build a Knowledge Graph of Natural Language Processing Contributions—A Trial Dataset 被引量:1
3
作者 Jennifer D’Souza Sören Auer 《Journal of Data and Information Science》 CSCD 2021年第3期6-34,共29页
Purpose:This work aims to normalize the NLPCONTRIBUTIONS scheme(henceforward,NLPCONTRIBUTIONGRAPH)to structure,directly from article sentences,the contributions information in Natural Language Processing(NLP)scholarly... Purpose:This work aims to normalize the NLPCONTRIBUTIONS scheme(henceforward,NLPCONTRIBUTIONGRAPH)to structure,directly from article sentences,the contributions information in Natural Language Processing(NLP)scholarly articles via a two-stage annotation methodology:1)pilot stage-to define the scheme(described in prior work);and 2)adjudication stage-to normalize the graphing model(the focus of this paper).Design/methodology/approach:We re-annotate,a second time,the contributions-pertinent information across 50 prior-annotated NLP scholarly articles in terms of a data pipeline comprising:contribution-centered sentences,phrases,and triple statements.To this end,specifically,care was taken in the adjudication annotation stage to reduce annotation noise while formulating the guidelines for our proposed novel NLP contributions structuring and graphing scheme.Findings:The application of NLPCONTRIBUTIONGRAPH on the 50 articles resulted finally in a dataset of 900 contribution-focused sentences,4,702 contribution-information-centered phrases,and 2,980 surface-structured triples.The intra-annotation agreement between the first and second stages,in terms of F1-score,was 67.92%for sentences,41.82%for phrases,and 22.31%for triple statements indicating that with increased granularity of the information,the annotation decision variance is greater.Research limitations:NLPCONTRIBUTIONGRAPH has limited scope for structuring scholarly contributions compared with STEM(Science,Technology,Engineering,and Medicine)scholarly knowledge at large.Further,the annotation scheme in this work is designed by only an intra-annotator consensus-a single annotator first annotated the data to propose the initial scheme,following which,the same annotator reannotated the data to normalize the annotations in an adjudication stage.However,the expected goal of this work is to achieve a standardized retrospective model of capturing NLP contributions from scholarly articles.This would entail a larger initiative of enlisting multiple annotators to accommodate different worldviews into a“single”set of structures and relationships as the final scheme.Given that the initial scheme is first proposed and the complexity of the annotation task in the realistic timeframe,our intraannotation procedure is well-suited.Nevertheless,the model proposed in this work is presently limited since it does not incorporate multiple annotator worldviews.This is planned as future work to produce a robust model.Practical implications:We demonstrate NLPCONTRIBUTIONGRAPH data integrated into the Open Research Knowledge Graph(ORKG),a next-generation KG-based digital library with intelligent computations enabled over structured scholarly knowledge,as a viable aid to assist researchers in their day-to-day tasks.Originality/value:NLPCONTRIBUTIONGRAPH is a novel scheme to annotate research contributions from NLP articles and integrate them in a knowledge graph,which to the best of our knowledge does not exist in the community.Furthermore,our quantitative evaluations over the two-stage annotation tasks offer insights into task difficulty. 展开更多
关键词 Scholarly knowledge graphs Open science graphs Knowledge representation Natural language processing Semantic publishing
下载PDF
基于业务流程的认知图谱 被引量:1
4
作者 刘耀 李雨萌 宋苗苗 《计算机应用》 CSCD 北大核心 2024年第6期1699-1705,共7页
针对目前软件项目开发过程中无法充分利用已有业务资源,进而导致开发效率低、能力弱等问题,通过研究业务资源之间的关联,提出一种基于业务流程的认知图谱。首先,通过正式文档抽取业务知识,提出建立知识层级的方法并修正;其次,通过代码... 针对目前软件项目开发过程中无法充分利用已有业务资源,进而导致开发效率低、能力弱等问题,通过研究业务资源之间的关联,提出一种基于业务流程的认知图谱。首先,通过正式文档抽取业务知识,提出建立知识层级的方法并修正;其次,通过代码特征挖掘与代码实体相似度判断构建代码网络表示模型;最后,利用实际业务数据进行实验验证,并与向量空间模型(VSM)、多样化排序和深度学习等方法进行对比。最终构建的基于业务流程的认知图谱在代码检索方面优于目前基于文本匹配的方法和深度学习算法,分别在前5准确率(precision@5)、平均精度均值(mAP)、归一化折扣增益值(?-NDCG)这3项指标上高过多样化排序的代码检索方法4.30、0.38和2.74个百分点,有效解决了潜在业务词汇识别、业务认知推理表示等多个问题,提升了代码检索效果与业务资源利用率。 展开更多
关键词 认知图谱 业务知识 网络表示模型 自然语言处理 软件开发过程
下载PDF
MCM-ICE:联合独立编码和协同编码的多模态分类模型
5
作者 郭锐锋 魏靖烜 +1 位作者 于碧辉 孙林壮 《小型微型计算机系统》 CSCD 北大核心 2024年第9期2080-2086,共7页
多模态数据处理是一个重要的研究领域,它可以通过结合文本、图像等多种信息来提高模型性能.然而,由于不同模态之间的异构性以及信息融合的挑战,设计有效的多模态分类模型仍然是一个具有挑战性的问题.本文提出了一种新的多模态分类模型—... 多模态数据处理是一个重要的研究领域,它可以通过结合文本、图像等多种信息来提高模型性能.然而,由于不同模态之间的异构性以及信息融合的挑战,设计有效的多模态分类模型仍然是一个具有挑战性的问题.本文提出了一种新的多模态分类模型——MCM-ICE,它通过联合独立编码和协同编码策略来解决特征表示和特征融合的挑战.MCM-ICE在Fashion-Gen和Hateful Memes Challenge两个数据集上进行了实验,结果表明该模型在这两项任务中均优于现有的最先进方法.本文还探究了协同编码模块Transformer输出层的不同向量选取对结果的影响,结果表明选取[CLS]向量和去除[CLS]的向量的平均池化向量可以获得最佳结果.消融研究和探索性分析支持了MCM-ICE模型在处理多模态分类任务方面的有效性. 展开更多
关键词 多模态数据处理 特征表示 特征融合 协同编码
下载PDF
利用BERT和覆盖率机制改进的HiNT文本检索模型
6
作者 邸剑 刘骏华 曹锦纲 《智能系统学报》 CSCD 北大核心 2024年第3期719-727,共9页
为有效提升文本语义检索的准确度,本文针对当前文本检索模型衡量查询和文档的相关性时不能很好地解决文本歧义和一词多义等问题,提出一种基于改进的分层神经匹配模型(hierarchical neural matching model,HiNT)。该模型先对文档的各个... 为有效提升文本语义检索的准确度,本文针对当前文本检索模型衡量查询和文档的相关性时不能很好地解决文本歧义和一词多义等问题,提出一种基于改进的分层神经匹配模型(hierarchical neural matching model,HiNT)。该模型先对文档的各个段提取关键主题词,然后用基于变换器的双向编码器(bidirectional encoder representations from transformers,BERT)模型将其编码为多个稠密的语义向量,再利用引入覆盖率机制的局部匹配层进行处理,使模型可以根据文档的局部段级别粒度和全局文档级别粒度进行相关性计算,提高检索的准确率。本文提出的模型在MS MARCO和webtext2019zh数据集上与多个检索模型进行对比,取得了最优结果,验证了本文提出模型的有效性。 展开更多
关键词 基于变换器的双向编码器 分层神经匹配模型 覆盖率机制 文本检索 语义表示 特征提取 自然语言处理 相似度 多粒度
下载PDF
结合语法规则和图神经网络的文本分类方法
7
作者 郑诚 肖双 《小型微型计算机系统》 CSCD 北大核心 2024年第11期2594-2601,共8页
图神经网络被广泛应用于文本分类任务,并取得了显著的效果.然而,现有基于图的文本分类模型存在全局上下文信息和局部特征信息提取不充分的问题.此外,现有方法在构建文本图时,仅在原始文本上使用滑动窗口建立单词之间的边,使模型无法捕... 图神经网络被广泛应用于文本分类任务,并取得了显著的效果.然而,现有基于图的文本分类模型存在全局上下文信息和局部特征信息提取不充分的问题.此外,现有方法在构建文本图时,仅在原始文本上使用滑动窗口建立单词之间的边,使模型无法捕捉到远距离的单词交互信息.针对上述问题,提出一种结合语法规则和图神经网络的文本分类模型.首先,在构建文本图时,除了使用滑动窗口在原始文本上建立单词间的边之外,还根据预定义的语法规则提取短语,以捕捉到远距离的单词交互信息;其次,利用Transformer编码器提取上下文信息,以丰富全局语义信息;同时,采用门控图神经网络提取文本的局部特征信息,以增强局部特征的表达能力.最后,将提取到的单词特征进行融合.在4个基准数据集上的实验结果验证了该模型相比于基线模型有较好的分类效果. 展开更多
关键词 文本分类 图神经网络 文本表示 深度学习 自然语言处理
下载PDF
基于KA-SRCN-pSTAP的低空风切变风速估计方法
8
作者 李海 朱玥琪 郭景瑞 《雷达科学与技术》 北大核心 2024年第3期255-264,共10页
针对由于独立同分布(IID)样本严重不足,导致极化空时自适应(pSTAP)处理性能下降,进而导致低空风切变风速估计不准确的问题,本文提出了一种基于知识辅助的稀疏表示杂波零陷极化空时自适应(KA-SRCN-pSTAP)的低空风切变风速估计方法。该方... 针对由于独立同分布(IID)样本严重不足,导致极化空时自适应(pSTAP)处理性能下降,进而导致低空风切变风速估计不准确的问题,本文提出了一种基于知识辅助的稀疏表示杂波零陷极化空时自适应(KA-SRCN-pSTAP)的低空风切变风速估计方法。该方法首先利用杂波脊的先验知识辅助构造极化空时稀疏字典,然后利用极化空时稀疏字典,通过SRCN算法挑选原子并对到杂波线性子空间补空间上的投影矩阵进行估计,从而得到pSTAP权矢量,最后构造pSTAP滤波器对地杂波进行抑制,准确估计低空风切变风速。该方法仅使用少量IID样本,将SRCN算法与极化-空时域相结合,完成对风切变风速的有效估计。仿真实验结果证明该方法可以有效实现少样本情况下的风速准确估计。 展开更多
关键词 机载双极化气象雷达 极化空时自适应处理 稀疏表示 地杂波抑制 风速估计
下载PDF
面向多核CPU与GPU平台的图处理系统关键技术综述 被引量:1
9
作者 张园 曹华伟 +5 位作者 张婕 申玥 孙一鸣 敦明 安学军 叶笑春 《计算机研究与发展》 EI CSCD 北大核心 2024年第6期1401-1428,共28页
图计算作为分析与挖掘关联关系的一种关键技术,已在智慧医疗、社交网络分析、金融反欺诈、地图道路规划、计算科学等领域广泛应用.当前,通用CPU与GPU架构的并行结构、访存结构、互连结构及同步机制的不断发展,使得多核CPU与GPU成为图处... 图计算作为分析与挖掘关联关系的一种关键技术,已在智慧医疗、社交网络分析、金融反欺诈、地图道路规划、计算科学等领域广泛应用.当前,通用CPU与GPU架构的并行结构、访存结构、互连结构及同步机制的不断发展,使得多核CPU与GPU成为图处理加速的常用平台.但由于图处理具有处理数据规模大、数据依赖复杂、访存计算比高等特性,加之现实应用场景下的图数据分布不规则且图中的顶点与边呈现动态变化,给图处理的性能提升和高可扩展性带来严峻挑战.为应对上述挑战,大量基于多核CPU与GPU平台的图处理系统被提出,并在该领域取得显著成果.为了让读者了解多核CPU与GPU平台上图处理优化相关技术的演化,首先剖析了图数据、图算法、图应用特性,并阐明图处理所面临的挑战.然后分类梳理了当前已有的基于多核CPU与GPU平台的图处理系统,并从加速图处理设计的角度,详细、系统地总结了关键优化技术,包括图数据预处理、访存优化、计算加速和数据通信优化等.最后对已有先进图处理系统的性能、可扩展性等进行分析,并从不同角度对图处理未来发展趋势进行展望,希望对从事图处理系统研究的学者有一定的启发. 展开更多
关键词 多核CPU与GPU平台 图处理系统 图数据表示 负载均衡 不规则访存 动态图处理
下载PDF
生成式人工智能及其教育应用的基本争议和对策 被引量:15
10
作者 苗逢春 《开放教育研究》 CSSCI 北大核心 2024年第1期4-15,共12页
本文是对联合国教科文组织《生成式人工智能教育与研究应用指南》的系列解读第二篇,着重讨论生成式人工智能及其教育应用引发的基本争议。“基于工作过程”技术缺陷,生成式人工智能已引发加速数据贫穷、技术不透明导致服务辖区内治理缺... 本文是对联合国教科文组织《生成式人工智能教育与研究应用指南》的系列解读第二篇,着重讨论生成式人工智能及其教育应用引发的基本争议。“基于工作过程”技术缺陷,生成式人工智能已引发加速数据贫穷、技术不透明导致服务辖区内治理缺失、未经许可搜集训练用数据、模型架构不可解释、基础模型不理解真实世界、生成的信息污染互联网、强势价值观投射、助长违法性深伪等多重争议。生成式人工智能会对平等、包容、学习主体能动性、价值观及语言文化多样性、知识建构的多元性等教育核心价值产生直接而深远的冲击,而这些核心价值应被秉承为考证生成式人工智能教育适用性的逻辑基点。决策者和实践者应遵循“优先管制、确保包容、引导应用”的逻辑路径,强化全系统监管法规和执法能力,确保教育生成式人工智能生态系统安全可信、自主可控、本地适用,进而通过能力建设和实践指导等措施引导合理的教育应用实践。 展开更多
关键词 生成式人工智能 内容加工 训练数据集来源 公平、包容及语言文化多样性
下载PDF
柴油机多源冲击振动信号稀疏表示及其故障诊断应用
11
作者 赵南洋 茆志伟 +1 位作者 张进杰 江志农 《噪声与振动控制》 CSCD 北大核心 2024年第4期125-131,152,共8页
柴油机在船舶、核电、车辆等领域应用广泛,对其进行监测与故障诊断具有重要意义。随着设备健康监测技术的发展,数据存储压力日益显著,信号稀疏表示成为一种有效的解决措施。针对柴油机振动信号具有强冲击、非平稳的特点,提出一种基于分... 柴油机在船舶、核电、车辆等领域应用广泛,对其进行监测与故障诊断具有重要意义。随着设备健康监测技术的发展,数据存储压力日益显著,信号稀疏表示成为一种有效的解决措施。针对柴油机振动信号具有强冲击、非平稳的特点,提出一种基于分解信号(Decomposed Signal,DS)字典的柴油机多源冲击信号稀疏表示方法,并以稀疏系数作为特征应用于柴油机气门间隙异常故障诊断。首先,采用变分时域分解(Variational Time-domain Decomposition,VTDD)对信号进行处理获得分解信号。然后,将分解信号组成DS字典。接着,通过正交匹配追踪(Orthogonal Matching Pursuit,OMP)算法实现原信号和分解冲击信号的稀疏表示。最后,以稀疏系数作为特征进行柴油机气门间隙异常故障诊断。测试结果表明,所提方法具有较好的应用效果,故障诊断准确率高于90%。 展开更多
关键词 故障诊断 柴油机 振动与冲击 信号分解 稀疏表示
下载PDF
基于概念预测和关系预测的AMR解析与对齐方法
12
作者 陈亮 高博飞 +1 位作者 常宝宝 张亦驰 《中文信息学报》 CSCD 北大核心 2024年第7期18-30,共13页
抽象语义表示(Abstract Meaning Representation,AMR)是一种深层次的句子级语义表示形式,其将句子中的语义信息抽象为由概念结点与关系组成的有向无环图,相比其他较为浅层的语义表示形式如语义角色标注、语义依存分析等,AMR因其出色的... 抽象语义表示(Abstract Meaning Representation,AMR)是一种深层次的句子级语义表示形式,其将句子中的语义信息抽象为由概念结点与关系组成的有向无环图,相比其他较为浅层的语义表示形式如语义角色标注、语义依存分析等,AMR因其出色的深层次语义信息捕捉能力,被广泛运用在例如信息抽取、智能问答、对话系统等多种下游任务中。AMR解析过程将自然语言转换成AMR图。虽然AMR图中的大部分概念结点和关系与句子中的词语具有较为明显的对齐关系,但原始的英文AMR语料中并没有给出具体的对齐信息。为了克服对齐信息不足给AMR解析以及AMR在下游任务上的应用造成的阻碍,Li等人[14]提出并标注了具有概念和关系对齐的中文AMR语料库。然而,现有的AMR解析方法并不能很好地在AMR解析的过程中利用和生成对齐信息。因此,该文首次提出了一种可以利用并且生成对齐信息的AMR解析方法,包括了概念预测和关系预测两个阶段。该文提出的方法具有高度的灵活性和可扩展性,实验结果表明,该方法在公开数据集CAMR 2.0和CAMRP 2022盲测集分别取得了77.6(+10.6)和70.7(+8.5)的Align Smatch分数,超过了过去基于序列到序列(Sequence-to-Sequence)模型的方法。该文同时对AMR解析的性能和细粒度指标进行详细的分析,并对存在的改进方向进行了展望。该文的代码和模型参数已经开源到https://github.com/pkunlp-icler/Two-Stage-CAMRP,供复现与参考。 展开更多
关键词 语义解析 抽象语义表示 中文自然语言处理
下载PDF
融合量子干涉信息的双重特征文本表示模型
13
作者 高珲 张鹏 张静 《模式识别与人工智能》 EI CSCD 北大核心 2024年第2期172-180,共9页
在信息检索领域,量子干涉理论已应用于文档相关性、次序效应等核心问题的研究中,旨在建模用户认知引起的类量子干涉现象.文中从语言理解的需求出发,利用量子理论的数学工具分析语义组合过程中存在的语义演化现象,提出融合量子干涉信息... 在信息检索领域,量子干涉理论已应用于文档相关性、次序效应等核心问题的研究中,旨在建模用户认知引起的类量子干涉现象.文中从语言理解的需求出发,利用量子理论的数学工具分析语义组合过程中存在的语义演化现象,提出融合量子干涉信息的双重特征文本表示模型(Quantum Interference Based Duet-Feature Text Representation Model,QDTM).模型以约化密度矩阵为语言表示的核心组件,有效建模维度级别的语义干涉信息.在此基础上,构建捕获全局特征信息与局部特征信息的模型结构,满足语言理解过程中不同粒度的语义特征需求.在文本分类数据集和问答数据集上的实验表明,QDTM的性能优于量子启发的语言模型和神经网络文本匹配模型. 展开更多
关键词 量子干涉 文本匹配 约化密度矩阵 语义表示 自然语言处理
下载PDF
面向过程文本的合规性检查方法
14
作者 林雷蕾 钱忱 +1 位作者 闻立杰 邱泓钧 《软件学报》 EI CSCD 北大核心 2024年第10期4696-4709,共14页
合规性检查是过程挖掘领域的重要场景之一,其目标是判断实际运行的业务行为与理想的业务行为是否一致,进而为业务过程管理提供决策依据.传统的合规性检查方法存在度量指标过多、效率低等问题.此外,现有研究在检查过程文本与过程模型之... 合规性检查是过程挖掘领域的重要场景之一,其目标是判断实际运行的业务行为与理想的业务行为是否一致,进而为业务过程管理提供决策依据.传统的合规性检查方法存在度量指标过多、效率低等问题.此外,现有研究在检查过程文本与过程模型之间的合规性时严重依赖专家知识.为此,提出面向过程文本的合规性检查方法.首先,基于过程模型的执行语义生成图轨迹,并利用词向量模型提取图轨迹中的结构特征.同时,引入霍夫曼树提升词向量模型的效率.接着,对过程文本和模型中的活动特征进行提取,并利用孪生机制提升训练效率.最后,对所有特征进行融合,并利用全连接层预测过程文本与过程模型之间的一致性得分.实验表明,所提方法的平均绝对误差值要比已有方法低2个百分点. 展开更多
关键词 过程挖掘 孪生机制 一致性度量 特征表示
下载PDF
左侧角回在词汇语义加工中的作用
15
作者 张向阳 王小娟 杨剑峰 《心理科学进展》 CSSCI CSCD 北大核心 2024年第4期616-626,共11页
大脑左侧角回是语言认知神经科学研究发现的一个重要语义加工脑区。该脑区在词汇语义加工中的具体功能还没有得到统一的认识,成为研究者广泛关注的热点和焦点问题。结构上,角回位于颞叶、枕叶和顶叶交接区,并且具有广泛的白质纤维束连接... 大脑左侧角回是语言认知神经科学研究发现的一个重要语义加工脑区。该脑区在词汇语义加工中的具体功能还没有得到统一的认识,成为研究者广泛关注的热点和焦点问题。结构上,角回位于颞叶、枕叶和顶叶交接区,并且具有广泛的白质纤维束连接,这决定了它可能具有跨区域信息整合的功能。它在高水平语义表征、模态和特征信息联合表征、语义关系表征以及语义整合加工中参与激活,可能是语义表征和加工的信息“聚合区”。然而,左侧角回在语义表征枢纽、语义执行控制加工、默认模式网络的语义加工三方面还存在功能争论,未来研究需要综合考虑左侧角回的解剖结构基础及其与广泛脑区连接的特点,对角回子区域的功能进行深入细致地探讨。 展开更多
关键词 左侧角回 语义表征 语义加工 聚合区
下载PDF
基于自然语言处理的意图驱动网络表征
16
作者 姬泽阳 杨春刚 +2 位作者 李富强 欧阳颖 刘祥林 《系统工程与电子技术》 EI CSCD 北大核心 2024年第1期318-325,共8页
巨量网络规模、复杂网络结构和低效人工配置等问题需要网络配置自动化和无人化。意图驱动网络可实现去人工的网络自动配置,其中意图表征是关键;然而,现有意图表征范式未能形成统一的标准语法规则。提出了自然语言处理与知识图谱相结合... 巨量网络规模、复杂网络结构和低效人工配置等问题需要网络配置自动化和无人化。意图驱动网络可实现去人工的网络自动配置,其中意图表征是关键;然而,现有意图表征范式未能形成统一的标准语法规则。提出了自然语言处理与知识图谱相结合的意图驱动网络表征系统,该系统支持语音、文本等形式的意图输入。所提意图表征方法利用文本检错、纠错和相似度检测技术提升了意图表征的效果,将意图表征结果保存为知识图谱,实现了标准、统一的语法规则,并通过实验验证了该系统的有效性。 展开更多
关键词 意图驱动网络 意图表征 自然语言处理 知识图谱
下载PDF
违实条件句前件小句语义表征加工机制的ERP研究
17
作者 梁牧寒 范琳 《语言科学》 CSSCI 北大核心 2024年第1期44-58,共15页
本研究采用ERP技术,通过操纵汉语违实条件句和因果条件句前件小句中语义信息与语境信息的一致性,对违实条件句前件小句语义表征加工的时间进程进行了考察。研究发现:1)在句首连词位置,“要是”比“因为”引发了更大的P3a成分和P600成分... 本研究采用ERP技术,通过操纵汉语违实条件句和因果条件句前件小句中语义信息与语境信息的一致性,对违实条件句前件小句语义表征加工的时间进程进行了考察。研究发现:1)在句首连词位置,“要是”比“因为”引发了更大的P3a成分和P600成分;2)在前件小句句中动词位置,语境不一致条件引发了更大的P600成分;3)在前件小句句末名词位置,在因果条件句中,语境不一致条件比一致条件诱发了更大的N400成分,而在违实条件句中该效应并未出现。结果表明,读者对汉语违实条件句前件小句中语义表征的加工分为三个阶段:首先,假设连词“要是”作为违实成分,引发了违实语境的建立;之后,读者建构并加工假设表征;最后读者建构起事实表征,并对假设表征和事实表征共同加工。本研究支持并扩展了双重表征理论。 展开更多
关键词 汉语违实条件句 前件小句 加工机制 双重表征 事件相关电位
下载PDF
深度学习中文本相似度计算研究综述
18
作者 徐传丽 周世杰 吴春江 《计算机应用与软件》 北大核心 2024年第11期1-14,共14页
文本相似度计算是自然语言处理的重要任务之一,通过总结分析学术界提出的经典方法和最新进展,对深度学习中文本相似度计算的文本表示和相似度计算两个模块进行分类整理和全面综述。社交网络的发展衍生出了短文本相似度计算这一重要子任... 文本相似度计算是自然语言处理的重要任务之一,通过总结分析学术界提出的经典方法和最新进展,对深度学习中文本相似度计算的文本表示和相似度计算两个模块进行分类整理和全面综述。社交网络的发展衍生出了短文本相似度计算这一重要子任务,因此针对每一模块,梳理文本相似度计算相关技术与理论基础,总结其在短文本中的具体应用及改进;整理文本相似度计算领域的常用数据集及评价指标;讨论文本相似度计算未来可能的发展方向。 展开更多
关键词 文本表示 文本相似度 短文本 自然语言处理 神经网络
下载PDF
基于霍克斯过程的动态异质网络表征学习方法
19
作者 陈蕾 邓琨 刘星妍 《电信科学》 北大核心 2024年第8期78-93,共16页
现有的异质网络表征学习方法主要关注静态网络,忽略了时间属性对节点表示的重要影响。然而,真实的异质信息网络极具动态性,节点和边的微小变化都可能影响整个结构和语义。鉴于此,提出了基于霍克斯过程的动态异质网络表征学习方法。首先... 现有的异质网络表征学习方法主要关注静态网络,忽略了时间属性对节点表示的重要影响。然而,真实的异质信息网络极具动态性,节点和边的微小变化都可能影响整个结构和语义。鉴于此,提出了基于霍克斯过程的动态异质网络表征学习方法。首先,利用关系旋转编码方式和注意力机制,学习相邻节点的注意力系数,获得节点的向量表示。其次,学习不同元路径的最优加权组合以更好捕获网络的结构和语义信息。最后,基于时间衰减效应,通过邻域形成序列将时间特征引入节点表示中,得到节点的最终嵌入表示。在多种基准数据集上的实验结果表明,所提方法在性能上显著优于对比模型。在节点分类任务中,Macro-F1平均提高了0.15%~3.45%,在节点聚类任务中,归一化互信息(normalized mutual information,NMI)值提高了1.08%~3.57%。 展开更多
关键词 网络表征学习 动态异质信息网络 注意力机制 元路径 霍克斯过程
下载PDF
基于双重多视角表示的目标级隐性情感分类
20
作者 崔蒙蒙 刘井平 +2 位作者 阮彤 宋雨秋 杜渂 《计算机工程》 CSCD 北大核心 2024年第1期79-90,共12页
目标级隐性情感分类是自然语言处理中一项重要的情感分析任务。目前多数研究主要侧重于对上下文感知的目标进行建模,且建模信息源较为单一,难以充分捕获到目标词在文本中的隐性情感。针对该问题,提出基于双重多视角表示学习的目标级隐... 目标级隐性情感分类是自然语言处理中一项重要的情感分析任务。目前多数研究主要侧重于对上下文感知的目标进行建模,且建模信息源较为单一,难以充分捕获到目标词在文本中的隐性情感。针对该问题,提出基于双重多视角表示学习的目标级隐性情感分类方法,采用3种视角对目标和输入文本进行建模,分别设计文本自身的表示学习、图视角下的表示学习以及外部知识视角下的表示学习,并通过卷积神经网络将3种视角下的表示进行深度融合。此外,同时采用上述3种视角对目标进行表示学习,将文本的语义表示和目标的语义表示相结合,并输入到情感极性分类器中。在5个公共数据集上进行实验并与8个基线模型的对比结果表明,该方法性能达到了最优水平,在News MTSC-mt和News MTSC-rw隐性情感分析数据集上的F1_m值分别比最好模型提高1.0%和2.6%,在Laptop14、Restaurant14和Twitter显性情感分析数据集上的F1_m值分别比最好模型提高3.6%、1.4%和1.6%。 展开更多
关键词 目标级隐性情感分类 自然语言处理 情感分析 双重多视角 表示学习
下载PDF
上一页 1 2 36 下一页 到第
使用帮助 返回顶部