期刊文献+
共找到8篇文章
< 1 >
每页显示 20 50 100
融合知识增强的ERNIE与神经网络的中文医疗关系提取
1
作者 李卫榜 佘文浩 杨茂 《西南民族大学学报(自然科学版)》 CAS 2024年第1期93-100,共8页
基于深度学习的方法在关系提取中通常只侧重于细粒度文本单元的表示,导致学习文本特征不足.提出了一种融合知识增强的ERNIE模型与神经网络相结合的方式去进行关系提取.该方法分为两个部分:首先通过知识增强来对文本向量化,具体是将细粒... 基于深度学习的方法在关系提取中通常只侧重于细粒度文本单元的表示,导致学习文本特征不足.提出了一种融合知识增强的ERNIE模型与神经网络相结合的方式去进行关系提取.该方法分为两个部分:首先通过知识增强来对文本向量化,具体是将细粒度文本单元与粗粒度文本单元进行加权平均的操作使其达到知识增强的效果,再将该单元进行预测后的结果进行RTD判断有无替代词产生.最后将文本特征向量输入到BiLSTM网络中,使其得到词的上下文语义信息,并进行句子序列打分,选择分数最高的即可.实验结果表明,该方法在进行关系提取时,得到准确率为95%,精确率为91%,召回率为92%,f1-score为92%,与已有的方法进行对比,均提升了5%以上,因此提出的方法效果明显. 展开更多
关键词 知识增强 关系提取 神经网络 自然语言处理
下载PDF
6G网络安全与隐私保护的研究现状及展望 被引量:1
2
作者 李玲 朱立东 李卫榜 《信息安全研究》 CSCD 2023年第9期822-831,共10页
5G网络部署的规模不断增长,虽然与4G相比优势明显,但是局限性也逐渐显现,这也促使针对6G网络技术开展研究.6G网络的复杂性和应用的多样性使得其安全问题更加突出,加上6G网络框架和相关技术很大程度上处于概念状态,其安全和隐私问题当前... 5G网络部署的规模不断增长,虽然与4G相比优势明显,但是局限性也逐渐显现,这也促使针对6G网络技术开展研究.6G网络的复杂性和应用的多样性使得其安全问题更加突出,加上6G网络框架和相关技术很大程度上处于概念状态,其安全和隐私问题当前仍处于探索阶段.对6G安全和隐私研究现状进行分析,指出6G面临的安全挑战,从物理层安全、人工智能(AI)、分布式账本技术(distributed ledger technology,DLT)、边缘计算等方面讨论了6G的潜在安全解决方案,最后对未来研究趋势进行了展望. 展开更多
关键词 6G 网络安全 隐私保护 人工智能安全 信息安全
下载PDF
基于ELECTRA与神经网络模型的中文医疗知识图谱实体识别 被引量:2
3
作者 佘文浩 李卫榜 +1 位作者 杨茂 崔梦天 《西南民族大学学报(自然科学版)》 CAS 2023年第2期197-205,共9页
如今随着互联网的发展,数据呈现的方式大不相同,然而知识图谱的出现,给人们提供了一种更好地组织、管理和理解海量信息的能力.知识图谱质量的高低与实体以及实体之间的关系存在密不可分的关系,从实体角度出发,研究实体识别方法.如今大... 如今随着互联网的发展,数据呈现的方式大不相同,然而知识图谱的出现,给人们提供了一种更好地组织、管理和理解海量信息的能力.知识图谱质量的高低与实体以及实体之间的关系存在密不可分的关系,从实体角度出发,研究实体识别方法.如今大多数深度学习模型对实体识别效果不错,但在语义信息方面没有考虑上下文信息,并且模型体积庞大,参数数量多,导致模型预测结果与真实结果误差大,能耗高.提出了一种ELECTRA模型与神经网络模型结合来进行命名体识别的方法,该方法降低能耗以及提升训练速度,同时又提高了实体识别的准确率等.该组合模型分为三块:首先对ELECTRA模型进行改进,输入文本进行[cls]以及[seq]处理,避免实体边界模糊问题.然后进行随机15%的Mask机制,经生成器预测,再经判别器判别,形成字向量.其次将字向量引入双向长短期记忆网络BiLSTM中,进行上下文语义增强后将句子序列打分.最后通过条件随机场CRF层找到最优的序列标签.实验结果表明,该方法在医疗语料库进行实体识别时,准确率为97.94%、召回率为95.41%、F1值为95.44%、精确率为95.46%,与已有的方法相比,提出的方法效果提升明显. 展开更多
关键词 知识图谱 实体识别 ELECTRA 医疗
下载PDF
分布式大数据函数依赖发现 被引量:9
4
作者 李卫榜 李战怀 +3 位作者 陈群 姜涛 刘海龙 潘巍 《计算机研究与发展》 EI CSCD 北大核心 2015年第2期282-294,共13页
在关系数据库中,函数依赖发现是一种十分重要的数据库分析技术,在知识发现、数据库语义分析、数据质量评估以及数据库设计等领域有着广泛的应用.现有的函数依赖发现算法主要针对集中式数据,通常仅适用于数据规模比较小的情况.在大数据... 在关系数据库中,函数依赖发现是一种十分重要的数据库分析技术,在知识发现、数据库语义分析、数据质量评估以及数据库设计等领域有着广泛的应用.现有的函数依赖发现算法主要针对集中式数据,通常仅适用于数据规模比较小的情况.在大数据背景下,分布式环境函数依赖发现更富有挑战性.提出了一种分布式环境下大数据的函数依赖发现算法,其基本思想是首先在各个节点利用本地数据并行进行函数依赖发现,基于以上发现的结果对函数依赖候选集进行剪枝,然后进一步利用函数依赖的左部(left hand side,LHS)的特征,对函数依赖候选集进行分组,针对每一组候选函数依赖并行执行分布式环境发现算法,最终得到所有函数依赖.对不同分组情况下所能检测的候选函数依赖数量进行了分析,在算法的执行过程中,综合考虑了数据迁移量和负载均衡的问题.在真实的大数据集上的实验表明,提出的检测算法在检测效率方面与已有方法相比有明显的提升. 展开更多
关键词 函数依赖发现 函数依赖 大数据 知识发现 并行计算
下载PDF
分布式大数据不一致性检测 被引量:7
5
作者 李卫榜 李战怀 +2 位作者 陈群 杨婧颖 姜涛 《软件学报》 EI CSCD 北大核心 2016年第8期2068-2085,共18页
关系数据库中可能存在数据不一致性现象,关系数据库数据质量的一个主要问题是存在违反函数依赖情况.为找出不一致数据,需要进行函数依赖冲突检测.集中式数据库中可以通过SQL技术检测不一致情况,尽管检测效率不高;而分布式环境下不一致... 关系数据库中可能存在数据不一致性现象,关系数据库数据质量的一个主要问题是存在违反函数依赖情况.为找出不一致数据,需要进行函数依赖冲突检测.集中式数据库中可以通过SQL技术检测不一致情况,尽管检测效率不高;而分布式环境下不一致性检测更富有挑战性,不仅需要考虑数据的迁移,检测任务如何分配也是一个难题.在大数据背景下,上述问题更加突出.提出了一种分布式环境单函数依赖不一致性检测方法,给出了不一致性检测响应时间代价模型.为减少数据迁移量和响应时间,基于等价类对待检测数据进行预处理.由于分布式环境不一致性检测问题为NP-hard问题,多项式时间内难以得到最优解,给出了代价模型的多项式时间3/2-近似最优解.提出了一种分布式环境多函数依赖不一致性检测方法,基于最小集合覆盖理论,通过一次数据遍历,对多个函数依赖进行并行批检测,同时考虑检测过程中的负载均衡等问题.在真实和人工数据集上的实验表明:相对于传统的检测方法以及基于Hadoop的Na?ve方法,所提出的检测方法检测效率有明显的提升,且扩展性能良好. 展开更多
关键词 函数依赖 不一致性 冲突检测 分布式数据 大数据
下载PDF
分布式大数据多函数依赖冲突检测 被引量:16
6
作者 李卫榜 李战怀 姜涛 《计算机学报》 EI CSCD 北大核心 2017年第1期144-160,共17页
关系数据库数据质量的一个主要问题是存在数据不一致现象.为找出不一致数据,需要进行函数依赖冲突检测.集中式数据库中可以通过SQL技术检测不一致情况,而分布式环境下的函数依赖冲突检测更富有挑战性,特别是大数据背景下,这个问题尤为突... 关系数据库数据质量的一个主要问题是存在数据不一致现象.为找出不一致数据,需要进行函数依赖冲突检测.集中式数据库中可以通过SQL技术检测不一致情况,而分布式环境下的函数依赖冲突检测更富有挑战性,特别是大数据背景下,这个问题尤为突出.分布式环境下的函数依赖冲突检测通常需要进行数据迁移,而且不同的数据迁移方法会对检测效率产生一定的影响.该文提出了一种基于等价类的分布式环境多个函数依赖冲突检测的方法,给出了冲突检测的响应时间代价模型.由于分布式环境函数依赖冲突检测问题的任务分配问题为NP-难问题,多项式时间内难以得到最优解,该文将不一致性检测响应时间最小化问题转化为整数规划问题,并给出了近似最优解.针对集群规模和函数依赖个数大小不同的情况,分别给出了不同的任务分配策略,并在检测过程中实现了动态负载均衡,有效提高了负载均衡度和检测效率.在真实和人工数据集上的实验表明,相对于集中式检测方法以及基于Hadoop的naive方法,该文提出的多函数依赖冲突检测方法检测效率有明显的提升,且在数据规模、节点个数和函数依赖个数等方面扩展性能良好. 展开更多
关键词 函数依赖 冲突检测 不一致性 分布式数据 大数据
下载PDF
基于数字签名与Trie的保序子矩阵约束查询 被引量:1
7
作者 姜涛 李战怀 +3 位作者 尚学群 陈伯林 李卫榜 殷知磊 《软件学报》 EI CSCD 北大核心 2017年第8期2175-2195,共21页
目前,基因芯片技术飞速发展,促使生物学家积累了大量的不同实验条件下的基因表达数据.事实证明,基因芯片数据分析在理解基因功能、基因调控和分子生命过程中发挥着重要作用.保序子矩阵(order-preserving submatrix,简称OPSM)是基因芯片... 目前,基因芯片技术飞速发展,促使生物学家积累了大量的不同实验条件下的基因表达数据.事实证明,基因芯片数据分析在理解基因功能、基因调控和分子生命过程中发挥着重要作用.保序子矩阵(order-preserving submatrix,简称OPSM)是基因芯片数据分析技术中的一种有效模型,其可以发现在部分基因和不同实验条件下具有相同表达趋势的聚类.在分析基因表达机理的过程中,OPSM的检索无疑节省了生物学家的时间与精力.目前,OPSM的查询主要是基于关键词的检索方法,但是分析者对结果具有微弱的控制力.通常,分析者所能决定的临时的参数设置往往偏离其领域知识,致使检索结果与真实想要的结果相去甚远.为了解决上述问题,提出两类基于数字签名与Trie的OPSM索引与约束查询方法.在真实数据上进行了大量的实验,实验结果表明,所提出的方法具有良好的有效性与可扩展性. 展开更多
关键词 基因表达数据 OPSM(order-preserving submatrix) 约束查询 数字签名 TRIE 枚举序列
下载PDF
基因表达数据中局部模式的查询 被引量:1
8
作者 姜涛 李战怀 +2 位作者 尚学群 陈伯林 李卫榜 《计算机科学》 CSCD 北大核心 2016年第7期191-196,223,共7页
基因表达数据分析一般是通过挖掘局部模式来实现的。保序子矩阵是局部模式挖掘中一种经典的模型,可以获取到在若干条件下表现出一致趋势的一组基因。高通量基因微阵列技术的进步,促进了海量基因表达数据的产生,使得对高性能基因表达数... 基因表达数据分析一般是通过挖掘局部模式来实现的。保序子矩阵是局部模式挖掘中一种经典的模型,可以获取到在若干条件下表现出一致趋势的一组基因。高通量基因微阵列技术的进步,促进了海量基因表达数据的产生,使得对高性能基因表达数据分析算法的需求极为迫切。现有方法大多数是通过批量挖掘的方法来分析数据,即使有通过查询方式来获取精确结果的方法,其全面性与性能也有待提高。为了提高数据分析的效率与准确性,首先提出一种基于前缀树的基因表达数据索引gIndex,然后给出了一种基于列关键词查询的保序子矩阵分析方法 GEQc。其不经过批量挖掘,只需要建立索引并通过关键词来完成正相关/负相关/时滞等模式的查询。实验结果表明,与现有方法相比,所提算法具有良好的数据分析效率与可扩展性。 展开更多
关键词 基因表达数据 局部模式 保序子矩阵 关键词查询
下载PDF
上一页 1 下一页 到第
使用帮助 返回顶部