期刊文献+
共找到16篇文章
< 1 >
每页显示 20 50 100
隐私计算的关键理论与前沿应用 被引量:1
1
作者 郑志明 何积丰 +5 位作者 唐立新 童咏昕 陈厅 谢国 王志衡 吴国政 《中国科学基金》 CSSCI CSCD 北大核心 2024年第4期603-611,共9页
基于国家自然科学基金委员会第352期“双清论坛”,本文介绍了隐私计算在服务国家数字经济重大战略需求的重要作用,分析了国内外对该研究聚焦点的布局情况,阐述了隐私计算的内涵与外延,回顾了隐私计算研究历程的三个维度:隐私加密、隐私... 基于国家自然科学基金委员会第352期“双清论坛”,本文介绍了隐私计算在服务国家数字经济重大战略需求的重要作用,分析了国内外对该研究聚焦点的布局情况,阐述了隐私计算的内涵与外延,回顾了隐私计算研究历程的三个维度:隐私加密、隐私脱密与非规则博弈下新型隐私计算,凝练了隐私计算的非规则博弈、全生命周期保护与联邦计算范式等关键科学问题,研讨该领域前沿应用与未来研究方向,力争进一步推动我国隐私计算理论、方法和技术的突破性发展与应用。 展开更多
关键词 隐私计算 加密与脱敏 非规则博弈 全生命周期 联邦计算
下载PDF
大数据治理的理论与技术专题前言 被引量:1
2
作者 杜小勇 杨晓春 童咏昕 《软件学报》 EI CSCD 北大核心 2023年第3期1007-1009,共3页
数字经济时代,数据已成为新型生产要素,大数据技术更是数据要素市场发展的核心科技引擎.然而,近年来大数据使用中普遍存在着“重采集轻管理、重规模轻质量、重利用轻安全”的现象.科学而有效地进行大数据治理将有助于提升数据质量、降... 数字经济时代,数据已成为新型生产要素,大数据技术更是数据要素市场发展的核心科技引擎.然而,近年来大数据使用中普遍存在着“重采集轻管理、重规模轻质量、重利用轻安全”的现象.科学而有效地进行大数据治理将有助于提升数据质量、降低管理成本、增强决策能力.本专题旨在探究大数据治理所面临的核心技术挑战,面向数据的全生命周期,不仅研究劣质数据的清洗与修复等数据治理技术,也讨论隐私安全与开放共享等内容,还研究利用区块链、联邦学习、知识图谱、数据定价等新技术形成大数据治理的新理论与新方法同时关注大数据治理在各应用领域的最新成果. 展开更多
关键词 大数据治理 理论与技术
下载PDF
跨信任域的联邦k-支配Skyline查询算法
3
作者 史烨轩 童咏昕 +2 位作者 周昊 许可 吕卫锋 《大数据》 2023年第4期32-43,共12页
k-支配Skyline查询是一种主流的Skyline查询变种,其在多目标决策与推荐领域有着广泛的应用。随着这些应用规模不断扩大,在由多个参与方组成的数据联邦中进行跨域k-支配Skyline查询的需求日益旺盛。然而,由于数据联邦中的参与方之间彼此... k-支配Skyline查询是一种主流的Skyline查询变种,其在多目标决策与推荐领域有着广泛的应用。随着这些应用规模不断扩大,在由多个参与方组成的数据联邦中进行跨域k-支配Skyline查询的需求日益旺盛。然而,由于数据联邦中的参与方之间彼此不互信,进行跨信任域的查询计算需引入大量安全操作,效率较低。为此提出了一种基于跨域隐私向量聚合的算法,从而实现高效的联邦k-支配Skyline查询,并运用一种密文压缩技术进一步优化查询效率,最后通过充分的实验验证了所提方案的优越性。 展开更多
关键词 k-支配Skyline查询 数据联邦 安全多方计算 同态加密
下载PDF
时空众包数据管理技术研究综述 被引量:56
4
作者 童咏昕 袁野 +2 位作者 成雨蓉 陈雷 王国仁 《软件学报》 EI CSCD 北大核心 2017年第1期35-58,共24页
近年来,众包为传统数据管理提供了一种通过汇聚群体智慧求解问题的新模式,并成为当前数据库领域的研究热点之一.特别是随着移动互联网技术与共享经济模式的快速发展,众包技术已融入到各类具有时空数据的应用场景中,例如各类O2O(online-t... 近年来,众包为传统数据管理提供了一种通过汇聚群体智慧求解问题的新模式,并成为当前数据库领域的研究热点之一.特别是随着移动互联网技术与共享经济模式的快速发展,众包技术已融入到各类具有时空数据的应用场景中,例如各类O2O(online-to-offline)应用、实时交通监控与动态物流管理等.简言之,这种应用众包技术处理时空数据的方式称为时空众包数据管理.对近期在时空众包数据管理方面的研究工作进行综述,首先阐述了时空众包的概念,解释了其与传统众包技术的关系,并介绍了各类典型的时空众包应用;随后描述了时空众包应用平台的工作流程及其任务特点;然后讨论了时空众包数据管理的3项核心研究问题和3类应用技术;最后,总结了时空众包数据管理技术的研究现状并展望了其未来潜在的研究方向,为相关研究人员提供了有价值的参考. 展开更多
关键词 时空众包 共享经济 O2O模式 任务分配 质量控制 隐私保护
下载PDF
一种挖掘压缩序列模式的有效算法 被引量:8
5
作者 童咏昕 张媛媛 +3 位作者 袁玫 马世龙 余丹 赵莉 《计算机研究与发展》 EI CSCD 北大核心 2010年第1期72-80,共9页
从序列数据库中挖掘频繁序列模式是数据挖掘领域的一个中心研究主题,而且该领域已经提出和研究了各种有效的序列模式挖掘算法.由于在挖掘过程中会产生大量的频繁序列模式,最近许多研究者已经不再聚焦于序列模式挖掘算法的效率,而更关注... 从序列数据库中挖掘频繁序列模式是数据挖掘领域的一个中心研究主题,而且该领域已经提出和研究了各种有效的序列模式挖掘算法.由于在挖掘过程中会产生大量的频繁序列模式,最近许多研究者已经不再聚焦于序列模式挖掘算法的效率,而更关注于如何让用户更容易地理解序列模式的结果集.受压缩频繁项集思想的启发,提出了一种CFSP(compressing frequent sequential patterns)算法,其可挖掘出少量有代表性的序列模式来表达全部频繁序列模式的信息,并且清除了大量的冗余序列模式.CFSP是一种two-steps的算法:在第1步,其获得了全部闭序列模式作为有代表性序列模式的候选集,与此同时还得到大多数的有代表性模式;在第2步,该算法只花费了少量的时间去发现剩余的有代表性序列模式.一个采用真实数据集与模拟数据集的实验研究也证明了CFSP算法具有高效性. 展开更多
关键词 挖掘序列模式 压缩 频繁模式挖掘 关联规则 数据挖掘
下载PDF
一种有效压缩频繁模式挖掘的算法
6
作者 童咏昕 马世龙 李钰 《北京航空航天大学学报》 EI CAS CSCD 北大核心 2009年第5期640-643,共4页
频繁模式挖掘的研究最近致力于在一个合理的容错范围内寻找有代表性的模式来压缩庞大的挖掘结果集.一种新型启发式算法AMSA(Approximating Mining based Simulated Annealing)被提出,其采用了模拟退火思想来保证有效性和压缩的质量.依据... 频繁模式挖掘的研究最近致力于在一个合理的容错范围内寻找有代表性的模式来压缩庞大的挖掘结果集.一种新型启发式算法AMSA(Approximating Mining based Simulated Annealing)被提出,其采用了模拟退火思想来保证有效性和压缩的质量.依据FIMI(Frequent Itemset Mining Implementations Repository)提供的公用数据集进行的实验结果也证明了这一结论.通过与FPclose算法和RPglobal算法分别进行了性能的比较,AMSA挖掘的结果集规模小于FPclose算法和RPglobal算法得到的结果集规模,特别是当支持度阈值很低时,RP-global不可在合理时间内产生结果集,AMSA却可在合理时间内得出较精准的结果集. 展开更多
关键词 数据挖掘 模拟退火 启发式方法
下载PDF
新型数据管理系统研究进展与趋势 被引量:32
7
作者 崔斌 高军 +3 位作者 童咏昕 许建秋 张东祥 邹磊 《软件学报》 EI CSCD 北大核心 2019年第1期164-193,共30页
随着各类新型计算技术和新兴应用领域的浮现,传统数据库技术面临新的挑战,正在从适用常规应用的单一处理方法逐步转为面向各类特殊应用的多种数据处理方式.分析并展望了新型数据管理系统的研究进展和趋势,涵盖分布式数据库、图数据库、... 随着各类新型计算技术和新兴应用领域的浮现,传统数据库技术面临新的挑战,正在从适用常规应用的单一处理方法逐步转为面向各类特殊应用的多种数据处理方式.分析并展望了新型数据管理系统的研究进展和趋势,涵盖分布式数据库、图数据库、流数据库、时空数据库和众包数据库等多个领域.具体而言:分布式数据管理技术是支持可扩展的海量数据处理的关键技术;以社交网络为代表的大规模图结构数据的处理需求带来了图数据库技术的发展;流数据管理技术用来应对数据动态变化的管理需求;时空数据库主要用于支持移动对象管理;对多源、异构而且劣质数据源的集成需求催生出新型的众包数据库技术.最后讨论了新型数据库管理系统的未来发展趋势. 展开更多
关键词 分布式数据库 图数据库 流数据库 时空数据库 众包数据库
下载PDF
空间众包环境下的3类对象在线任务分配 被引量:47
8
作者 宋天舒 童咏昕 +1 位作者 王立斌 许可 《软件学报》 EI CSCD 北大核心 2017年第3期611-630,共20页
随着移动互联网技术与O2O(offline-to-online)商业模式的发展,各类空间众包平台变得日益流行,如滴滴出行、百度外卖等空间众包平台更与人们日常生活密不可分.在空间众包研究中,任务分配问题更是其核心问题之一,该问题旨在研究如何将实... 随着移动互联网技术与O2O(offline-to-online)商业模式的发展,各类空间众包平台变得日益流行,如滴滴出行、百度外卖等空间众包平台更与人们日常生活密不可分.在空间众包研究中,任务分配问题更是其核心问题之一,该问题旨在研究如何将实时出现的空间众包任务分配给适宜的众包工人.但大部分现有研究所基于的假设过强,存在两类不足:(1)现有工作通常假设基于静态场景,即,全部众包任务和众包工人的时空信息在任务分配前已完整获知,但众包任务与众包工人在实际应用中动态出现,且需实时地对其进行任务分配,因此,现存研究结果在实际应用中缺乏可行性;(2)现有研究均假设仅有两类众包参与对象,即众包任务与众包工人,而忽略了第三方众包工作地点对任务分配的影响.综上所述,为弥补上述不足,提出了一类新型动态任务分配问题,即,空间众包环境下的3类对象在线任务分配.该问题不但囊括了任务分配中的3类研究对象,即众包任务、众包工人和众包工作地点,而且关注动态环境.进而设计了随机阈值算法,给出了该算法在最差情况下的竞争比分析.采用在线学习方法进一步优化了随机阈值算法,提出自适应随机阈值算法,并证明该优化策略可逼近随机阈值算法使用不同阈值所能达到的最佳效果.最终通过在真实数据集和具有不同分布人造数据集上进行的大量实验,验证了算法的效果与性能. 展开更多
关键词 空间众包 任务分配 在线算法 竞争比分析
下载PDF
大规模拼车算法研究进展 被引量:12
9
作者 徐毅 童咏昕 李未 《计算机研究与发展》 EI CSCD 北大核心 2020年第1期32-52,共21页
随着共享经济的发展,拼车这一由多位乘客协商共同乘坐同一辆车并分担费用的共享出行模式正得到广泛应用.在移动互联网与普适计算的推动下,拼车体现出数据量大、动态性强、目标多样、应用范围广等新特点.这些新特点使得求解大规模拼车问... 随着共享经济的发展,拼车这一由多位乘客协商共同乘坐同一辆车并分担费用的共享出行模式正得到广泛应用.在移动互联网与普适计算的推动下,拼车体现出数据量大、动态性强、目标多样、应用范围广等新特点.这些新特点使得求解大规模拼车问题的难度大大增加,并催生了众多大规模拼车算法的学术研究.拼车中各类关于社会影响因素的实际问题也成为新型研究热点.为了面向大规模拼车算法进行系统性介绍,首先介绍了拼车问题的概念定义与工作流程.随后,对大规模拼车系统的核心算法问题,即路线规划问题进行了系统地分类、介绍与分析,并进一步详细讨论了大规模拼车涉及的激励机制、隐私保护、安全保障等社会影响因素.最后,分析展望了该领域未来的潜在研究方向,为从事拼车算法的相关研究人员和从业者提供参考和帮助. 展开更多
关键词 拼车算法 路线规划 激励机制 隐私保护 安全保障
下载PDF
支撑人工智能的数据管理与分析技术专刊前言 被引量:1
10
作者 陈雷 王宏志 +1 位作者 童咏昕 高宏 《软件学报》 EI CSCD 北大核心 2021年第3期601-603,共3页
近年来,支撑人工智能的数据管理与分析技术正成为大数据和人工智能领域研究的热点问题之一.利用和发展数据管理与分析理论技术,为提升人工智能系统全生命周期的效率和有效性提供基础性支撑,必将进一步促进基于大数据的人工智能技术发展... 近年来,支撑人工智能的数据管理与分析技术正成为大数据和人工智能领域研究的热点问题之一.利用和发展数据管理与分析理论技术,为提升人工智能系统全生命周期的效率和有效性提供基础性支撑,必将进一步促进基于大数据的人工智能技术发展与其在更大范围的推广应用.本专刊聚焦在数据管理与人工智能融合发展的过程中,数据库技术对人工智能的优化支撑作用,包括两方面:(1)传统数据管理分析的理论技术对人工智能的数据和计算过程的优化;(2)传统数据管理系统设计理念对开发通用且易用型人工智能平台的促进作用. 展开更多
关键词 人工智能 数据管理 数据库技术 大数据 全生命周期 促进作用 利用和发展 基础性支撑
下载PDF
面向企业数据孤岛的联邦排序学习 被引量:15
11
作者 史鼎元 王晏晟 +1 位作者 郑鹏飞 童咏昕 《软件学报》 EI CSCD 北大核心 2021年第3期669-688,共20页
排序学习(learning-to-rank,简称LTR)模型在信息检索领域取得了显著成果,而该模型的传统训练方法需要收集大规模文本数据.然而,随着数据隐私保护日渐受到人们重视,从多个数据拥有者(如企业)手中收集数据训练排序学习模型的方式变得不可... 排序学习(learning-to-rank,简称LTR)模型在信息检索领域取得了显著成果,而该模型的传统训练方法需要收集大规模文本数据.然而,随着数据隐私保护日渐受到人们重视,从多个数据拥有者(如企业)手中收集数据训练排序学习模型的方式变得不可行.各企业之间数据被迫独立存储,形成了数据孤岛.由于排序模型训练需要使用查询记录、文档等诸多隐私信息,数据孤岛难以融合打通,这制约了排序学习模型的训练.联邦学习能够让多数据拥有方在隐私保护的前提下联合训练模型,是一种打通数据孤岛的新方法.在其启发下,提出了一种新的框架,即面向企业数据孤岛的联邦排序学习,它同时解决了联邦学习场景下排序学习所面临的两大挑战,即交叉特征生成与缺失标签处理.为了应对多方交叉特征的生成问题,使用了一种基于略图(sketch)数据结构与差分隐私的方法,其相比于传统加密方法具有更高的效率,同时还具有隐私性与结果精度的理论保证.为了应对缺失标签问题,提出了一种新的联邦半监督学习方法.最终,通过在公开数据集上的大量实验,验证了所提方法的有效性. 展开更多
关键词 排序学习 企业数据孤岛 联邦学习 略图 差分隐私
下载PDF
面向多方安全的数据联邦系统 被引量:4
12
作者 李书缘 季与点 +4 位作者 史鼎元 廖旺冬 张利鹏 童咏昕 许可 《软件学报》 EI CSCD 北大核心 2022年第3期1111-1127,共17页
大数据时代,数据作为生产要素具有重要价值.因此,通过数据共享实现大规模数据的分析挖掘与利用具有重要意义.然而,近年来日益严格的隐私安全保护要求使得数据分散异质的多方之间不能任意共享数据,加剧了“数据孤岛”问题.数据联邦能让... 大数据时代,数据作为生产要素具有重要价值.因此,通过数据共享实现大规模数据的分析挖掘与利用具有重要意义.然而,近年来日益严格的隐私安全保护要求使得数据分散异质的多方之间不能任意共享数据,加剧了“数据孤岛”问题.数据联邦能让多数据拥有方在保护隐私的前提下完成联合查询.因此,基于“数据不动计算动”的联邦计算思想实现了一种多方安全的关系型数据联邦系统.该系统适配多种关系型数据库,能够为用户屏蔽底层多数据拥有方的数据异构性.系统基于秘密共享实现了支持多方安全的基础操作多方安全算子库,优化了算子的结果重建过程,提高了其执行效率.在此基础上,系统支持求和、求均值、求最值、等值连接和任意连接等查询操作,并充分利用多方特点减少各数据拥有方之间的数据交互,降低安全开销,从而有效支持高效数据共享.最后,在标准测试数据集TPC-H上进行实验,实验结果说明:与目前的数据联邦系统SMCQL和Conclave相比,该系统能够支持更多的数据拥有方参与,并且在多种查询操作上有更高的执行效率,最快可超越现有系统3.75倍. 展开更多
关键词 数据联邦 数据库系统 安全多方计算
下载PDF
群体智能中的联邦学习算法综述 被引量:13
13
作者 杨强 童咏昕 +5 位作者 王晏晟 范力欣 王薇 陈雷 王魏 康焱 《智能科学与技术学报》 2022年第1期29-44,共16页
群体智能是在互联网高速普及下诞生的人工智能新范式。然而,数据孤岛与数据隐私保护问题导致群体间数据共享困难,群体智能应用难以构建。联邦学习是一类新兴的打破数据孤岛、联合构建群智模型的重要方法。首先,介绍了联邦学习的基础概... 群体智能是在互联网高速普及下诞生的人工智能新范式。然而,数据孤岛与数据隐私保护问题导致群体间数据共享困难,群体智能应用难以构建。联邦学习是一类新兴的打破数据孤岛、联合构建群智模型的重要方法。首先,介绍了联邦学习的基础概念以及其与群体智能的关系;其次,基于群体智能视角对联邦学习算法框架进行了分类,从隐私、精度与效率3个角度讨论了联邦学习算法优化技术;而后,阐述了基于线性模型、树模型与神经网络模型的联邦学习算法模型;最后,介绍了联邦学习代表性开源平台与典型应用,并对联邦学习研究进行总结展望。 展开更多
关键词 群体智能 联邦学习 隐私保护
下载PDF
基于TextCNN的加密恶意流量检测方法 被引量:6
14
作者 杨彦召 朱程威 +1 位作者 仇晶 童咏昕 《广州大学学报(自然科学版)》 CAS 2022年第1期1-9,共9页
随着互联网技术的飞速发展,95%的流量使用SSL/TLS协议进行加密,其中隐藏着大量的恶意流量。由于网络流量体量大、加密数据的不可见性,使得如何在不解密的前提下,检测加密恶意流量的研究成为一个重要课题。现有的基于模式匹配的方法,无... 随着互联网技术的飞速发展,95%的流量使用SSL/TLS协议进行加密,其中隐藏着大量的恶意流量。由于网络流量体量大、加密数据的不可见性,使得如何在不解密的前提下,检测加密恶意流量的研究成为一个重要课题。现有的基于模式匹配的方法,无法处理加密流量。基于统计特征和时序特征的方法,依赖专家经验,需要花费大量的时间,人工提取特征。文章将深度学习算法与加密恶意流量检测领域相结合,首先,对原始的网络流量进行切分、清洗、转换和修剪,变为统一长度的一维序列;然后,自定义TextCNN网络结构,通过多组一维卷积自动地从原始流量中提取上下文特征,并利用这些特征对流量进行分类。为了证明该方法的有效性,使用真实的网络流量样本进行实验,并与CNN、LSTM和GRU等网络模型进行对比。实验数据显示,文章提出的方法,在未知数据上具有较强的泛化能力,检测精度高,且误报率低。 展开更多
关键词 SSL/TLS 恶意软件 加密恶意流量检测 深度学习 TextCNN
下载PDF
Towards Better Understanding of App Functions 被引量:2
15
作者 童咏昕 余洁莹 陈雷 《Journal of Computer Science & Technology》 SCIE EI CSCD 2015年第5期1130-1140,共11页
Apps are attracting more and more attention from both mobile and web platforms. Due to the self-organized nature of the current app marketplaces, the descriptions of apps are not formally written and contain a lot of ... Apps are attracting more and more attention from both mobile and web platforms. Due to the self-organized nature of the current app marketplaces, the descriptions of apps are not formally written and contain a lot of noisy words and sentences. Thus, for most of the apps, the functions of them are not well documented and thus cannot be captured by app search engines easily. In this paper, we study the problem of inferring the real functions of an app by identifying the most informative words in its description. In order to utilize and integrate the diverse information of the app corpus in a proper way, we propose a probabilistic topic model to discover the latent data structure of the app corpus. The outputs of the topic model are further used to identify the function of an app and its most informative words. We verify the effectiveness of the proposed methods through extensive experiments on two real app datasets crawled from Google Play and Windows Phone Store, respectively. 展开更多
关键词 app function docmnent topic model
原文传递
Mining Frequent Itemsets in Correlated Uncertain Databases 被引量:1
16
作者 童咏昕 陈雷 余洁莹 《Journal of Computer Science & Technology》 SCIE EI CSCD 2015年第4期696-712,共17页
Recently, with the growing popularity of Internet of Things (IoT) and pervasive computing, a large amount of uncertain data, e.g., RFID data, sensor data, real-time video data, has been collected. As one of the most... Recently, with the growing popularity of Internet of Things (IoT) and pervasive computing, a large amount of uncertain data, e.g., RFID data, sensor data, real-time video data, has been collected. As one of the most fundamental issues of uncertain data mining, uncertain frequent pattern mining has attracted much attention in database and data mining communities. Although there have been some solutions for uncertain frequent pattern mining, most of them assume that the data is independent, which is not true in most real-world scenarios. Therefore, current methods that are based on the independent assumption may generate inaccurate results for correlated uncertain data. In this paper, we focus on the problem of mining frequent itemsets over correlated uncertain data, where correlation can exist in any pair of uncertain data objects (transactions). We propose a novel probabilistic model, called Correlated Frequent Probability model (CFP model) to represent the probability distribution of support in a given correlated uncertain dataset. Based on the distribution of support derived from the CFP model, we observe that some probabilistic frequent itemsets are only frequent in several transactions with high positive correlation. In particular, the itemsets, which are global probabilistic frequent, have more significance in eliminating the influence of the existing noise and correlation in data. In order to reduce redundant frequent itemsets, we further propose a new type of patterns, called global probabilistic frequent itemsets, to identify itemsets that are always frequent in each group of transactions if the whole correlated uncertain database is divided into disjoint groups based on their correlation. To speed up the mining process, we also design a dynamic programming solution, as well as two pruning and bounding techniques. Extensive experiments on both real and synthetic datasets verify the effectiveness and e?ciency of the proposed model and algorithms. 展开更多
关键词 CORRELATION uncertain data probabilistic frequent itemset
原文传递
上一页 1 下一页 到第
使用帮助 返回顶部