近年来,联邦学习成为解决机器学习中数据孤岛与隐私泄露问题的新思路。联邦学习架构不需要多方共享数据资源,只要参与方在本地数据上训练局部模型,并周期性地将参数上传至服务器来更新全局模型,就可以获得在大规模全局数据上建立的机器学习模型。联邦学习架构具有数据隐私保护的特质,是未来大规模数据机器学习的新方案。然而,该架构的参数交互方式可能导致数据隐私泄露。目前,研究如何加强联邦学习架构中的隐私保护机制已经成为新的热点。从联邦学习中存在的隐私泄露问题出发,探讨了联邦学习中的攻击模型与敏感信息泄露途径,并重点综述了联邦学习中的几类隐私保护技术:以差分隐私为基础的隐私保护技术、以同态加密为基础的隐私保护技术、以安全多方计算(SMC)为基础的隐私保护技术。最后,探讨了联邦学习中隐私保护中的若干关键问题,并展望了未来研究方向。
虚拟数字货币为恐怖分子融资、洗钱、毒品交易等犯罪活动提供了温床,而门罗币作为新兴数字货币的代表,具有公认的高匿名性。针对利用门罗币匿名性犯罪的问题,从技术角度探索门罗币匿名技术及其追踪技术,综述近年来的研究进展,从而为有效应对基于区块链技术的犯罪提供技术支持。具体来说,总结了门罗币匿名技术的演进,并梳理了学术界关于门罗币匿名技术的追溯对策。首先,在匿名技术中,介绍了环签名、保证不可链接性(一次性公钥)、保证不可追溯性、提高匿名性的重要版本升级等。然后,在追踪技术中,介绍了0-mixin攻击、输出合并攻击、最新猜测攻击、封闭集攻击、泛洪攻击、恶意远程节点攻击、钱包环攻击等攻击方法。最后,基于对匿名技术和追溯对策的分析,得出了四点结论:门罗币的匿名技术和追踪技术的发展相互促进;RingCT的应用是一把双刃剑,既使得从币值出发的被动攻击方法失效,也使得主动攻击方法更加容易奏效;输出合并攻击和0-mixin攻击具有互补作用;门罗币的系统安全链条仍待理顺。
联邦学习(FL)可以有效保护用户的个人数据不被攻击者获得,而差分隐私(DP)则可以实现FL的隐私增强,解决模型训练参数导致的隐私泄露问题。然而,现有的基于DP的FL方法只关注统一的隐私保护预算,而忽略了用户的个性化隐私需求。针对此问题,提出了一种两阶段的基于个性化差分隐私的联邦学习(PDP-FL)算法。在第一阶段,依据用户的隐私偏好对用户隐私进行分级,并添加满足用户隐私偏好的噪声,以实现个性化隐私保护,同时上传隐私偏好对应的隐私等级给中央聚合服务器;在第二阶段,为实现对全局数据的充分保护,采取本地和中心同时保护的策略,并根据用户上传的隐私等级,添加符合全局DP阈值的噪声,以量化全局的隐私保护水平。实验结果表明,在MNIST和CIFAR-10数据集上,PDP-FL算法的分类准确度分别为93.8%~94.5%和43.4%~45.2%,优于基于本地化差分隐私的联邦学习(LDP-Fed)和基于全局差分隐私的联邦学习(GDP-FL),同时满足了个性化隐私保护的需求。
针对当前区块链技术飞速发展的过程中,不同区块链之间相对孤立,数据不能交互共享的问题,提出一种基于星火区块链的跨链机制。首先,对常见跨链技术和当前主流跨链项目作了分析,研究了不同技术和项目的实现原理,并总结了它们的区别和优缺点;然后,利用主子链模式的区块链架构,设计了智能合约组件、交易校验组件、交易超时组件等关键核心组件,并详细阐述了跨链过程的交易发起、交易路由、交易核验、交易确认这四个阶段;最后,设计了可行的实验进行性能测试和安全性测试,并对安全性进行了分析。实验结果表明,星火区块链在交易延迟、吞吐量和尖峰冲击测试等方面相比其他区块链有较显著的优势;另外在恶意节点的比例较低时,跨链交易的成功率为100%,不同子链间可以安全稳定地进行跨链交易。该机制解决了区块链之间数据交互共享的问题,能为下一步星火区块链应用场景的设计提供技术参考。
智能合约技术作为区块链2.0的里程碑,受到学术界与企业界的广泛关注。智能合约运行在不具有可信计算环境的底层基础设施上,并且具有区别于传统程序的特性,在自身的安全性上存在许多影响很大的漏洞,针对它进行安全审计的研究也成为区块链安全领域的热门与亟需解决的关键科学问题。针对智能合约的漏洞检测与自动化修复,首先介绍智能合约漏洞的主要漏洞类型与分类;然后,调研回顾近五年智能合约漏洞检测的三类最重要的方法,并介绍每类方法具有代表性和创新性的研究技术;其次,详细介绍智能合约升级方案与具有前沿性的自动化修复技术;最后,分析与展望了面向在线、实时、多平台、自动化与智能化需求的智能合约漏洞检测与自动化修复技术的挑战与未来可展开的工作,并提出技术解决方案的框架。
联邦学习(FL)是一种新兴的隐私保护机器学习(ML)范式,然而它的分布式的训练结构更易受到投毒攻击的威胁:攻击者通过向中央服务器上传投毒模型以污染全局模型,减缓全局模型收敛并降低全局模型精确度。针对上述问题,提出一种基于生成对抗网络(GAN)的投毒攻击检测方案。首先,将良性本地模型输入GAN产生检测样本;其次,使用生成的检测样本检测客户端上传的本地模型;最后,根据检测指标剔除投毒模型。同时,所提方案定义了F1值损失和精确度损失这两项检测指标检测投毒模型,将检测范围从单一类型的投毒攻击扩展至全部两种类型的投毒攻击;设计阈值判定方法处理误判问题,确保误判鲁棒性。实验结果表明,在MNIST和Fashion-MNIST数据集上,所提方案能够生成高质量检测样本,并有效检测与剔除投毒模型;与使用收集测试数据和使用生成测试数据但仅使用精确度作为检测指标的两种检测方案相比,所提方案的全局模型精确度提升了2.7~12.2个百分点。
在网络安全威胁日趋严峻、安全防御手段日益复杂的情况下,零信任网络能够对传统边界安全架构进行全新的评估和审视。零信任强调不要永远信任,而且要持续验证,而零信任网络不以位置标识身份,所有访问控制严格执行最小权限,所有访问过程被实时跟踪和动态评估。首先,给出了零信任网络的基本定义,指出了传统边界安全暴露出的主要问题,并描述了零信任网络模型;其次,分析了软件定义边界(SDP)、身份和访问管理、微隔离、自动配置管理系统(ACMS)等零信任网络中的关键技术;最后,对零信任网络进行了总结,并展望未来发展。
针对时间序列的数据不平衡和高度复杂的时间相关性导致的异常检测准确率低的问题,以生成对抗网络(GAN)作为基础提出一种基于再编码的无监督时间序列异常检测模型RTGAN。首先,使用具有周期一致性的多个生成器保证生成样本的多样性,从而学习不同的异常模式;其次,使用堆叠式LSTM-dropout RNN捕获时间相关性;然后,使用二次编码在潜在空间中比较生成样本和真实样本之间的差异,并将此差异作为再编码误差当作异常分数的一部分,从而提高异常检测的准确率;最后,使用新的异常分数对单变量和多变量时间序列数据集进行异常检测。将所提模型与七种基线异常检测模型在单变量和多变量时间序列上进行了比较。实验结果表明,所提模型在所有数据集上均获得了最高的平均F1值(0.815),并且总体性能分别比原始自编码器(AE)模型Dense-AE和最新的基准模型USAD高出36.29%和8.52%。通过不同的信噪比(SNR)检测模型的健壮性,结果表明所提模型一直优于LSTM-VAE、USAD和OmniAnomaly,尤其在SNR为30%情况下,RTGAN的F1值分别比USAD和OmniAnomaly高出13.53%和10.97%。可见所提模型能有效提高异常检测的准确率和鲁棒性。
针对当前医疗数据共享时访问控制粒度过粗、共享灵活性低、集中式医疗数据共享平台存在数据泄露的安全隐患等问题,提出一种基于区块链的医疗数据分级访问控制与共享系统。首先,对医疗数据按照敏感度分级,并提出了密文策略属性基分级加密(CP-ABHE)算法,实现对不同敏感度医疗数据的访问控制。该算法使用合并访问控制树和结合对称加密方法提升密文策略属性基加密(CP-ABE)算法的性能,并使用多授权中心解决密钥托管问题。然后,采用基于许可区块链的医疗数据共享模式解决集中式共享平台存在的中心化信任问题。安全性分析结果表明,所提系统在数据共享过程中保证了数据的安全性,可以抵御用户合谋攻击和权威合谋攻击。实验结果表明,CP-ABHE算法拥有比CP-ABE算法更低的计算开销,所提系统的最大平均时延为7.8 s,最高吞吐量为每秒处理236个事务,符合预期性能要求。
在深度学习中图像分类任务研究里发现,对抗攻击现象给深度学习模型的安全应用带来了严峻挑战,引发了研究人员的广泛关注。首先,围绕深度学习中用于生成对抗扰动的对抗攻击技术,对图像分类任务中重要的白盒对抗攻击算法进行了详细介绍,同时分析了各个攻击算法的优缺点;然后,分别从移动终端、人脸识别和自动驾驶三个现实中的应用场景出发,介绍了白盒对抗攻击技术的应用现状;此外,选择了一些典型的白盒对抗攻击算法针对不同的目标模型进行了对比实验并分析了实验结果;最后,对白盒对抗攻击技术进行了总结,并展望了其有价值的研究方向。
针对深度神经网络(DNN)中的可解释性导致模型信息泄露的问题,证明了在白盒环境下利用Grad-CAM解释方法产生对抗样本的可行性,并提出一种无目标的黑盒攻击算法——动态遗传算法。该算法首先根据解释区域与扰动像素位置的变化关系改进适应度函数,然后通过多轮的遗传算法在不断减少扰动值的同时递增扰动像素的数量,而且每一轮的结果坐标集会在下一轮的迭代中保留使用,直到在未超过扰动边界的情况下扰动像素集合使预测标签发生翻转。在实验部分,所提算法在AlexNet、VGG-19、ResNet-50和SqueezeNet模型下的攻击成功率平均为92.88%,与One pixel算法相比,虽然增加了8%的运行时间,但成功率提高了16.53个百分点。此外,该算法能够在更短的运行时间内,使成功率高于Ada-FGSM算法3.18个百分点,高于PPBA算法8.63个百分点,并且与Boundary-attack算法的成功率相差不大。结果表明基于解释方法的动态遗传算法能有效进行对抗攻击。
针对基于同态加密的隐私保护神经网络中存在的计算效率低和精度不足问题,提出一种三方协作下支持隐私保护训练的高效同态神经网络(HNN)。首先,为降低同态加密中密文乘密文运算产生的计算开销,结合秘密共享思想设计了一种安全快速的乘法协议,将密文乘密文运算转换为复杂度较低的明文乘密文运算;其次,为避免构建HNN时产生的密文多项式多轮迭代,并提高非线性计算精度,研究了一种安全的非线性计算方法,从而对添加随机掩码的混淆明文消息执行相应的非线性算子;最后,对所设计协议的安全性、正确性及效率进行了理论分析,并对HNN的有效性及优越性进行了实验验证。实验结果表明,相较于双服务器方案PPML,HNN的训练速度提高了18.9倍,模型精度提高了1.4个百分点。
为解决在入侵检测场景中引入联邦学习技术后,由于节点间存在流量数据非独立同分布(non-iid)现象而导致模型难以聚合并得到高识别率的问题,构造了一种高效联邦学习算法(H-E-Fed),并基于该算法构建了对应的入侵检测模型。首先,协调方设计针对流量数据的全局模型,并下发至入侵检测节点间进行模型训练;然后,协调方收集本地模型,并对节点间本地模型的协方差矩阵评估偏度,以衡量节点间模型的相关性,从而重新分配模型聚合参数,并生成新的全局模型;最后,协调方与节点多轮交互,直至全局模型收敛。实验结果表明,与基于联邦平均(FedAvg)算法和FedProx算法的模型相比,基于高效联邦学习算法的入侵检测模型在节点间产生数据non-iid现象时的通信消耗更低;且在KDDCup99数据集和CICIDS2017数据集上,与基线模型相比,准确率分别提升了10.39%、8.14%与4.40%、5.98%。
针对当前密文域可逆信息隐藏算法嵌入秘密信息后的携密密文图像的容错性与抗灾性不强,一旦遭受攻击或损坏就无法重构原始图像与提取秘密信息的问题,提出了一种基于图像秘密共享的密文域可逆信息隐藏算法,并分析了该算法在云环境下的应用场景。首先,将加密图像分割成大小相同的n份不同携密密文图像。然后,在分割的过程中将拉格朗日插值多项式中的随机量作为冗余信息,并建立秘密信息与多项式各项系数间的映射关系。最后,通过修改加密过程的内置参数,实现秘密信息的可逆嵌入。当收集k份携密密文图像时,可无损地恢复原始图像与提取秘密信息。实验结果表明,所提算法具有计算复杂度低、嵌入容量大和完全可逆等特点。在(3,4)门限方案中,所提算法的最大嵌入率可达4 bpp;在(4,4)门限方案中,其最大嵌入率可达6 bpp。所提算法充分发挥了秘密共享方案的容灾特性,在不降低秘密共享安全性的基础上,增强了携密密文图像的容错性与抗灾性,提高了算法的嵌入容量与云环境应用场景下的容灾能力,保证了载体图像与秘密信息的安全。
数据投毒攻击中的后门攻击方式的攻击者通过将带有隐藏触发器的样本插入训练集中来操纵训练数据的分布,从而使测试样本错误分类以达到改变模型行为和降低模型性能的目的。而现有触发器的弊端是样本无关性,即无论采用什么触发模式,不同有毒样本都包含相同触发器。因此将图像隐写技术与深度卷积对抗网络(DCGAN)结合,提出一种基于样本的攻击方法来根据灰度共生矩阵生成图像纹理特征图,利用图像隐写技术将目标标签字符嵌入纹理特征图中作为触发器,并将带有触发器的纹理特征图和干净样本拼接成中毒样本,再通过DCGAN生成大量带有触发器的假图。在训练集样本中将原中毒样本以及DCGAN生成的假图混合起来,最终达到投毒者注入少量的中毒样本后,在拥有较高的攻击率同时,保证触发器的有效性、可持续性和隐藏性的效果。实验结果表明,该方法避免了样本无关性的弊端,并且模型精确度达到93.78%,在30%的中毒样本比例下,数据预处理、剪枝防御以及AUROR防御方法对攻击成功率的影响达到最小,攻击成功率可达到56%左右。
聚类分析能够挖掘出数据间隐藏的内在联系并对数据进行多指标划分,从而促进个性化和精细化运营。然而,数据孤岛造成的数据碎片化和孤立化严重影响了聚类分析的应用效果。为了解决数据孤岛问题的同时保护相关数据隐私,提出本地均分扰动联邦K-means算法(ELFedKmeans)。针对横向联邦学习模式,设计了一种基于网格的初始簇心选择方法和一种隐私预算分配方案。在ELFedKmeans算法中,各站点联合协商随机种子,以较小的通信代价生成相同的随机噪声,保护了本地数据的隐私。通过理论分析证明了该算法满足差分隐私保护,并将该算法与本地差分隐私K-means(LDPKmeans)算法和混合型隐私保护K-means (HPKmeans)算法在不同的数据集上进行了对比实验分析。实验结果表明,随着隐私预算不断增大,三个算法的F-measure值均逐渐升高;误差平方和(SSE)均逐渐减小。从整体上看,ELFedKmeans算法的F-measure值比LDPKmeans算法和HPKmeans算法分别高了1.794 5%~57.066 3%和21.245 2%~132.048 8%;ELFedKmeans算法的Log(SSE)值比LDPKmeans算法和HPKmeans算法分别减少了1.204 2%~12.894 6%和5.617 5%~27.575 2%。在相同的隐私预算下,ELFedKmeans算法在聚类质量和可用性指标上优于对比算法。