无监督关系抽取旨在从无标签的自然语言文本中抽取实体之间的语义关系。目前,基于变分自编码器(VAE)架构的无监督关系抽取模型通过重构损失提供监督信号来训练模型,这为完成无监督关系抽取任务提供了新思路。针对此类模型无法有效地理解上下文信息、依赖数据集归纳偏置的问题,提出基于Prompt学习的无监督关系抽取(PURE)模型,其中包括关系抽取和链接预测两个模块。在关系抽取模块中设计了上下文感知的Prompt模板函数以融入上下文信息,并将无监督关系抽取任务转换为掩码预测任务,从而充分利用预训练阶段获得的知识完成关系抽取。在链接预测模块中则通过预测关系三元组中的缺失实体提供监督信号联合训练两个模块。在两个公开真实关系抽取数据集上进行了大量实验,得到的结果表明PURE模型能有效利用上下文信息并且不依赖数据集归纳偏置,相较于目前最优的基于VAE架构的模型UREVA (Variational Autoencoder-based Unsupervised Relation Extraction model)在NYT数据集上的B-cubed F1指标上提升了3.3个百分点。
介数中心度是评价图中节点重要性的一项常用指标,然而在大规模动态图中介数中心度的更新效率很难满足应用需求。随着多核技术的发展,算法并行化已成为解决该问题的有效手段之一。因此,提出一种面向动态网络的介数中心度并行算法(PAB)。首先,通过社区过滤、等距剪枝和分类筛选等操作减少了冗余点对的时间开销;然后,基于对算法确定性的分析和处理实现了并行化。在真实数据集和合成数据集上进行了对比实验,结果显示在添加边更新时PAB的更新效率为并行算法中最新的batch-iCENTRAL的4倍。可见,所提算法能够有效提高动态网络中介数中心度的更新效率。
联邦学习(FL)是一种新的分布式机器学习范式,它在保护设备数据隐私的同时打破数据壁垒,从而使各方能在不共享本地数据的前提下协作训练机器学习模型。然而,如何处理不同客户端的非独立同分布(Non-IID)数据仍是FL面临的一个巨大挑战,目前提出的一些解决方案没有利用好本地模型和全局模型的隐含关系,无法简单而高效地解决问题。针对FL中不同客户端数据的Non-IID问题,提出新的FL优化算法——联邦自正则(FedSR)和动态联邦自正则(Dyn-FedSR)。FedSR在每一轮训练过程中引入自正则化惩罚项动态修改本地损失函数,并通过构建本地模型和全局模型的关系来让本地模型靠近聚合丰富知识的全局模型,从而缓解Non-IID数据带来的客户端偏移问题;Dyn-FedSR则在FedSR基础上通过计算本地模型和全局模型的相似度来动态确定自正则项系数。对不同任务进行的大量实验分析表明,FedSR和Dyn-FedSR这两个算法在各种场景下的表现都明显优于联邦平均(FedAvg)算法、联邦近端(FedProx)优化算法和随机控制平均算法(SCAFFOLD)等FL算法,能够实现高效通信,正确率较高,且对不平衡数据和不确定的本地更新具有鲁棒性。
为构建透明可信的推荐机制,相关研究工作主要通过可解释推荐机制为个性化推荐提供合理解释,然而现有可解释推荐机制存在三大局限:1)利用相关关系只能提供合理化解释而非因果解释,而利用路径提供解释存在隐私泄露问题;2)忽略了用户反馈稀疏的问题,解释的保真度难以保证;3)解释粒度较粗,未考虑用户个性化偏好。为解决上述问题,提出基于协同知识图谱(CKG)与反事实推理的可解释推荐机制(ERCKCI)。首先,基于用户自身的行为序列,采用反事实推理思想利用因果关系实现高稀疏度因果去相关,并迭代推导出反事实解释;其次,为提升解释保真度,不仅在单时间片上利用CKG和图神经网络(GNN)的邻域传播机制学习用户和项目表征,还在多时间片上通过自注意力机制捕获用户长短期偏好以增强用户偏好表征;最后,基于反事实集的高阶连通子图捕获用户的多粒度个性化偏好,从而增强反事实解释。为验证ERCKCI机制的有效性,在公开数据集MovieLens(100k)、Book-crossing和MovieLens(1M)上进行了对比实验。所得结果表明,该机制在前两个数据集上相较于RCF(Relational Collaborative Filtering)推荐模型下的ECI(Explainable recommendation based on Counterfactual Inference),在解释保真度上分别提升了4.89和3.38个百分点,在CF集大小上分别降低了63.26%、66.24%,在稀疏度指标上分别提升了1.10和1.66个百分点,可见该机制能有效提升可解释性。
数据库系统的不同查询之间存在访问数据路径重叠和计算共享的可能,而工作负载中的查询分批处理称为多条查询一次执行(Multiple-Query-at-a-Time)模型。一些已开发的多查询处理框架已经被证明有效,然而都缺乏构建完整查询处理和优化方法的普适框架。在基于等价变换来构建查询时算子合并优化框架的基础上,提出一种面向异构架构的关系型算子并发计算框架OmegaDB。该框架通过研究面向GPU的关系算子流批计算模型并构建关系数据查询流水,在CPU-GPU异构架构上实现了聚合多查询的流批计算方法。在实验及原型实现上,通过理论分析和实验结果验证OmegaDB相对传统关系型数据库管理系统(RDBMS)所具备的优势,以及OmegaDB利用新硬件的潜力。根据基于传统关系代数规则的多条查询一次执行模型的查询优化框架的理论研究,提出多个优化方法并展望未来研究方向。使用TPC-H商业智能计算作为基准测试程序,实验结果表明OmegaDB与现代先进的商业数据库系统SQL SERVER相比,在消耗更低的磁盘I/O和CPU时间的情况下,最高可以达到24倍的端到端加速。
现有的生成对抗网络(GAN)和差分隐私相结合的方法大多采用梯度扰动的方法实现隐私保护,即在优化过程中利用梯度裁剪技术来约束优化器对单个数据的敏感性,并对裁剪后的梯度添加随机噪声以达到保护模型的目的。然而大多数方法在训练时裁剪阈值固定,而阈值过大或过小均会影响模型的性能。针对该问题,提出动态梯度阈值裁剪的DGC_DPGAN (Dynamic Gradient Clipping Differential Privacy Generative Adversarial Network)算法以兼顾隐私保护和模型的性能。该算法结合预训练技术,在优化过程中先求取每批次隐私数据的梯度F-范数均值作为动态梯度裁剪阈值,再对梯度进行扰动。考虑不同的裁剪顺序,提出先裁剪再加噪的CLIP_DGC_DPGAN (Clip Dynamic Gradient Clipping Differential Privacy Generative Adversarial Network)算法和先加噪再裁剪的DGC_DPGAN算法,并采用Rényi Accountant求取隐私损失。实验结果表明,在相同的隐私预算下,所提出的两种动态梯度裁剪算法与固定梯度阈值裁剪方法相比更优:在Mnist数据集上,所提两种算法在IS(Inception Score)、结构相似性(SSIM)、卷积神经网络(CNN)分类准确率上分别提升了0.32~3.92,0.03~0.27,7%~44%;在Fashion-Mnist数据集上,所提两种算法在IS、SSIM、CNN分类准确率上分别提升了0.40~4.32,0.01~0.44,20%~51%。同时,GAN模型生成图像的可用性更好。
聚合函数的近似查询处理(AQP)是近年来数据库领域的研究热点。针对现有的近似查询技术存在查询响应时间长、存储开销大、不支持多谓词查询等问题,提出一种基于深度自回归模型的AQP方法DeepAQP (Deep Approximate Query Processing),利用深度自回归模型对表中多列数据的联合概率分布进行学习和建模,以估计给定查询的谓词选择度和目标列概率分布,以促进单表下多谓词聚合函数近似查询请求的有效处理。在TPC-H和TPC-DS数据集上进行实验,结果表明,与基于采样的VerdictDB方法相比,DeepAQP在查询响应时间和存储空间开销上均降低了2到3个数量级;与基于传统机器学习模型的DBEst++方法相比,DeepAQP的查询响应时间降低了1个数量级,显著降低了模型训练耗时,并且可以处理DBEst++所不支持的多谓词查询请求。可见,DeepAQP兼顾了查询精度和速度,并显著降低了算法在训练和存储上的开销。
聚集最近邻居(ANN)查询作为空间数据库的经典问题在网络链路结构优化、物流集散点选址、共享汽车服务等方面有着重要的意义,能有效促进物流、移动互联网行业以及运筹学等领域的发展。现有的研究存在如下不足:缺少针对大规模动态路网数据的高效索引结构,在数据点位置实时移动以及路网权重动态更新的场景下算法的查询效率较低。针对上述不足,提出动态场景下的ANN查询算法。首先利用G-tree作为路网索引,提出将四叉树和k-d树等空间索引结构与增量欧氏空间限制(IER)算法结合起来的剪枝方法,以完成静态空间下的ANN查询;随后针对动态场景下数据点位置频繁更新的问题,加入时间窗口及安全区域更新策略,以减少算法的重复计算次数,实验结果表明效率能提高8%~85%;最后针对路网权重变化的ANN查询问题,提出两个基于校正的连续查询方法,在历史查询结果的基础上,根据权重变化的增量来得到当前的查询结果,在某些场景中能够有效降低50%左右的误差。理论研究和实验结果表明,所提算法能够高效并且较为准确地解决动态场景下的ANN查询问题。
针对传统向量空间模型(TVSM)生成的向量维度高,计算文档与检索关键词相关度的向量点积运算耗时长的问题,提出一种面向云环境密文排序检索的字典划分向量空间模型(DPVSM)。首先给出DPVSM的具体定义,并证明了DPVSM中检索关键词与文档的相关度得分与TVSM中的相关度得分完全相等;然后,采用等长字典划分方法,提出加密向量生成算法和文档与检索关键词相关度得分计算算法。实验结果表明,DPVSM文档向量的空间开销远少于TVSM,且文档数量越多开销降低越多;此外,DPVSM的检索向量的空间开销以及相关度得分计算的耗时也远低于TVSM。显然,DPVSM在生成向量的空间效率和相关度得分计算的时间效率上均优于TVSM。
精准预测城市区域之间的出租车需求量,可以为出租车的引导和调度以及乘客的出行推荐提供决策支持信息,从而优化出租车的供需关系。然而现有模型大多以区域内的出租车需求量为建模和预测对象,对区域之间的时空相关性考虑不足,且较少关注区域之间更细粒度的需求量预测。针对上述问题,提出一种面向城市区域间出租车需求量的预测模型——出发地—目的地融合时空网络(ODSTN)模型。该模型分别从区域和区域对两个空间维度以及临近、日、周三个时间维度出发,采用图卷积和时间注意力机制来捕获区域之间的复杂时空相关性,并设计了一种新的路径感知融合机制来对多角度的特征进行融合,最终实现了对城市区域间出租车需求量的预测。在成都和曼哈顿地区两个真实出租车订单数据集中进行了实验,结果表明ODSTN模型的平均绝对误差(MAE)、均方根误差(RMSE)和平均绝对百分比误差(MAPE)分别为0.897 1、3.527 4、50.655 6%和0.589 6、1.163 8、61.079 4%。可见,ODSTN模型在出租车需求预测任务上具有较高的准确性。
在实时、复杂的网络环境中,如何激励工人参与任务并得到高质量的感知数据是时空众包研究的重点。基于此,提出一种基于质量感知的时空众包在线激励机制。首先,为了适应时空众包实时性的特点,提出一种阶段性在线选择工人算法(POA),该算法在预算约束下将整个众包活动周期分为多个阶段,每个阶段在线选择工人;其次,为了提高质量预估的精度与效率,提出一种改进的最大期望(IEM)算法,该算法在算法迭代的过程中优先考虑可信度高的工人提交的任务结果;最后,通过真实数据集上的对比实验,验证了所提激励机制在提高平台效用方面的有效性。实验结果表明,POA相较于改进的两阶段拍卖(ITA)算法、多属性与两阶段相结合的拍卖(M-ITA)算法,以及L-VCG(Lyapunov-based Vickrey-Clarke-Groves)等拍卖算法,效率平均提高了11.11%,工人的额外奖励金额平均提升了12.12%,可以激励工人向冷门偏远地区移动;在质量预估方面,IEM算法相比其他质量预估算法,在精度和效率上分别平均提高了5.06%和14.2%。
序列数据中可能包含大量敏感信息,因此直接对序列数据的频繁模式进行挖掘存在泄露用户隐私信息的风险。本地化差分隐私(LDP)能够抵御具有任意背景知识的攻击者,可以对敏感信息提供更全面的保护。序列数据内在序列性和高维度的特点为LDP应用于频繁序列模式挖掘带来了挑战。为解决这个问题,提出一种满足ε-LDP的top-k频繁序列模式挖掘算法PrivSPM。该算法结合填充和采样技术、自适应频率估计算法与频繁项预测技术来构造候选集;基于新域,利用基于指数机制的策略对用户数据进行扰动,并结合频率估计算法识别最终的频繁序列模式。理论分析证明了该算法满足ε-LDP。在3个真实数据集上的实验结果表明,PrivSPM算法在纳真率(TPR)和归一化累积排名(NCR)上明显高于对比算法,能有效提高挖掘结果的准确度。
深度强化学习算法在奖励稀疏的环境下,难以通过与环境的交互学习到最优策略,因此需要构建内在奖励指导策略进行探索更新。然而,这样仍存在一些问题:1)状态分类存在的统计失准问题会造成奖励值大小被误判,使智能体(agent)学习到错误行为;2)由于预测网络识别状态信息的能力较强,内在奖励产生状态的新鲜感下降,影响了最优策略的学习效果;3)由于随机状态转移,教师策略的信息未被有效利用,降低了智能体的环境探索能力。为了解决以上问题,提出一种融合随机生成网络预测误差与哈希离散化统计的奖励构建机制RGNP-HCE (Randomly Generated Network Prediction and Hash Count Exploration),并通过蒸馏(distillation)将多教师策略的知识迁移到学生策略中。RGNP-HCE机制采用好奇心分类思想构建融合奖励:一方面在多回合间以随机生成网络预测差构建全局好奇心奖励;另一方面在单回合内以哈希离散化统计构建局部好奇心奖励,从而保证内在奖励的合理性以及策略梯度更新的正确性。此外,将多个教师策略学习到的知识通过蒸馏迁移到学生策略中,有效提升学生策略的环境探索能力。最后,在Montezuma’s Revenge与Breakout测试环境中,把所提机制与当前主流的4个深度强化学习算法进行了对比实验,并执行了策略蒸馏。结果表明,相较于当前高性能的强化学习算法,RGNP-HCE机制在两个测试环境中的平均性能均有提升,且蒸馏后学生策略的平均性能又有进一步的提升,验证了RGNP-HCE机制与策略蒸馏方法对提升智能体的环境探索能力是有效的。
高效用项集(HUI)挖掘能够提供数据集中高利润的项的组合信息,有利于在现实应用中制定有效的营销策略。然而,HUI仅提供项集及其总效用,不提供单个项的购买数量,而现实场景中项的数量能提供更精准的信息。因此,研究者提出定量高效用项集(HUQI)挖掘算法。针对当前的HUQI挖掘算法仅能处理静态数据且存在结果集冗余的问题,提出增量更新的定量效用列表结构来存储并更新数据集中项的效用信息,并基于该结构提出一种挖掘闭合定量高效用项集(CHUQI)的算法。将所提出的算法与FHUQI-Miner (Faster High Utility Quantitative Itemset Miner)算法在结果集数量、最小效用阈值、批次数目以及可扩展性上对比时间与内存消耗。实验结果表明,所提算法能够有效处理增量数据,挖掘出更有趣的项集。
现有的分布式三角计数算法假设所有计算节点位于同一地理位置,然而现实中它们可能位于跨洲际的多个数据中心中。跨域分布的数据中心使用广域网连接,具有网络带宽异质、通信费用高昂、分布不均等特点,而现有分布式算法无法适用于跨域环境。同时,现有研究较多采用随机采样、淘汰边等策略,忽略了三角形的形成具有时间局部性的特点。因此,研究了跨域环境中真实图流的三角计数问题并提出跨域三角计数(GTC)算法。首先针对现有边分发策略导致数据传输量过高的问题,提出一种跨域边分发策略,以结合通信的时间收益和数据收益建立收益公式,并使用点对点通信代替广播边;然后对于点对点通信在跨域环境中导致的三角形重复计数问题,提出终边计算规则,以确保无重复计数;最后基于时间加权采样算法提出时间加权三角计数算法,以利用三角形的时间局部性特点采样。在5个图流上把GTC与CoCoS (Conditional Counting and Sampling)、Tri-Fly进行对比的结果表明:GTC在通信数据量上比CoCoS减少了17%,比Tri-Fly减少了44%;在误差率上GTC比Tri-Fly减小了53%,略低于CoCoS;在算法运行时间上GTC比Tri-Fly减少了34%,略高于CoCoS。可见,GTC在保证较高准确率与较短算法运行时间的情况下,能有效减少通信数据量。