软件安全的根源在于软件开发人员开发的源代码,但随着软件规模和复杂性不断提高,仅靠人工检测漏洞代价高昂且难以扩展,而现有的代码分析工具有较高的误报率与漏报率。为此,提出一种基于关系图卷积网络(RGCN)的自动化漏洞检测方法以进一步提高漏洞检测的精度。首先将程序源代码转换为包含语法、语义特征信息的CPG;然后使用RGCN对图结构进行表示学习;最后训练神经网络模型预测程序源代码中的漏洞。为验证所提方法的有效性,在真实的软件漏洞样本上开展了实验验证,结果表明所提方法的漏洞检测结果的召回率和F1值分别达到了80.27%和63.78%。与Flawfinder、VulDeepecker和基于图卷积网络(GCN)的同类方法相比,所提方法的F1值分别提高了182%、12%和55%,可见所提方法能有效提高漏洞检测能力。
针对司法领域标记数据匮乏、标注质量不高、存在强逻辑性导致裁判文书量刑情节识别效果不佳的问题,提出一种基于反绎学习的量刑情节识别模型ABL-CON。首先结合神经网络与领域逻辑推理,通过半监督学习方法,使用置信学习方法表征情节识别置信度;然后修正无标签数据经过神经网络产生的不合逻辑的错误情节,重新训练识别模型,以提高识别精度。在自构建的司法数据集上的实验结果表明,使用50%标注数据与50%无标注数据的ABL-CON模型在Macro_F1值和Micro_F1值上分别达到了90.35%和90.58%,优于同样条件下的BERT和SS-ABL,也超越了使用100%标注数据的BERT模型。ABL-CON模型通过逻辑反绎修正不符合逻辑的标签能够有效提高标签的逻辑合理性以及标签的识别能力。
在网约车平台中,匹配是一个核心功能,平台需要尽可能增加匹配订单的数量;但网约车的需求分布通常极度不均匀,订单的起点或终点在某些时间段会呈现出高度集中的特征。因此,提出一种带预警的激励机制鼓励司机跨区域接单,以达到平台跨区域运力再平衡的目的。该机制通过对订单信息进行分析,建立邻近区域运力预警机制,并在区域运力紧张时,激励邻近区域的司机接受跨区域订单,以减少运力紧张时期区域内的未匹配订单数量,提高平台效用和乘客满意度。通过算例将跨区域运力再平衡机制与Greedy(贪心机制)、Surge(暴涨定价)机制进行对比,结果表明,再平衡机制较Greedy和Surge机制在平均效用上分别提高了15%和38%,说明跨区域运力再平衡机制可以提高平台收益和司机效用,在一定程度上重新平衡了区域间供需关系,能为网约车平台在宏观上的供需关系平衡提供参考。
区块链与供应链的结合应用是近几年的热门研究课题。区块链的数据可溯源、防篡改、分布式存储等优点可以为供应链提供较好的数据安全保障,而区块链自身的自治属性也为供应链自治提供了可能。区块链的自治主要依赖于共识机制,然而现有共识机制难以实现对供应链自治的良好支持。针对上述问题,提出一种基于委托权益证明(DPoS)的选举型共识机制,并在此基础上构建了一个基于区块链的供应链自制框架:选举供应链(ESC)。在ESC中,先根据节点参与的智能合约活动计算其信用分,然后从博弈论的角度分析ESC下节点的活跃度和信用分数对其权益的影响。最后,通过定理证明与仿真实验验证了该机制对节点具有良好的激励作用,能有效抑制理性节点支付的最大交易费用,且抑制的力度会随着代表数量的增加而增大。
MOOC平台上,一个课程可能存在多个版本的视频,为向学生推荐一个满足学习兴趣的MOOC视频就需要分析学生兴趣与视频内容的关系,为此,提出一种基于元路径注意力机制的视频推荐方法Mrec。一方面,利用异构信息网(HIN)描述学习者和MOOC资源之间的关系,进而使用元路径表达学生和视频之间的交互关系;另一方面,利用注意力机制捕捉学生、视频、元路径的特征对学习兴趣的影响情况。具体来说,Mrec方法包括两层注意力机制:第一层是节点注意力层,通过邻居的特征加权联合节点自身的特征,利用多头注意力得到实体在不同元路径下的特征表示;第二层是路径注意力层,通过融合在不同元路径的指导下学习到的实体的特征表示来捕捉实体在不同兴趣下的特征表示,并将学习到的用户与视频实体输入到多层感知机(MLP)中得到预测分数来进行top-K推荐。在MOOCCube和MOOCdata数据集上进行实验的结果表明,Mrec的点击率、归一化折损累积收益(NDCG)、平均倒数排名(MRR)与受试者工作特征曲线下面积(AUC)均优于对比方法。
关系抽取旨在从文本中抽取实体与实体之间的语义关系。作为关系抽取的上层任务,实体识别所产生的错误将扩散至关系抽取,从而导致级联错误。与实体相比,实体边界粒度小且具有二义性,更易识别。因此,提出一种基于实体边界组合的关系抽取方法,通过跳过实体,对实体边界两两组合来进行关系抽取。由于边界性能高于实体性能,所以错误扩散的问题得到了缓解;并且通过特征组合的方法将实体类型特征和位置特征加入模型中,性能得到了进一步提高,再次减轻了错误扩散带来的影响。实验结果表明,所提方法在ACE 2005英文数据集的宏平均F1值优于表格-序列编码器方法8.61个百分点。
用于文本表示的预训练语言模型在各种文本分类任务上实现了较高的准确率,但仍然存在以下问题:一方面,预训练语言模型在计算出所有类别的后验概率后选择后验概率最大的类别作为其最终分类结果,然而在很多场景下,后验概率的质量能比分类结果提供更多的可靠信息;另一方面,预训练语言模型的分类器在为语义相似的文本分配不同标签时会出现性能下降的情况。针对上述两个问题,提出一种后验概率校准结合负例监督的模型PosCal-negative。该模型端到端地在训练过程中动态地对预测概率和经验后验概率之间的差异进行惩罚,并在训练过程中利用带有不同标签的文本来实现对编码器的负例监督,从而为每个类别生成不同的特征向量表示。实验结果表明:PosCal-negative模型在两个中文母婴护理文本分类数据集MATINF-C-AGE和MATINF-C-TOPIC的分类准确率分别达到了91.55%和69.19%,相比ERNIE模型分别提高了1.13个百分点和2.53个百分点。
利用城市大数据发现社区结构是城市计算中重要的研究方向。有效表示面向“15分钟生活圈”社区的结构特征可以细粒度地评价生活圈社区周围的设施情况,有利于城市规划建设,创造宜居的生活环境。首先,定义了面向“15分钟生活圈”的城市社区结构,并采用表示学习方法获取生活圈社区的结构特征;然后,提出了生活圈社区结构的嵌入表示框架,框架中利用居民的出行轨迹数据确定兴趣点(POI)与居民区的关系,构建反映不同时段居民出行规律的动态活动图;最后,对构建的动态活动图采用自编码器进行表示学习得到生活圈社区潜在特征的向量表示,从而有效概括居民日常活动所形成的社区结构。针对生活圈社区便利性评价、相似性度量等应用,利用真实数据集进行了实验评估,结果表明,分POI类别的日周期的潜在表示方法优于星期周期的潜在表示方法,且前者的归一化折损累计增益(NDCG)比后者最少提升了24.28%,最多提升了60.71%,验证了所提方法的有效性。