知识追踪(KT)是在线教育中一项基础且具有挑战性的任务,同时也是从学习者的学习历史中建立学习者知识状态模型的任务,可以帮助学习者更好地了解自己的知识状态,使教育者更好地了解学习者的学习情况。对在线教育学习者KT研究进行综述。首先,介绍KT的主要任务和发展历程;其次,从传统KT模型和深度学习KT模型两个方面展开叙述;再次,归纳总结相关数据集和评价指标,并汇总KT的相关应用;最后,总结KT现状,讨论它们的不足和未来发展方向。
针对目前软件项目开发过程中无法充分利用已有业务资源,进而导致开发效率低、能力弱等问题,通过研究业务资源之间的关联,提出一种基于业务流程的认知图谱。首先,通过正式文档抽取业务知识,提出建立知识层级的方法并修正;其次,通过代码特征挖掘与代码实体相似度判断构建代码网络表示模型;最后,利用实际业务数据进行实验验证,并与向量空间模型(VSM)、多样化排序和深度学习等方法进行对比。最终构建的基于业务流程的认知图谱在代码检索方面优于目前基于文本匹配的方法和深度学习算法,分别在前5准确率(precision@5)、平均精度均值(mAP)、归一化折扣增益值(?-NDCG)这3项指标上高过多样化排序的代码检索方法4.30、0.38和2.74个百分点,有效解决了潜在业务词汇识别、业务认知推理表示等多个问题,提升了代码检索效果与业务资源利用率。
针对大语言模型(LLM)技术的快速发展,剖析它的技术应用前景和风险挑战,对通用人工智能(AGI)的发展和治理有重要参考价值。首先,以Multi-BERT(Multilingual Bidirectional Encoder Representations from Transformers)、GPT(Generative Pre-trained Transformer)和ChatGPT(Chat Generative Pre-Trained Transformer)等语言模型为代表,综述LLM的发展脉络、核心技术和评估体系;其次,分析LLM现存的技术局限和安全风险;最后,提出LLM在技术上改进、政策上跟进的建议。分析指出作为发展阶段的LLM,现有模型存在非真实性及偏见性输出、实时自主学习能力欠缺,算力需求庞大,对数据质量和数量依赖性强,语言风格单一;存在数据隐私、信息安全和伦理等方面的安全风险。未来发展可从技术上继续改进,从“大规模”转向“轻量化”、从“单模态”走向“多模态”、从“通用”迈入“垂类”;从政策上实时跟进,实施有针对性的监管措施,规范应用和发展。
观测点分类器(OPC)是一种试图通过将多维样本空间线性不可分问题转换成一维距离空间线性可分问题的有监督学习模型,对高维数据的分类问题尤为有效。针对OPC在处理大数据分类问题时表现的较高训练复杂度,在Spark框架下设计一款基于大数据的随机样本划分(RSP)的分布式OPC(DOPC)。首先,在分布式计算环境下生成大数据的RSP数据块,并将它转换为弹性分布式数据集(RDD);其次,在RSP数据块上协同式地训练一组OPC,由于每个RSP数据块上的OPC独立训练,因此有高效的Spark可实现性;最后,在Spark框架下将在RSP数据块上协同训练的OPC集成为DOPC,对新样本进行类标签预测。在8个大数据集上,对Spark集群环境下实现的DOPC的可行性、合理性和有效性进行实验验证,实验结果显示,DOPC能够以更低的计算消耗获得比单机OPC更高的测试精度,同时相较于Spark框架下实现的基于RSP模型的神经网络(NN)、决策树(DT)、朴素贝叶斯(NB)和K最近邻(KNN),DOPC分类器具有更强的泛化性能。测试结果表明,DOPC是一种高效低耗的处理大数据分类问题的有监督学习算法。
针对当前大多数命名实体识别(NER)模型只使用字符级信息编码且缺乏对文本层次信息提取的问题,提出一种融合多粒度语言知识与层级信息的中文NER(CNER)模型(CMH)。首先,使用经过多粒度语言知识预训练的模型编码文本,使模型能够同时捕获文本的细粒度和粗粒度语言信息,从而更好地表征语料;其次,使用ON-LSTM(Ordered Neurons Long Short-Term Memory network)模型提取层级信息,利用文本本身的层级结构信息增强编码间的时序关系;最后,在模型的解码端结合文本的分词信息,并将实体识别问题转化为表格填充问题,以更好地解决实体重叠问题并获得更准确的实体识别结果。同时,为解决当前模型在不同领域中的迁移能力较差的问题,提出通用实体识别的理念,通过筛选多领域的通用实体类型,构建一套提升模型在多领域中的泛化能力的通用NER数据集MDNER(Multi-Domain NER dataset)。为验证所提模型的效果,在数据集Resume、Weibo、MSRA上进行实验,与MECT(Multi-metadata Embedding based Cross-Transformer)模型相比,F1值分别提高了0.94、4.95和1.58个百分点。为了验证所提模型在多领域中的实体识别效果,在MDNER上进行实验,F1值达到了95.29%。实验结果表明,多粒度语言知识预训练、文本层级结构信息提取和高效指针解码器对模型的性能提升至关重要。
针对关系抽取(RE)任务中实体关系语义挖掘困难和预测关系有偏差等问题,提出一种基于掩码提示与门控记忆网络校准(MGMNC)的RE方法。首先,利用提示中的掩码学习实体之间在预训练语言模型(PLM)语义空间中的潜在语义,通过构造掩码注意力权重矩阵,将离散的掩码语义空间相互关联;其次,采用门控校准网络将含有实体和关系语义的掩码表示融入句子的全局语义;再次,将它们作为关系提示校准关系信息,随后将句子表示的最终表示映射至相应的关系类别;最后,通过更好地利用提示中掩码,并结合传统微调方法的学习句子全局语义的优势,充分激发PLM的潜力。实验结果表明,所提方法在SemEval(SemEval-2010 Task 8)数据集的F1值达到91.4%,相较于RELA(Relation Extraction with Label Augmentation)生成式方法提高了1.0个百分点;在SciERC(Entities, Relations, and Coreference for Scientific knowledge graph construction)和CLTC(Chinese Literature Text Corpus)数据集上的F1值分别达到91.0%和82.8%。所提方法在上述3个数据集上均明显优于对比方法,验证了所提方法的有效性。相较于基于生成式的方法,所提方法实现了更优的抽取性能。
针对科技文本关键词抽取任务中抽取出现次数少但能较好表达文本主旨的词语效果差的问题,提出一种基于改进TextRank的关键词抽取方法。首先,利用词语的词频-逆文档频率(TF-IDF)统计特征和位置特征优化共现图中词语间的概率转移矩阵,通过迭代计算得到词语的初始得分;然后,利用K-Core(K-Core decomposition)算法挖掘K-Core子图得到词语的层级特征,利用平均信息熵特征衡量词语的主题表征能力;最后,在词语初始得分的基础上融合层级特征和平均信息熵特征,从而确定关键词。实验结果表明,在公开数据集上,与TextRank方法和OTextRank(Optimized TextRank)方法相比,所提方法在抽取不同关键词数量的实验中,F1均值分别提高了6.5和3.3个百分点;在科技服务项目数据集上,与TextRank方法和OTextRank方法相比,所提方法在抽取不同关键词数量的实验中,F1均值分别提高了7.4和3.2个百分点。实验结果验证了所提方法抽取出现频率低但较好表达文本主旨关键词的有效性。
现有的数据质量评估(DQA)方法通常只从特定数据质量维度(DQD)的基本概念分析,忽略了能够反映数据质量(DQ)关键信息的细粒度的子维度对评估结果的影响。针对上述问题,提出一种工业多元时序数据质量评估(IMTSDQA)方法。首先,对于待评估的DQD,如完整性、规范性、一致性、唯一性和准确性等进行细粒度划分,考虑同一DQD内或不同DQD间各子维度的相关性以确定这些子维度的度量;其次,对完整性的属性完整性、记录完整性、数值完整性,规范性的类型规范性、精度规范性,一致性的顺序一致性、逻辑一致性,唯一性的属性唯一性、记录唯一性,准确性的范围准确性、数值准确性等子维度进行权重分配,进而充分挖掘DQD的深层次信息,从而获得反映DQ详情的评估结果。实验结果表明,与现有的基于框架定性分析、依据DQD基本定义构建模型的方法相比,IMTSDQA能更详细、更全面地评估DQ,且不同DQD的评估结果更能客观准确地反映DQ问题。
针对现有深度聚类方法不考虑事件信息及其结构特点而难以有效划分事件类型的问题,提出一种基于事件表示和对比学习的深度事件聚类方法(DEC_ERCL)。首先,利用信息识别手段从非结构化文本中识别结构化的事件信息,避免冗余信息对事件语义的影响;其次,将事件的结构信息集成于自编码器中学习低维稠密的事件表示,并以此作为下游聚类划分的依据;最后,为有效建模事件之间的细微差异,在特征学习过程中加入多正例对比损失。在数据集DuEE、FewFC、Military和ACE2005上的实验结果表明,相较于其他深度聚类方法,所提方法在准确率和标准化互信息(NMI)评价指标上均表现更好;相较于次优的方法,DEC_ERCL的聚类准确率分别提升了17.85%、9.26%、7.36%和33.54%,表明了DEC_ERCL具有更好的事件聚类效果。
多视图聚类是近年来图数据挖掘领域的研究热点。由于数据采集技术的限制或人为因素等原因常导致视图或样本缺失问题。降低多视图的不完整性对聚类效果的影响是多视图聚类目前面临的重大挑战。因此,综合研究不完整多视图聚类(IMC)近年的发展具有重要的理论意义和实践价值。首先,归纳分析不完整多视图数据缺失类型;其次,详细比较基于多核学习(MKL)、矩阵分解(MF)学习、深度学习和图学习这4类IMC方法,分析代表性方法的技术特点和区别;再次,从数据集类型、视图和类别数量、应用领域等角度总结22个公开不完整多视图数据集;继次,总结评价指标,并系统分析现有不完整多视图聚类方法在同构和异构数据集上的性能表现;最后,归纳分析不完整多视图聚类目前存在的问题、未来的发展方向和现有应用领域。
联邦学习是一种用于解决机器学习中数据共享问题和隐私保护问题的分布式学习方法,旨在多方共同训练一个机器学习模型并保护数据的隐私;但是,联邦学习本身存在安全威胁,这使得联邦学习在实际应用中面临巨大的挑战,因此,分析联邦学习面临的攻击和相应的防御措施对联邦学习的发展和应用至关重要。首先,介绍联邦学习的定义、流程和分类,联邦学习中的攻击者模型;其次,从联邦学习系统的鲁棒性和隐私性两方面介绍可能遭受的攻击,并介绍不同攻击相应的防御措施,同时也指出防御方案的不足;最后,展望安全的联邦学习系统。