《计算机应用》唯一官方网站 ›› 2023, Vol. 43 ›› Issue (S2): 28-33.DOI: 10.11772/j.issn.1001-9081.2023040426
Gonglin LI(), Yichen FAN, Yujian MI, Ming LI
摘要:
针对单一模型用于文本分类存在的模型体量大,难以适用于舆情信息文本的多元化非规范的表达等问题,提出基于Bagging训练思想的、动态微调和二次加权的模型集成算法(Bagging-DyFAS)。首先,使用自助采样构建的数据集训练弱分类器,使该分类器具有一定的先验知识;其次,依据该分类器在开发集的表现,进行一次动态加权和一次静态加权,并使用得到的一系列权重将模型泛化到无标注的数据上,进一步提升模型在文本分类任务的性能。在所构建的数据集上的实验结果表明,在训练一轮的情况下,相较于基线模型MiniBRT、BRT3和LERT(Linguistically-motivated bidirectional Encoder Representation from Transformer),所提算法的准确率、精确率、召回率和F1值分别至少提升3.6、3.8、1.3和3.2个百分点,实验结果验证了所提算法的有效性。
中图分类号: