CCML2021+85： 基于表示学习和深度森林的lncRNA编码短肽预测模型

• •

CCML2021+85：基于表示学习和深度森林的lncRNA编码短肽预测模型

纪腾其,孟军,赵思远,胡鹤还

大连理工大学

收稿日期:2021-06-24 修回日期:2021-06-13 发布日期:2021-06-13
通讯作者: 孟军

CCML2021+85：Predictive model of lncRNA-encoded short peptides based on representation learning and Deep Forest

Received:2021-06-24 Revised:2021-06-13 Online:2021-06-13
Contact: MENG Jun

摘要/Abstract

摘要： 摘要: 长链非编码RNA(lncRNA)中的小开放阅读框(sORFs)能够编码长度不超过100个氨基酸的短肽。针对短肽预测研究中lncRNA中sORFs特征不鲜明且高可信度数据尚不充分的问题，提出一种基于表示学习的深度森林模型。首先，使用常规lncRNA特征提取方法对sORFs进行编码；其次，通过自动编码器进行表示学习获得更加有效的特征表示；最后，训练深度森林模型实现对lncRNA编码短肽的预测。实验结果表明，该方法在拟南芥数据集上能够达到92.08%的准确率，高于传统机器学习模型、深度学习模型以及组合模型，且具有较好的稳定性。此外，在大豆与玉米数据集上进行模型测试，准确率分别能达到78.16%和74.92%，验证了模型良好的泛化能力。

关键词: 长链非编码RNA, 小开放阅读框, 短肽, 表示学习, 深度森林, 预测

Abstract: Abstract: Small open reading frames (sORFs) in long non-coding RNA (lncRNA) can encode short peptides with length no more than 100 amino acids. Aiming at the problem that the features of sORFs in lncRNA are not distinct and the data with high reliability are not enough in short peptide prediction research, a deep forest model based on representation learning is proposed. Firstly, the conventional lncRNA feature extraction method was used to encode the sORFs. Secondly, the autoencoder was used for representation learning to obtain more effective features. Finally, a deep forest model was trained to predict the short peptides encoded by lncRNA. The experimental results show that the accuracy rates of this method can achieve 92.08% on Arabidopsis thaliana dataset, which is higher than that of the traditional machine learning models, deep learning models and combined models, and has better stability. In addition, the prediction accuracy rates of Glycine max and Zea mays dataset can reach 78.16% and 74.92%, which verifies the good generalization ability of the model.

Key words: Keywords: lncRNA, small open reading frames, short peptides, representation learning, Deep Forest, prediction

中图分类号:

中图分类号:TP183

纪腾其孟军赵思远胡鹤还. CCML2021+85：基于表示学习和深度森林的lncRNA编码短肽预测模型[J]. 计算机应用.

[1]	任帅, 纪元法, 孙希延, 韦照川, 林子安. 基于改进灰狼优化与支持向量回归的滑坡位移预测[J]. 《计算机应用》唯一官方网站, 2024, 44(3): 972-982.
[2]	张瑜, 昌燕, 张仕斌. 基于量子局部内在维度的对抗样本检测算法[J]. 《计算机应用》唯一官方网站, 2024, 44(2): 490-495.
[3]	李俊杰, 望育梅, 李志军, 刘雨. 全景视频基于块的视口自适应传输方案综述[J]. 《计算机应用》唯一官方网站, 2024, 44(2): 536-547.
[4]	黄懿蕊, 罗俊玮, 陈景强. 基于对比学习和GIF标记的多模态对话回复检索[J]. 《计算机应用》唯一官方网站, 2024, 44(1): 32-38.
[5]	史含笑, 王雷春. 结合LSTM和自注意力机制的图卷积网络短期电力负荷预测[J]. 《计算机应用》唯一官方网站, 2024, 44(1): 311-317.
[6]	郭晓, 陈艳平, 唐瑞雪, 黄瑞章, 秦永彬. 融合行为词的罪名预测多任务学习模型[J]. 《计算机应用》唯一官方网站, 2024, 44(1): 159-166.
[7]	朱俊宏, 赖俊宇, 甘炼强, 陈智勇, 刘华烁, 徐国尧. 结合内卷与卷积算子的视频预测模型[J]. 《计算机应用》唯一官方网站, 2024, 44(1): 113-122.
[8]	龙杰, 谢良, 徐海蛟. 集成的深度强化学习投资组合模型[J]. 《计算机应用》唯一官方网站, 2024, 44(1): 300-310.
[9]	王春雷, 王肖, 刘凯. 多模态知识图谱表示学习综述[J]. 《计算机应用》唯一官方网站, 2024, 44(1): 1-15.
[10]	马国帅, 钱宇华, 张亚宇, 李俊霞, 刘郭庆. 动态异构信息融合的科研合作潜力预测[J]. 《计算机应用》唯一官方网站, 2023, 43(9): 2775-2783.
[11]	郭茂祖, 张雅喆, 赵玲玲. 基于空间语义和个体活动的电动汽车充电站选址方法[J]. 《计算机应用》唯一官方网站, 2023, 43(9): 2819-2827.
[12]	王炫力, 靳小龙, 侯中妮, 廖华明, 张瑾. 基于森林的实体关系联合抽取模型[J]. 《计算机应用》唯一官方网站, 2023, 43(9): 2700-2706.
[13]	张琨, 杨丰玉, 钟发, 曾广东, 周世健. 基于混合代码表示的源代码脆弱性检测[J]. 《计算机应用》唯一官方网站, 2023, 43(8): 2517-2526.
[14]	王静红, 周志霞, 王辉, 李昊康. 双路自编码器的属性网络表示学习[J]. 《计算机应用》唯一官方网站, 2023, 43(8): 2338-2344.
[15]	魏远, 林彦, 郭晟楠, 林友芳, 万怀宇. 融合出发地与目的地时空相关性的城市区域间出租车需求预测[J]. 《计算机应用》唯一官方网站, 2023, 43(7): 2100-2106.