摘要
内部核糖体进入位点(Internal ribosome entry site,IRES)是一种RNA顺式作用元件,可以不依赖帽子结构启动翻译过程。其最早在病毒RNA中被报道,随后在真核生物的mRNA中也被发现。近来,IRES元件还被证实存在于环状RNA中,并介导其翻译。IRES元件介导的非帽依赖翻译起始机制在多个关键细胞生命活动过程中发挥着重要作用,并与多种人类复杂疾病的发生发展密切相关,引起越来越多研究者的关注。由于IRES元件的实验鉴定方法费时费力,因此,更为快速便捷的计算识别方法在前期实验数据基础上陆续被开发出来。本文对IRES元件进行了简要概述,总结了目前已知的IRES元件计算识别方法,并且建立了独立测试集对其预测性能进行了深入比较。
Abstract
Internal ribosome entry site (IRES) is a cis-regulatory element that can initiate translation in cap-independent manner. It was first discovered in viral RNA sequences, and then cellular mRNAs were found to contain IRESs. Recently, IRES elements have also been reported in circRNAs and mediate their translation. Cap-independent translation mediated by IRES plays important roles in many cellular processes and is involved in many human diseases, receiving more and more attentions. Since identifying IRES elements by experimental method is time-consuming and laborious, faster and more convenient computational methods have been developed based on experimentally validated data. In this paper, we briefly introduce IRES elements, summarize existing IRES predicting methods, and compare their prediction performance on an independent testing dataset.
在真核生物中,mRNA的翻译起始通常依赖其5'端的N7-甲基鸟苷(N7-methylguanosine,m7G)帽子结构,被称为帽依赖翻译起始机制。但在某些特殊情况下,比如细胞应激[1]和病毒感染[2],帽依赖翻译起始机制会被抑制,部分mRNA转而通过IRES元件介导的非帽依赖的翻译起始机制编码蛋白。IRES元件可绕过5'端帽子结构,直接招募核糖体进入mRNA内部,启动蛋白质翻译过程。此前的研究表明IRES元件在病毒感染、细胞应激反应和癌症的发生发展过程中起着关键作用[3-7]。据估计,大约10%的细胞mRNA可能通过IRES来启动翻译[7]。尽管目前已鉴定出了一些IRES元件,但仍有大量IRES元件尚未被发现。由于通过实验鉴定IRES元件费时费力,用于IRES元件的计算识别方法开始受到越来越多的关注。目前已有多种计算识别方法被提出,其原理和适用对象各不相同,因此本文对这些方法进行综述,并对其分类性能进行了测试和比较。
1 IRES概述
IRES元件最早被发现于脑心肌炎病毒和脊髓灰质炎病毒中,Pelletier J等[8]在1988年通过构建双顺反子系统验证了脑心肌炎病毒的RNA序列中存在内部核糖体进入位点,Jang S K等[9]也发现脊髓灰质炎病毒的5'非翻译区(Untranslated region,UTR)存在序列能和核糖体结合。随后,Macejak D G和Sarnor P[10]在1991年发现细胞mRNA中也存在IRES元件,他们发现在被病毒感染的宿主细胞中,当帽依赖翻译起始被抑制时,编码免疫球蛋白重链结合蛋白(Immunoglobulin heavy chain binding protein,BIP)的mRNA仍能进行翻译。经实验排除了核糖体通读的可能,验证了BIP mRNA的5'端可以直接招募核糖体并启动翻译。随着越来越多的IRES元件被实验验证,人们发现IRES起始非帽依赖的翻译需要特殊的IRES反式作用因子(IRES transacting factor,ITAF)的帮助[11-14]。ITAF通常是核蛋白或者是在细胞核和细胞质之间穿梭的蛋白质,但其作用机制尚不完全清楚。目前的研究认为ITAF可以作为RNA的分子伴侣,通过改变或稳定IRES的二级结构,允许其进一步与蛋白质或40S核糖体亚基结合。或者,ITAF作为接头蛋白质,形成其他蛋白质或40S核糖体亚基结合的锚点[15]。
IRES元件分为病毒IRES和细胞IRES。病毒IRES通常具有更复杂的结构特征,这些结构在起始翻译时与核糖体的结合密切相关。根据其结构以及对翻译起始因子(Initiation factors,IFs)和IRES反式作用因子的需求,可以将病毒IRES元件大致分为四类[16](图1(a))。Ⅰ类病毒IRES代表为蟋蟀麻痹病毒(Cricket paralysis virus,CrPV),可直接招募40S小核糖体亚基与RNA结合,无需任何翻译起始因子和IRES反式作用因子。Ⅱ类病毒IRES代表为丙型肝炎病毒(Hepatitis C virus,HCV),也可直接招募40S小核糖体亚基与RNA结合,但其通常需要翻译起始因子协助。Ⅲ与Ⅳ类病毒IRES不能直接结合40S小核糖体亚基,需要一些典型的翻译起始因子、氨基酰-tRNA和IRES反式作用因子的帮助。Ⅲ类与Ⅳ类代表病毒分别为脑心肌炎病毒(Encephalomyocarditis virus,EMCV)和脊髓灰质炎病毒(Poliovirus,PV)。它们的主要区别在于Ⅲ类病毒IRES招募40S核糖体小亚基直接在结合位点启动翻译,而Ⅳ类病毒IRES则需要40S核糖体小亚基对下游进行扫描并寻找起始密码子来启动翻译。相比于病毒IRES元件,细胞IRES元件的结构特征更少,且序列的保守性更小。根据核糖体的招募方式,可粗略地将细胞IRES元件分为两类[17](图1(b)):Ⅰ类细胞IRES通过与ITAF结合来招募核糖体;II类细胞IRES通过与18S核糖体RNA序列互补配对来招募核糖体。总的来说,病毒IRES拥有相似的二级结构与翻译起始机制,而细胞IRES的序列及结构特征则更加多样化。
IRES不仅能启动mRNA的翻译,Chen等[18]的研究证实IRES还可以启动环状RNA的翻译。随着研究的深入,已有相当多的环状RNA被发现具有编码功能,其翻译产生的蛋白质参与多种生物过程和人类复杂疾病的调控[19]。Legnini等[20]发现通过IRES翻译产生一个含有250个氨基酸的蛋白质,该蛋白质可以调节肌细胞的增殖。Pamudurti等[21]发现果蝇基因组中的部分环状RNA与核糖体结合,其中环状RNA circMbI的UTR区域通过IRES启动非帽依赖翻译。Yang等[22]通过实验鉴定出Circ-FBXW7的UTR全长片段可以招募核糖体起始翻译,其截短片段的IRES活性则大大减弱。Circ-FBXW7翻译出的蛋白FBXW7-185aa在癌症细胞中表达上调,能够抑制细胞增殖并减缓细胞周期加速过程。Li等[23]则发现环状RNA的开放阅读框上游存在IRES元件,其编码产物EIF6-224aa直接作用于乳腺癌致癌基因MYH9。已有研究表明,IRES介导的非帽依赖翻译起始机制与血管再生、细胞凋亡等生物过程密切相关,并在癌症等人类复杂疾病中扮演着重要角色[24]。
IRES元件的识别对于非帽依赖翻译起始调控机制及其功能研究至关重要,其可作为新的治疗靶点或用于开发新型RNA药物。目前最常用于验证IRES活性的实验方法是双顺反子报告系统,该系统将待测的包含IRES的片段放置于两个开放阅读框之间,第一个开放阅读框由5'端帽子结构招募核糖体启动翻译,第二个开放阅读框则通过两者间的待测片段招募核糖体启动翻译,由此通过比较两个开放阅读框的蛋白质表达量即可定量待测序列的IRES活性。然而,这一过程会受到待测序列启动子活性或可变剪接事件的干扰,进而出现假阳性结果,因此仍需设计额外的对照实验作进一步验证。综上,通过实验方法鉴定IRES元件耗时耗力,迫切需要开发精确高效的计算方法来节约成本,从而促进其作用机制和生物学功能的深入挖掘。本文总结了现存的IRES元件计算识别方法,并对这些方法进行了性能比较(表1)。
图1病毒IRES结构和细胞IRES起始翻译的机制
Fig.1Structure of viral IRES and mechanism of translation initiation driven by cellular IRES
注:(a)四类病毒IRES结构;(b)细胞IRES起始翻译机制.
表1IRES预测工具比较
Table1Comparison of IRES predicting tools
2 IRES元件计算识别方法
2.1 基于结构相似性识别方法
2.1.1 IRSS
2009年,Wu等[25]最早开发了用于识别病毒基因序列中IRES元件的在线搜索系统IRSS。该搜索系统主要包含两个步骤:第一步,输入的序列通过滑动窗口划分成多个片段,利用RNALfold程序预测RNA序列的二级结构;第二步,利用RNA Align程序将预测的RNA二级结构与Rfam数据库中已知的IRES结构做比对,然后计算结构相似性得分R。R被定义为比对匹配得分(Alignment match score,ALEN)和距离得分(Distance score,DIST)的比值,即R=ALEN/DIST。其中比对匹配得分代表二级结构之间的匹配程度,距离得分代表结构比对时匹配上的长度。对于R阈值的选取,IRSS将丙型肝炎病毒(Hepatitis C virus,HCV)和瘟疫病毒(Poliovirus,PV)的5'UTR序列作为正样本,来自UTRdb数据库的其他5'UTR序列作为负样本。通过计算在不同大小窗口下相似性得分R值的分布,利用线性判别分析(Linear discriminant analysis,LDA)方法确定阈值。
为评估IRSS的预测准确率,选取UTRdb数据库中丙型肝炎病毒和瘟疫病毒的IRES作为测试数据。结果显示,IRSS在滑动窗口L=250时预测能力最强,在两种病毒的IRES数据上分别取得了66.7%和72.3%的预测准确率。IRSS提供了网页服务,输入序列要求FASTA格式或纯文本格式,窗口大小L和R的阈值是可调参数。默认的窗口大小L为250,默认的R阈值为1.4。输出内容为文本格式,包括RNA序列、二级结构和预测的最小自由能。IRSS的预测对象受限于病毒序列,比对过程所需时间较长,不适用于处理大量数据。目前,其网页服务已无法使用。
2.1.2 VIPS
2013年,Hong等[26]在IRSS的基础上开发了新的病毒IRES预测系统VIPS。该系统增加了假结结构预测模块,以进一步增强对病毒IRES元件的预测能力。VIPS从NCBI GenBank和Rfam数据库中选取了病毒IRES作为结构比对的模板,这些IRES可以根据其二级结构分为四组。其中,Ⅰ组包括16条蟋蟀麻痹病毒IRES;Ⅱ组包括17条脑心肌炎病毒IRES;Ⅲ组包括3 096条丙型肝炎病毒IRES;Ⅳ组包括213条脊髓灰质炎病毒IRES。上述IRES元件被选作正样本,相应病毒序列中IRES元件外的编码区则被选作负样本。对于每组样本,采用线性判别分析方法确定结构相似性得分R的阈值以区分正负样本。同时,假结结构也是识别IRES元件的重要因素。VIPS在结构相似性的基础上,进一步通过是否含有假结结构来更好地预测病毒IRES元件。
基于结构相似性得分R,VIPS在四组训练集上的分类准确率分别为92.3%、90.3%、82.4%和77.6%;通过进一步判别是否含有假结结构,预测准确率有了较为显著的提升,分别达到98.5%、90.8%、82.4%和80.4%。用户可以使用VIPS提供的网页服务预测病毒IRES,输入序列为纯文本格式,限制在5 000个核苷酸以内。用户还可以调整R的阈值,选择是否使用假结结构预测模块,Ⅰ、Ⅱ、Ⅲ和Ⅳ组IRES的R默认阈值分别为1.61、1.98、1.87和1.58。其输出内容包括RNA序列、二级结构、结构相似性得分、假结预测结果和最小自由能。考虑到VIPS仅在训练集上对其分类性能进行了评估,并未经独立测试集检验,因此该预测模型可能存在过拟合。目前,其网页服务已经无法访问。
2.2 基于机器学习模型识别方法
2.2.1 IRESPred
2016年,Kolekar等[27]基于支持向量机,开发了适用于病毒和细胞IRES的预测方法IRESPred。正样本来自于IRESite数据库中收录的IRES元件,负样本则来自于管家基因(Housekeeping gene)的5'UTR序列、真核生物编码序列(Coding sequence,CDS)和病毒CDS序列。在去除正样本中的冗余序列并删除合成序列后,最终构建的数据集包含189条正样本和189条负样本,其中正样本包含了58条人类序列、58条其它真核生物序列和73条病毒序列,负样本则包含了97条管家基因序列、46条细胞CDS序列和46条病毒CDS序列。IRESPred总共从序列中提取了35个特征,其中8个特征是UTR相关序列特征,如序列长度、上游密码子AUG个数和二级结构等,另外27个特征为UTR与27种小亚基核糖体蛋白(Small subunit ribosomal proteins,SSRPs)的结合概率。
数据集被划分成训练集和测试集,比例为1∶1。作者在训练集上利用十折交叉验证对支持向量机模型的参数进行寻优。经寻优后,IRESPred在测试集上取得了75.5%的准确率和75.3%的敏感性,并且对实验验证的细胞IRES元件达到了73.2%的预测准确率,对病毒IRES元件达到了91.8%的预测准确率。用户可以使用IRESPred提供的网页服务预测IRES,输入序列要求为FASTA格式,长度在15~7 500个碱基之间,每次输入不能超过10条核苷酸序列。IRESPred使用CDS区序列作为负样本,而正样本中的IRES元件则位于UTR区,考虑到UTR与CDS二者在序列及结构特征上的固有差别,负样本的选择弱化了模型的泛化能力。此外,IRESPred的网页服务限制输入序列的数目,因而不适用于批量预测IRES。IRESPred网页服务已失效,目前无法访问。
2.2.2 IRESfinder
2018年,本课题组[28]基于逻辑回归算法,开发了一款用于预测真核生物IRES的方法IRESfinder。该方法首次使用Weingarten-Gabbay等[29]通过高通量实验鉴定的IRES元件构建数据集。Weingarten-Gabbay等[29]通过高通量的双顺反子实验鉴定出数千个具有IRES活性的序列以及大量不具有IRES活性的序列,并且测定了序列的剪切活性和启动子活性以排除干扰。通过对剪切活性和启动子活性的筛选,首先从人类序列中去除可能的假阳性样本。接着,选取IRES活性大于600的序列作为正样本,与阴性对照组活性相同的序列作为负样本。最终,构建了包含401条正样本和401条负样本的标准数据集,从正负样本中各挑选出40条序列作为测试集。此外,为了验证模型的泛化能力,还额外构建了两个独立测试集,其正样本源自文献中收集的经实验验证的IRES元件,负样本从先前的数据集中随机挑选。其中,第一个独立测试集只选取了IRES的核心序列,第二个独立测试集选取了包含IRES的完整5'UTR序列。
为解决k-mer特征在k值较大时导致的矩阵稀疏问题,对其进行了改进,提出了framed k-mer特征。研究选取k={1,2,3,4,5},从序列中提取了2 500个framed k-mer特征。十折交叉验证结果显示出模型平均AUC达到0.782。由于特征维度远大于训练集的样本数(361),作者对特征进行筛选以避免模型过拟合。首先,移除在90%以上样本中值为0的特征;随后,利用单个特征训练模型,移除AUC得分低于0.6的特征;最后,采用序列前向选择(Sequence forward selection,SFS)算法挑选出了排名靠前的19个特征。利用选定的特征训练的模型平均AUC值提高到0.825。进一步分析发现,IRES元件更倾向于包含T、TNNTT、TNNC、TTNA、TCTNT和AAT短序列,这一结果表明T(或U)核苷酸可能对其招募核糖体起着关键作用。在三个独立测试集上,IRESfinder分别取得了65%、73.1%和69.2%的准确率。用户可以使用IRESfinder提供的可执行程序预测IRES,其输入为FASTA格式文件,输出为待测序列的概率值及判定结果。另外,IRESfinder提供了可选模式,可以通过滑动窗口寻找IRES核心区域。考虑到IRESfinder采用的逻辑回归算法是线性模型,不能捕捉到复杂的非线性关系,其泛化能力会受到一定程度的影响。
2.2.3 IRESpy
2019年,Wang等[30]基于极限梯度提升(Extreme gradient boosting,XGBoost)算法,开发了一款快速且可靠的IRES在线预测工具IRESpy。其训练数据同样来源于Weingarten-Gabbay等[29]的研究,IRESpy选取了活性超过600的序列作为正样本,剩余序列作为负样本。构建的训练集包含了2 129个IRES,18 743个非IRES,其比例约为1∶9。对于独立测试集的构建,作者从IRESite数据库选取64条细胞IRES和52条病毒IRES作为正样本,51条管家基因序列作为负样本。IRESpy提取了序列特征、结构特征和混合特征。其中序列特征为k-mer,包含了局部k-mer和全局k-mer特征;结构特征为QMFE特征,其被定义为序列与随机序列的最小自由能比值,可以用于描述二级结构的复杂度;混合特征为三联体特征,结合了一级序列特征和三联体的结构特征,包含了序列信息和结构信息。
IRESpy采用十折交叉验证来对模型参数进行寻优,寻优后在测试集上的AUC值达到0.775。IRESpy的预测概率阈值设置为0.1,据此在独立测试集上取得了77.8%的准确率和79.6%的敏感性。作者还进一步分析了预测的IRES概率值与实验测定的IRES活性值之间的关系,发现高活性(>600)序列的预测值显著高于低活性序列。最后,作者利用可解释性算法SHAP,发现U富集序列,如“U”、“UU”、“UUU”、“UUUU”、“CU”和“UGU”,与较高的IRES预测概率相关。IRESpy为用户提供网页服务,输入为FASTA格式的文件,用户可以自由设定预测阈值(默认为0.1),输出结果包含预测概率值及判定结果。
2.3 基于深度学习模型识别方法DeepCIP
2023年,Zhou等[31]开发了首个环状RNA中的IRES元件预测工具DeepCIP。该工具基于多模态深度学习算法,集成了序列信息与结构信息。其数据集取自Chen等[32]通过高通量实验鉴定的环状RNA中的IRES元件,包含4 531个正样本和9 616个负样本。由于数据集的正负样本数量不平衡,据此DeepCIP分别构建了三个正负样本平衡的训练集,由此训练出的模型经软投票方式集成。由于缺少独立测试集,DeepCIP将数据集中与环状RNA数据库比对上的序列作为测试集正样本,随机挑选了相同数量的负样本。DeepCIP分别构建了序列模型和结构模型:序列模型对RNA序列采用了独热(One-hot)、核苷酸化学性质(Nucleotide chemical properties,NCP)、二核苷酸理化性质(Dinucleotide physicochemical properties,DPCP)三种编码方式,采用句子状态长短时记忆网络(Sentence-state long short term memory,S-LSTM)模型提取特征;结构模型的输入为RNA序列的二级结构信息,采用图卷积神经网络(Graph convolutional network,GCN)提取结构特征。DeepCIP在融合上述两个模型的输出后,给出IRES预测结果。
经评估,DeepCIP在测试集上取得了0.727的AUC,并且在文献收集的21条环状RNA IRES中成功预测出15个。该研究还分析了IRES预测概率与其实验测定活性之间的相关性,发现活性较高的IRES往往具有较高的预测概率值。作者利用DeepCIP对未被证实含有IRES元件但具备翻译潜能的环状RNA进行了预测,得到340个可能包含IRES元件的环状RNA,并且发现这些IRES常常存在于环状RNA的反向剪接位点附近。最后,作者利用深度学习可解释性算法,积分梯度(Integrated gradients,IG),挖掘序列中对预测值贡献度较高的基序(Motif),发现这些motif大多是AU富集的序列,此结果与之前研究发现一致[34]。DeepCIP为用户提供了可运行的程序,输入为FASTA格式的文件,输出为CSV格式的文件。其提供了多个输入参数,用户可以设置概率阈值,并可切换模式,选择滑动窗口大小和步长后将输入序列分成多个子序列进行预测。
3 IRES识别方法的性能比较
3.1 数据集
目前可用的IRES元件识别工具有IRESfinder,IRESpy和DeepCIP。分别比较了这些工具对于线性RNA和环状RNA中IRES元件的识别能力。为了公正客观地评价上述工具的预测性能,需要建立一个与上述算法的训练数据集没有重合序列的独立测试集。具体地,从文献中收集了45条经双顺反子报告系统验证的IRES作为正样本[35-64],包含了细胞IRES和病毒IRES,选取相同数量的管家基因5'UTR序列作为负样本,构建了线性IRES测试集。同时,也构建了环状RNA IRES独立测试集,由于缺乏负样本,只从文献中收集了经双顺反子报告系统验证的27条环状RNA IRES元件[20-23,65-85],长度从42~478不等,记为环状IRES测试集。
3.2 评价指标
为了全面评估模型的性能,选取了多个评价指标,包括准确率(Accuracy,ACC)、敏感性(Sensitivity,SN)、特异性(Specificity,SP)、马修斯相关系数(Matthew’s correlation coefficient,MCC)、受试者工作特征曲线下面积(Area under receiver operating characteristic,AUROC)和F1分数(F1-score)。这些指标的计算公式如下:
(1)
(2)
(3)
(4)
(5)
其中,TP、TN、FP和FN分别表示真阳性,真阴性,假阳性和假阴性。
3.3 实验参数设置
对于IRES的在线预测服务,IRESfinder和DeepCIP提供了可运行的程序,IRESpy提供了网页服务。分别利用三种算法对测试集序列进行预测,预测时均使用程序提供的默认参数。另外,由于缺少新的IRES预测工具,本文构建了一个基于深度学习的IRES预测模型。该模型由卷积神经网络(Convolutional neural networks,CNN),门控循环单元(Gate recurrent unit,GRU)和自注意力机制(Self-attention)组成,称为CNN_GRU_ATT模型。
模型的输入序列经过独热编码后转变为L×4的矩阵,其中L表示序列的长度。输入矩阵通过卷积神经网络提取特征,卷积结果进入门控循环单元来捕捉序列上下文关系,其输出通过自注意力机制层来提取更重要的特征,最终经过全连接层和sigmoid激活函数得到预测结果。CNN_GRU_ATT模型的具体超参数设置见表2。为了测试模型对线性IRES和环状RNA IRES的预测能力,分别利用IRESpy和DeepCIP的训练数据训练CNN_GRU_ATT模型。此外,IRESfinder、DeepCIP和CNN_GRU_ATT的预测阈值被设置为0.5,而IRESpy的预测阈值被设置成0.1。
3.4 线性IRES预测
在线性RNA的IRES测试集上,IRESfinder,IRESpy,DeepCIP和CNN_GRU_ATT的性能比较结果如图2和表3所示。结果显示出,总体上IRESfinder在该测试集上预测性能最优,分别取得了53.3%的敏感性、86.7%的特异性、70%的准确率、0.424的马修斯相关系数、0.64的F1得分和0.765的AUROC得分,仅特异性和AUROC值略低于CNN_GRU_ATT模型。IRESpy与CNN_GRU_ATT的预测性能次之,DeepCIP在此测试集上的预测性能最差,准确率和AUROC等指标远低于其他方法。IRESfinder是基于人类IRES数据训练的算法,但是对测试集中的病毒IRES也具有预测能力,表明人类IRES与病毒IRES可能存在共同的序列特征。虽然IRESpy的预测准确率与CNN_GRU_ATT模型相同,但其AUROC得分略低,表明CNN_GRU_ATT模型的分类能力更强。
图2不同方法对线性IRES预测性能比较
Fig.2Prediction performance comparison of different methods for linear IRESs
注:(a)不同模型在多个评价指标上比较结果;(b)不同模型的AUROC曲线比较结果.
表2CNN-GRU-ATT模型的超参数设置
Table2Hyperparameter setting of the CNN_GRU_ATT model
DeepCIP工具主要被设计用于预测环状RNA中的IRES元件,其在线性测试集的预测性能最差,这说明环状RNA IRES与线性IRES存在显著的差异。此外,IRESfinder,IRESpy和CNN_GRU_ATT对IRES预测的敏感性较低,而特异性较高,说明它们对真实IRES的识别能力较差,对非IRES的识别能力强。然而,在实际应用中,往往更注重对IRES的预测能力。因此,后续研究需要进一步改善预测工具的敏感性。
表3线性IRES的预测结果
Table3Prediction result for linear IRESs
3.5 环状IRES预测
在环状RNA IRES测试集上,IRESfinder、IRESpy、DeepCIP和CNN-GRU-ATT的预测结果如表4所示。每条IRES都标注了宿主环状RNA名称和序列长度信息,大于阈值的预测得分用粗体突出显示。IRESfinder,IRESpy,DeepCIP和CNN_GRU_ATT分别正确预测出12、9、17和15条IRES。在我们构建的环状IRES测试集上,DeepCIP对环状RNA IRES的预测能力最强,CNN_GRU_ATT和IRESfinder次之,IRESpy的预测能力最差。IRESfinder和IRESpy两款基于线性IRES数据训练的模型对环状RNA IRES的预测能力较差,这印证了环状RNA IRES与线性IRES存在差异。我们构建的CNN_GRU_ATT模型只基于序列特征对IRES进行预测,而DeepCIP结合了序列特征与结构特征。DeepCIP对环状RNA IRES的预测能力更强,表明环状RNA IRES有其独特的结构特征。总的来说,对环状RNA IRES的预测能力还有待提高,需要开发预测准确率更高的方法。
4 总结
蛋白质是生命活动的主要承担者,其翻译起始机制可分为两类:帽依赖翻译起始和IRES介导的非帽依赖翻译起始。IRES作为一种顺式作用元件,可在帽依赖翻译被抑制或不可用的情况下,起始非帽依赖翻译。现有研究表明,非帽依赖翻译起始在细胞应激反应、病毒蛋白翻译等生命过程中发挥着至关重要的作用,且与包括癌症在内的多种人类复杂疾病密切相关。尽管目前已经鉴定出许多IRES元件,但是仍有大量的IRES元件未被识别。鉴于IRES元件的实验鉴定方法费时费力,为了节约时间及成本,深入探索IRES元件的作用机制及功能,亟需开发相关计算识别方法。
表4环状RNA IRES的预测结果
Table4Prediction results for circRNA IRESs
目前可用的IRES元件计算识别方法包括识别细胞IRES的IRESfinder、识别细胞和病毒IRES的IRESpy以及识别环状RNA IRES的DeepCIP。本文建立了一个基于深度学习模型的IRES预测方法,并建立独立测试集比较了这些方法的预测性能。然而,上述方法对于新数据的预测能力均不太理想,仍有待进一步提升。其中,较为关键的原因在于,上述方法所用的实验验证的IRES元件长度仅为174个核苷酸,而真实IRES元件的长度不定。此外,受限于训练样本长度,其主要采用序列特征,然而研究表明IRES元件活性与其结构密切相关。最后,目前开发的算法大多数基于机器学习模型,而深度学习模型相较于机器学习模型有着更高的精度,将来需要开发更多基于深度学习模型的IRES元件计算识别方法。