摘要
微小RNA(miRNA)通过与靶标RNA非翻译区的特定位点结合来调控基因表达。由于识别miRNA靶标的高通量实验方法昂贵且耗时,因此,研究可以准确预测miRNA靶标的计算方法具有重要意义。本文综述了近年来基于机器学习的miRNA靶标预测方法及miRNA靶标相关数据库。首先介绍了miRNA及其功能,阐明了miRNA靶标预测的重要性。随后,概述了常见的miRNA靶标数据库,这些数据库为miRNA靶标预测提供了重要的数据基础。接着,详细阐述了基于SVM、集成学习、深度学习等机器学习模型的miRNA靶标预测方法。最后,讨论了miRNA靶标预测研究的未来挑战和方向,并展望了深度学习技术在miRNA靶标预测领域的应用前景。
关键词
Abstract
MicroRNAs (miRNAs) regulate gene expression by binding to specific sites in the non-coding regions of target RNA. Due to the high-throughput experimental methods to identify miRNA targets are expensive and time-consuming, the development of computational methods that can accurately predict miRNA targets is of great significance. In this paper, we reviewed the methods of miRNA target prediction based on machine learning and miRNA target related databases in recent years. First, we introduced miRNAs and their functions, elucidating the importance of miRNA target prediction. After that, we provided an overview of common miRNA target databases, which provide an essential data for miRNA target prediction. Next, we elaborated the miRNA target prediction methods based on SVM, ensemble learning and deep learning. Finally, we discussed the future challenges and research directions on miRNA target prediction, as well as the potential application of deep learning technology in the field of miRNA target prediction.
Keywords
microRNA(miRNA)是一类能够调节基因表达的内源性、非编码、单链小RNA分子。它通过与mRNA的3’非翻译区(3’UTR)上的特定位点绑定来行使基因调控、抑制基因表达的功能[1]。一般认为在动物体内,miRNA与其靶标绑定位点是非完全碱基配对的,这些绑定位点根据规则可分为典型的绑定位点、非典型的绑定位点以及非规范的绑定位点三种类型[2]。如图1所示,在miRNA序列中,存在一个高度保守的区域,通常位于miRNA序列的5’端第2-8个碱基,这个区域被称为miRNA的“种子区域”或“种子序列”。典型的绑定位点、非典型的绑定位点要求种子区域与靶标的3’UTR完全配对。
图1miRNA与靶基因绑定示意图
Fig.1miRNA and target gene binding diagram
但是,由于miRNA靶标丰富且广泛存在于转录组当中,所以大量miRNA靶标识别具有挑战性。生物学实验方法是识别miRNA靶标的经典方法,例如交联免疫沉淀(CLIP)[5]、荧光素酶报告基因实验(Luciferase reporter assays)[6]等。这类方法能够揭示miRNA的调控功能和机制,为进一步研究提供实验基础和支持。而受技术限制的这类方法成本高昂、耗时耗力。在研究miRNA功能的生物学实验过程中,研究者发现了一些未经充分论证的miRNA与其靶标绑定的规则[7],根据这些规则,生物信息学学者们提出了计算方法来预测miRNA靶标[8],很好地弥补了生物学实验验证方法的不足。
随着人们对miRNA功能研究的不断深入,越来越多的miRNA靶标被生物学实验识别出来,出现了一些miRNA靶标数据库。这些数据的积累使得机器学习方法可以引入miRNA靶标预测的计算方法,进一步提高方法的预测性能。
目前,miRNA靶标预测计算方法的任务分为两大类:
1)靶位点的预测:该类任务是给定miRNA序列和mRNA的3’UTR序列,从3’UTR序列上识别可能的miRNA结合位点,以确定是否存在靶向关系。靶位点预测的关键在于提取已知miRNA靶位点的序列、结构等特征,并训练分类器来识别miRNA靶位点,以确定miRNA与mRNA的绑定关系。
2)直接预测miRNA与基因的绑定关系:该类任务直接预测miRNA与基因的表达调控的关系。这种方法的优点在于从整体考虑miRNA与靶标之间的复杂相互作用,能够全面分析二者之间的联系。
本文系统地综述了近几年来提出的基于机器学习的miRNA靶标预测方法以及miRNA靶标数据库。对于miRNA靶标数据库,我们根据其所记录数据的类型进行分类汇总。对于miRNA靶标预测方法,我们根据所应用的模型进行分类,并对每一类方法进行了分析。最后,我们对这些方法进行了总结,并对未来的研究方向进行了展望。
1 miRNA靶标数据库
miRNA靶标的相关数据广泛分布于已发表的科学研究文献中,研究人员采取了人工检索、文本挖掘[9]等方法,将这些miRNA靶标信息集中起来,构建成miRNA靶标数据库。根据数据库所包含的数据内容,可划分为两大类:一类只记录实验验证的miRNA靶标相互作用数据(MTIs)(表1);另一类则记录了实验验证以及计算方法预测出的MTIs(表2)。
1)表1给出了4种记录实验验证的MTIs数据库的相关信息。TarBase v9.0[10]和miRTarBase v9.0[11]都使用自然语言处理(NLP)技术从PubMed文献中提取实验验证MTIs,并对挖掘的数据进行人工审核。其中,TarBase v9.0相较于miRTarBase v9.0收录了数量更多的MTIs,但是,miRTarBase v9.0涵盖了更多的物种信息。miRATBase[12]的开发者开发了HiTmIR高通量技术来验证MTIs,并用该数据库存储经过HiTmIR验证的MTIs。
2)表2给出了2种包含实验验证及计算方法预测的MTIs的数据库。miRPathDB[13]数据库整合了来自miRBase数据库(版本22.1)[14]和miRCarta数据库(版本1.1)[15]中所有有关智人(Homo sapiens)和小鼠(Mus musculus)的miRNA信息,还记录了通过TargetScan[16]和miRanda[17]等工具预测的miRNA靶标。miRWalk[18]基于数据库的受欢迎程度和交互预测的准确性整合了miRTarBase、TargetScan等数据库中的信息。
还有一类数据库并不包含实验验证的数据,而是专注于汇总miRNA靶标预测工具的预测数据(表3)。由于预测工具的性能依赖于训练数据的质量、所使用的算法和模型,这类数据往往具有假阳性率高等不足之处,但它们为后续研究提供了辅助信息,有助于促进潜在靶点的发现。例如,MirDIP[19]数据库整合了24个预测工具的数据,提供了组织上下文注释、新miRNA整理以及上下文特异性分析等功能。
表1记录生物学实验验证的miRNA靶标的数据库
Table1Databases recording miRNA targets verified by biological experiments
表2记录生物学实验验证及通过计算方法预测的miRNA靶标的数据库
Table2Databases recording miRNA Targets verified by biological experiments and predicted by computational methods
表3记录计算方法预测的miRNA靶标的数据库
Table3Databases recording miRNA targets predicted by computational method
2 基于机器学习的miRNA靶标预测方法进展
随着生物学实验不断发现新的miRNA靶标,以及miRNA靶标数据库的建立,为miRNA靶标预测的计算方法带来了新的发展机遇。鉴于基于机器学习的miRNA靶标预测方法成为研究热点,我们整理了近几年出现的相关方法,并根据它们所使用的模型分为四大类:基于支持向量机(Support vector machine,SVM)的方法、基于集成学习的方法、基于深度学习的方法及其他类型的方法,如图2所示。
图2miRNA靶标预测方法的分类图
Fig.2Classification of miRNA target prediction
这些方法大多采用监督学习策略,首先构建数据集,其正样本来源于miRNA靶标数据库中实验验证的miRNA靶标对,负样本则来源于以下途径:①miRNA靶标数据库中的少量负样本;②设定规则从生物学实验数据中抽取;③通过计算方法从未标记样本中选取。随后,从这些正负样本中提取序列特征和/或结构特征,用于训练和优化miRNA靶标预测的分类器。最终,经过训练的分类器将用于预测新的miRNA靶标候选结合位点或绑定关系。表4展示了近年来基于机器学习的miRNA靶标预测方法的相关信息。
2.1 基于支持向量机(SVM)的方法
miRNA靶标预测是一个复杂的任务,需要综合考虑多种特征,例如序列互补性、碱基配对能量、miRNA结合位点周围的保守性等等,这些特征之间可能存在非线性关系,传统的线性模型难以有效处理。SVM模型可以整合不同类型和性质的特征,例如数值特征和交互特征等,并将它们纳入同一个框架进行分析;SVM还可以将原始特征映射到高维空间,从而有效地处理非线性问题。
Wang等[22]开发的MirTarget2方法从Linsley等[23]发表的miRNA过表达微阵列数据中识别出表达水平显著降低的基因,并从NCBI GEO[24]数据库中选取下调基因所对应的3’UTR序列组合成miRNA靶标对作为正样本,表达水平没有显著变化的基因对应的3’UTR序列组合成miRNA靶标对作为负样本。Wang等[22]从3’UTR序列中提取了种子序列保守性、碱基组成、二级结构稳定性等131个特征组合成特征向量输入到SVM进行训练预测。在10折交叉试验中,该方法的ROC曲线下面积(AUC)为0.79。
2016年,Wang等[25]开发了名为MirTarget的新型miRNA靶标预测方法。该方法从Grosswendt[26]和CLASH[27]数据集中筛选出miRNA种子序列与靶标完全配对的序列对作为正样本,通过随机选取非靶标序列对作为负样本。该方法提取了种子位点保守性、靶标在UTR中的位置及靶标的GC含量等50个特征来训练SVM。10折交叉验证结果显示,方法的AUC值达到0.86,优于对比方法。
2019年,Liu等[28]进行了RNA-Seq实验,将miRNA过表达后显著下调的基因转录本以及与miRISC结合的转录本作为正样本,没有显著变化以及在CLIP结合数据中没有被结合的转录本作为负样本。Liu等[28]提取了包含miRNA的表达水平、miRNA的成熟度、miRNA的亚细胞定位等96个特征,利用SVM模型进行训练开发了MirTarget v4.0。在独立集实验结果的ROC曲线分析中,该方法的AUC值为0.78;在精确度-召回率曲线分析中,当召回率低于20%时,该方法的精确率超过90%。
除MirTarget之外,MultiMiTar[29]方法以及Korfiati等[30]提出的方法也选择了SVM作为分类器来预测miRNA与靶标之间的结合位点。其中,MultiMiTar方法从相关文献[31]中获取实验验证的正样本和负样本,并提取了沃森-克里克配对数量、种子位点上游和下游区域的AU富集情况等90个特征来训练SVM分类器;Korfiati等提出的方法从TarBase v5.0数据库和miRecords[32]数据库中获取正样本和负样本,并通过随机生成miRNA序列后利用miRanda程序生成负样本补充,该方法抽取包括miRNA靶标的结构特征、热力学特征、位置特征等124个特征,并利用遗传算法进行参数优化和最终特征选取,最后使用SVM进行训练和预测。
2.2 基于集成学习的方法
基于集成学习方法的miRNA靶标预测主要包括以下几个步骤:首先,进行数据预处理以及负样本的筛选。接着,提取miRNA和靶标的多种特征,包括序列特征和结构特征等;然后,利用训练集训练多个个体学习器,并采用集成策略(如投票、加权平均等)结合各个个体学习器的预测结果;最终,通过集成多个学习器的优势,形成一个强学习器进行预测。集成学习能够有效地减少单一学习器可能带来的过拟合风险,并提高预测精度,增强模型的稳定性和泛化能力。
MBSTAR[33]方法从miRecords数据库中获取经实验验证的miRNA-mRNA正样本,筛选在表达水平上没有相互作用且能量和保守评分较差的miRNA-mRNA对为负样本。该方法在mRNA的3’UTR区域识别潜在结合位点(PBS),从每个PBS及其上下游区域提取序列和结构特征,并通过无监督的拉普拉斯特征选择方法筛选出PBS周围区域的单个核苷酸频率、最小自由能等40个最具区分性的特征。随后,利用这些特征训练随机森林分类器以预测miRNA靶标。在基于TarBase v6.0的独立测试集上,MBSTAR的F1-score达到0.337。相较于对比方法,MBSTAR在预测靶标和功能结合位点(FBS)方面更强。
TarPmiR[34]方法从CLASH实验中获取正样本,在与正样本相同的mRNA上选取与正样本具有相似的序列组成,但不与正样本重叠、且具有最低折叠能的序列作为负样本。方法提取了折叠能、AU含量、靶标区域长度等13个特征训练随机森林模型,并通过投票方式对预测结果进行集成。相较于对比方法,TarPmiR的召回率为55.1%,高出至少10%。
MIPDH[35]方法利用NPInter v2.0[36]、DisGeNET[37]等数据库及来源于NCBI网站的数据构建包含药物、疾病和6种生物分子之间17种关联的异构网络。该方法以实验验证的miRNA-mRNA相互作用数据为正样本,并随机生成等量不与正样本重叠负样本。通过DeepWalk算法学习网络中每个节点的潜在特征,并结合K-mer学习miRNA和靶标序列的属性特征,形成最终输入特征向量。方法采用随机森林模型进行训练和预测。5折交叉验证结果显示,MIPDH方法的精确率、特异性和AUC分别为76.66±1.00%、77.33±1.34%和0.804 4±0.007 8,展现出良好的预测性能。
PMGAE[38]方法从starBase v2.0[39]数据库中获取已知的假基因-miRNA关联对作为正样本,同时随机抽取与正样本数量相等的数据作为负样本。该方法使用3-mer将每个miRNA序列表示为一个64(4×4×4)[JP3]维的向量,使用Jaccard相似度、余弦相似度和皮尔逊相似度计算假基因和miRNA的相似度特征并进行加权相似融合。基于特征信息和关联信息,通过图自动编码器(GAE)获取节点低维表示向量,然后将这些表示向量输入到XGBoost分类器中,以进行假基因-miRNA关联预测。在5折交叉验证评估模型中,平均AUC为0.863 4,平均AUPR为0.896 6。
ELPMA[40]方法从starBase v2.0数据库中选取经过实验验证的假基因-miRNA作用作为正样本,通过重采样方法从未经证实的假基因-miRNA对中随机选取与正样本数量相同的对作为负样本构建多个平衡的假基因-miRNA关联训练子集。ELPMA使用相似性核融合方法将假基因和miRNA的各种相似度特征(假基因表达相似度、miRNA功能相似度等)进行融合,得到综合相似度矩阵。利用XGBoost模型作为个体学习器进行训练,最后使用软投票策略进行集成。在5折交叉验证中,方法的AUC和AUPR分别达到0.989 7和0.991 4。
JSNDCMI[41]方法从CircBank数据库[42]和CMI-9905数据集[43]中提取已知的circRNA-miRNA相互作用(CMI)对作为正样本,通过随机选取获取负样本。该方法从CMI网络中提取了分子的局部拓扑结构特征和功能相似性特征,从RNA序列和RNA相似性网络中提取分子属性特征,通过将分子属性特征和网络嵌入特征进行融合,形成最终的分子特征描述符矩阵作为输入。该方法使用降噪自编码器(DAE)对矩阵进行特征提取。最后,利用梯度提升决策树(GBDT)分类器进行训练,以预测潜在的CMI。在5折交叉验证中,JSNDCMI在构建的两个数据集上分别获得了0.900 3和0.943 5的AUC值,均优于对比方法。
SEBGLMA[44]方法从lncRNASNP2[45]数据库中提取已知的lncRNA-miRNA相互作用对作为正样本,通过随机选取的方法获取负样本。该方法将lncRNA和miRNA序列进行K-mer分割,使用word2vec模型(Skip-gram)将K-mer序列转换为词嵌入向量,分别构建Lnc2Vec和Mi2Vec模型,利用GIP模型计算lncRNA和miRNA的自相似度,并结合已知交互数据构建完整的邻接矩阵。该方法将词嵌入向量和邻接矩阵输入图卷积网络中学习节点属性特征和行为特征,使用旋转森林对融合特征进行分类,预测lncRNA-miRNA交互的可能性。SEBGLMA在5折交叉验证中取得了优异的性能,平均准确率达到87.09%。与现有预测lncRNA-miRNA相互作用的模型相比,SEBGLMA取得了更高的AUC值。
2.3 基于深度学习的方法
随着RNA-Seq等技术的快速发展,越来越多的miRNA靶标被挖掘出来,这为基于深度学习模型的miRNA靶标预测方法提供了数据基础。图3给出了基于深度学习方法的miRNA靶标预测的主要步骤。这类方法首先收集经实验验证的miRNA靶标数据,从中获取正样本和负样本。然而,由于负样本数量稀缺,需要采用算法来扩充负样本集。接着,对数据进行预处理,利用one-hot编码等将序列转换为深度学习模型可识别的数值表示;结合miRNA靶标相互作用关系以及相似性等来构建异构图。随后,利用CNN、LSTM、RNN等深度学习模型从miRNA和mRNA序列中提取特征;使用GCN,HGT等图神经网络从构建的异构图中提取特征。然后,通过全连接层将特征表示转换为预测结果。最后,使用测试集、交叉验证、消融试验等方法对模型进行评估。
图3基于深度学习方法的miRNA靶标预测主要步骤
Fig.3Main steps for miRNA target prediction using deep learning methods
miRAW[46]方法从TarBase v7.0和miRTarBase v6.0数据库获取正样本和负样本,针对负样本不足的情况,使用ViennaRNA包中的工具预测miRNA与mRNA片段形成的二级结构,并筛选miRNA与mRNA片段形成双链时、自由能变化小于0的潜在靶标作为负样本补充。该方法使用one-hot编码对miRNA序列以及3’UTR序列进行编码;通过由8个密集隐藏层和2个softmax输出节点组成的人工神经网络(ANN)进行预测,其中隐藏层1~5层作为自编码器学习miRNA与结合位点复合物的特征表示,隐藏层6~8层负责将自编码器学习的特征进行分类;最后通过softmax函数输出概率分布。在10折交叉验证中,miRAW在准确性和F1分数方面均优于对比方法。
miTAR[47]方法采用DeepMirTar[48]和miRAW两个数据集。对于DeepMirTar数据集,方法选择了仅包含在3’UTR上的miRNA靶标作为正样本,并通过将miRNA序列随机打乱生成负样本;对于miRAW数据集,通过随机选取与训练、测试和验证数据集中未重叠的数据获取独立集。该方法使用嵌入层将miRNA和基因序列中的一个碱基编码为5维向量进行输入;通过CNN学习miRNA与靶标之间的空间特征,利用双向RNN学习序列特征;最后利用两个全连接层进行输出。该方法与DeepMirTar和miRAW进行了比较,在两个数据集上,该方法的准确率分别达到96.49%和97.87%,表现更优。在构建的独立集上,该方法的准确率达到了96.6%。
TargetNet[49]方法从miRAW数据集中获取正样本,通过使用滑动窗口识别miRNA-CTS(候选靶位点)对,并使用RNACofold工具筛选出二级结构产生负自由能的序列对作为负样本。该方法进行了扩展种子区域的比对,并将比对结果、miRNA及CTS序列进行one-hot编码,然后将编码后的序列进行拼接和零填充后作为输入。该方法利用ResNet模型进行训练预测,利用全连接层进行输出,并选择一个miRNA-mRNA对中所有miRNA-CTS对的预测分数的最大值作为该miRNA-mRNA对的最终分数。实验结果显示,TargetNet的F1分数和准确率均优于对比方法。
SRG-vote[50]方法使用miRTarBase v7.0中的miRNA-基因对作为正样本,通过距离方法[51]生成负样本。该方法通过计算miRNA序列之间的余弦相似度构建了miRNA-miRNA相似性网络,通过BioGrid PPI网络[52]构建基因-基因网络,在此基础上通过引入MISIM[53]及HumanNet[54]数据集构建扩展的miRNA-miRNA相似性网络和基因-基因网络。该方法将miRNA和基因序列及构建的网络作为模型的输入;使用doc2vec从miRNA和基因序列中提取序列嵌入; 使用role2vec[55]从miRNA-miRNA网络和基因-基因网络中提取几何嵌入; 使用GCN从扩展的miRNA-miRNA网络和基因-基因网络中提取几何嵌入,并利用LSTM或双向(BiLSTM)模型分别对三种嵌入进行训练,学习miRNA-基因对之间的潜在关系;最后使用投票系统将三种嵌入的预测分数进行加权平均,得到最终的预测分数。实验显示,SRG-vote相较于对比方法具有更高的AUC。
MRMTI[56]方法从miRTarBase v8.0中获取正样本,通过选取随机选取与正样本数量相同的、未经实验验证的miRNA-基因对作为负样本。该方法使用one-hot编码miRNA和基因序列,利用word2vec将基因序列转换为词嵌入后使用BiLSTM学习序列特征表示;通过计算miRNA序列之间的相似度构建miRNA相似度网络; 通过计算基因功能相似度构建基因相似度网络; 通过实验验证的数据构建miRNA-基因相互作用网络,并利用多关系图卷积网络进行网络的特征提取;最后将网络嵌入和序列嵌入融合到同一嵌入空间中进行预测。与其他方法相比,MRMTI在AUC(0.918 3)和AUPR(0.920 4)等指标上表现更优。
Sun等[57]从位点级(Site-level)和基因级(Gene-level)两个层级来考虑miRNA靶标预测,其中,从PAR-CLIP[58]和CLASH数据中获取位点级预测的数据集,将具有负自由能的配对作为正对,长度不超过30个核苷酸且形成稳定双链的配对视作为负对。从Tarbase v7.0和miRTarBase v8.0数据库中获取基因集预测的数据集,通过筛选和删除不同实验中结果矛盾的数据,合并重复数据获取实验验证的正对和负对。该方法使用skip-gram模型分别对miRNA和mRNA序列进行训练,得到每个核苷酸的向量表示。将原始的miRNA和CTS序列中的每个核苷酸替换为对应的向量表示,并将转换后的miRNA和CTS序列矩阵分别输入到BiLSTM模型中进行特征提取,随后将提取的特征进行拼接后利用第二层BiLSTM进行更复杂的特征学习;最后利用softmax函数进行输出。与数据库预测工具(PITA和TargetScan)和深度学习方法(CNN1d和DeepMirTar)相比,该方法具有更高的准确性、特异性、ROC值等。
DMISO[59]方法将CLASH数据中提取的miRNA/isomiR及其对应的mRNA靶标位点序列相互作用对作为正样本,对于每个已知的miRNA/isomiR正样本,在对应mRNA转录本的3’UTR中选择一个低自由折叠能量的位点作为负样本。该方法将miRNA/isomiR序列和mRNA靶标位点序列分别进行one-hot编码;利用CNN提取miRNA/isomiR和靶标位点的空间特征,并利用双向LSTM将提取的特征进行整合;最后通过全连接层输出,预测miRNA/isomiR与靶标之间是否相互作用。在10折交叉验证中,DMISO表现出高精度(95%)和高召回率(90%)。
TEC-miTarget[60]方法从deepTargetPro[61]、DeepMirTar和miRAW中获取数据,其中,deepTargetPro数据集包含miRNA-mRNA序列对,miRAW和DeepMirTar数据集包含miRNA-CTS序列对。miRAW和deepTargetPro的正负样本均通过实验方法确定。DeepMirTar中的正样本通过实验方法确定,负样本通过随机改变miRNA序列的碱基顺序,选取与靶基因序列无法有效结合的序列生成。该方法使用嵌入层对四种碱基和零填充进行编码,使用位置编码器对碱基的位置信息进行编码,然后将两个向量的和作为输入。该方法使用Transformer来捕获miRNA及其CTS序列的特征表示,然后将这些特征进行融合;利用CNN进行特征提取和预测;通过sigmoid函数进行输出,判断预测的CTS序列是否是miRNA靶标。在序列水平上,TEC-miTarget与miRAW和DeepMirTar进行比较,结果显示,TEC-miTarge在准确度、F1分数、AUC等指标上表现更优。在转录本水平上,TEC-miTarget与deepTargetPro、PITA、mirSVR等方法进行了比较,虽然miRDB在特异性方面表现较好,但TEC-miTarget在其他性能指标上表现更优。
MiRGraph[62]方法通过融合网络信息和序列信息来提升miRNA靶点预测的准确性。方法使用TargetScan预测的miRNA-基因相互作用网络为基础,使用miRTarBase数据库中的miRNA-基因相互作用来标记TargetScan预测的边,将其分为正样本和负样本。方法构建了三个相互作用网络,基于miRNA家族信息[63]构建的miRNA-miRNA相互作用网络,基于STRING数据库[64]构建地基因-基因相互作用网络,以及基于TargetScan构建的miRNA-基因相互作用网络。该方法利用HGT模块[65]捕捉网络的拓扑特征,并通过基于Transformer的CNN模块分别提取miRNA和基因的序列特征,通过MLP层将网络特征和序列特征进行整合,并使用双线性函数计算预测分数,利用Sigmoid函数进行输出。实验结果显示,MiRGraph方法在AUROC和AUPR等指标上均优于对比方法。
miTDS[66]方法从TarBase v7.0和mirTarbase v6.0数据库中获取正样本,通过随机生成与mRNA序列长度相同但碱基组成不同的序列构建负样本。miTDS包含两种输入:第一种是使用BERT模型对miRNA序列和CTS序列进行编码后得到的每个序列的动态语义特征向量; 第二种是使用Biopython的pairwise2包[67]对miRNA的扩展种子区域与CTS序列进行全局对齐后得到的扩展种子区域的对齐特征向量。该方法将两种特征进行拼接后利用多尺度inception模块[68]、BiLSTM进行特征学习,最后将学习到的特征输入到MLP中,得到每个CTS序列的预测分数。miTDS在召回率、精确率和F1分数等指标上均优于对比方法。
2.4 其它
miRTRS[69]是一种基于推荐模型、使用二分图推理的预测方法。方法利用已知miRNA靶标数据,构建miRNA-基因关系二分图,通过二分图推理的方法来预测关联边。为了精确的预测miRNA靶标,该方法利用miRNA种子区域序列相似度,结合已知的miRNA或基因交互数据构建交互网络,并构建加权有向图,计算基因之间的相似度。最终,通过计算miRNA与基因之间的推荐分数,预测潜在的miRNA靶标。为了缓解“冷启动”问题,方法设计算法为新的miRNA-基因预先给出关联边。并在AUC等指标上优于对比的miRNA靶标预测方法。
miRTMC[70]方法从miRTarBase版本6.1以及版本7中获取实验验证的miRNA-基因相互作用数据,构建了miRNA相似度网络、基因相似度网络和miRNA-基因相互作用网络,并将三个网络进行整合,构建miRNA-基因异构网络。该方法假设异构网络的邻接矩阵是低秩矩阵,利用矩阵补全的方法来预测miRNA靶标,在求解过程中,通过ADMM算法迭代更新目标矩阵和辅助变量,并利用R4SVD算法加速核范数的计算,最终得到补全后的矩阵。该方法构建了两个数据集,并在其上进行了10折交叉验证,实验结果表明,miRTMC要优于对比方法。
Amlan等[71]开发了一种名为MDPS的算法,用于预测miRNA靶标预测。研究人员将miRNA与靶标之间的配对模式分为五种状态:匹配、错配、G-U匹配、miRNA凸出、靶标突出,利用马尔可夫模型的权重矩阵和转移矩阵计算miRNA与靶标之间配对的得分,得分越高,表示配对越稳定,预测为miRNA靶标的可能性越大。研究人员将MDPS算法与miRanda等miRNA靶标预测工具相结合,发现引入该算法可以进一步提高预测的精确度。
表4预测方法简括表
Table4Brief description of prediction methods
续表4
3 总结与展望
研究miRNA靶标对于揭示miRNA在生物学中的功能,尤其是在人类疾病的发生、发展及预后中的作用,具有重要意义。深入理解miRNA靶标的作用不仅有助于疾病机制的研究,还能够推动药物开发和个性化医疗的实现。本文回顾了近年来miRNA靶标数据库和靶标预测方法的最新进展。
尽管已有多种miRNA靶标预测方法被提出,但这一领域仍面临诸多挑战,亟待进一步优化和突破。首先,特征提取比较困难。由于miRNA本身的长度较短,使得传统的序列特征提取方法难以捕捉到足够的生物学信息,尽管深度学习方法(如CNN、LSTM等)在一定程度上可以缓解这一问题,但这类方法在面临大规模数据的时候比较费时间和空间,效率略显不足。如何有效地从短序列中提取有意义的特征仍是一个挑战。研究表明,每个miRNA平均能够靶向超过100个基因位点,某些miRNA甚至可以靶向数千个基因位点。在此背景下构建的异构网络中,节点与边的特征异常复杂,如何针对每个节点和边进行特征提取,并且有效地融合这些信息,构建出准确的预测模型,是目前利用图神经网络提取特征的一大难点。其次,负样本数据不足。这影响了训练集的构建,导致在模型训练过程中,尤其是监督学习模型的训练效果受到限制,进而影响了模型的预测能力和泛化能力。
面对这些挑战,未来的研究方向可以集中在以下几个方面。首先,结合实验数据的持续积累,利用迭代学习策略进一步推动模型的更新和优化,通过定期引入新的实验数据,不断调整和优化模型,提升预测准确性。同时,期待未来生物学家和计算机科学家之间更紧密的合作,推动数据共享,提高数据质量。其次,在构建miRNA靶标结合异构图时尝试整合更丰富的节点和边信息。其次,尝试利用融合策略,将序列特征和网络特征进行结合来提升预测效果。最后,深度学习技术也在持续进步,未来还应探索新方法以进行特征提取,尤其是能够同时建模节点与边特征的技术,以期在miRNA靶标预测中取得突破。