基于拓展通路的胶质母细胞瘤预后预测
doi: 10.12113/202409012
张巧生 , 许俊杰 , 韦亚龙 , 孙振宇 , 张恒 , 仲兆满
江苏海洋大学 计算机工程学院,江苏 连云港 222000
基金项目: 国家自然科学基金项目(No. 72174079) ; 连云港市科技项目(No. CG2223,No. CG2323) ; 连云港市博士后基金资助项目(No. LYG20210010)
Prognostic prediction of glioblastoma based on extended pathways
ZHANG Qiaosheng , XU Junjie , WEI Yalong , SUN Zhenyu , ZHANG Heng , ZHONG Zhaoman
School of Computer Engineering, Jiangsu Ocean University, Lianyungang 222000 , Jiangsu China
摘要
胶质母细胞瘤(Glioblastoma,GBM)是颅内侵袭性最强、预后效果最差的原发恶性肿瘤,因为表达数据的高维度特性导致预后预测方面的结果精度很低。构建能够解决高维、低样本量数据的鲁棒计算问题的预后预测模型对GBM的医学研究具有积极意义,并且这一领域目前仍未有较好的解决方案。本研究提出了一种拓展通路关联的深度神经网络(EPDNN),使用基于图论的拓展基因通路的方式,将紧密的调节基因加入到通路中,使模型能够学习更多特征,然后,通过整合条件生成对抗网络进行数据增强,最后根据预测结果评估模型性能。五折交叉验证后,EPDNN相比传统预后预测分类器取得了最高的曲线下面积和F1分数,也优于当前最新的预后预测模型PASNet,为GBM的个体化术后治疗提供了指导治疗工具。同时模型能够直观地表示基因和通路的分层关系及其非线性关系,在深度学习的可解释性研究上作出了探索。
Abstract
Glioblastoma (GBM) is the most aggressive intracranial primary malignant tumor with the worst prognosis, because the high-dimensional nature of the expression data leads to low accuracy of the results in terms of prognosis prediction. Constructing prognostic prediction models that can solve the robust computational problem for high-dimensional, low-sample-volume data is of positive significance for medical research on GBM, and there is still no better solution in this field. In this study, we proposed an extended pathway-associated deep neural network (EPDNN), which used a graph-theory-based extension of gene pathways by adding tightly regulated genes to the pathways to enable the model to learn more features, and then, data augmentation was carried out by integrating conditional generative adversarial networks, and finally, the performance of the model was evaluated based on the prediction results. After five-fold cross-validation, EPDNN achieved the highest area under the curve (AUC) and F1 scores compared to traditional prognostic prediction classifiers, and the tight genes identified in the extended pathway stage of the model were identified as important genes for GBM in previous biological and medical studies.The EPDNN model outperformed the current state-of-the-art prognostic prediction models, and provided a guided therapy for individualized postoperative treatment of GBM Tools. Meanwhile, the model was able to intuitively represent the hierarchical relationship between genes and pathways and their nonlinear relationship, which maked an exploration on the interpretability study of deep learning.
胶质母细胞瘤(Glioblastoma,GBM),也称为多形性胶质母细胞细胞瘤,属于WHO4级胶质瘤,是最常见的原发性恶性脑肿瘤,也是最具侵袭性的恶性脑肿瘤[1]。仅在美国,2016年就有12 120名患者被诊断为GBM,5年内患者平均生存率为5%[2]。经年龄标化后的GBM发病率峰值估计为每10万人中有3.2例,54岁后发病率急剧上升,在75~84岁时达到每10万人中15.24例[2]。在过去几十年里,GBM的中位年龄增加到64岁[3],所有GBM患者的中位生存期仅有8个月[4]。由于大部分患者存活时间短,导致其预后性能较差,GBM的长期生存患者很少见,其中超过九成的患者在确诊的三年后死亡。尽管医疗工作者付出了相当大的努力,但关于有效延长GBM患者生存期的研究报道较少。虽然到目前为止,神经外科、化疗和放疗的治疗手段和技术等有所改善,但由于GBM的高复杂性和高致死率,导致它的预后效果仍然较差[5]。因此,了解GBM的分子机制和相关生物学通路的发展现状对于加速新治疗的进展具有重要意义[6]
目前存在许多方法使用基因表达数据进行预后预测,主要分为基于机器学习与基于深度学习两种,其中由于神经网络相关研究的不断发展,深度学习正逐渐成为研究生物信息领域的主流方法。最新的研究中表明[7],各种深度神经网络(NN)架构可以通过基因表达数据进行癌症分类及预后预测,包括全连接神经网络(也称为多层感知器NN或MLP)、卷积神经网络(CNN[8])、循环神经网络(RNN[9])、图神经网络(GNN[10-11])和Transformer神经网络(TNN[12])。在开展这些研究方法前,需要解决的两个共性问题是采用什么方式进行特征提取?怎样处理极为不平衡的样本数据?这也是本研究将探讨的问题。
相对于样本量而言,大部分癌症的基因组数据特征通常是高维度的,GBM也不例外,高维、低样本量(HDLSS)数据通常使预测模型对噪声和假阳性关联敏感,从而使预后预测变得困难,此时选择合适的方式提取特征进行训练就显得尤为重要。聚类的方法可以提取信息量最大的基因,并根据分配的基因进一步重建基因调控网络[13]。有研究在胶质母细胞瘤预后预测的风险模型中采用LASSO-COX算法筛选预测基因数量[14],该模型预测患者1年、2年、3年存活的曲线下面积分别为0.543、0.723和0.680。同时,基于通路的分析方法也有助于降低数据维度,生物通路的数量相对小于基因的数量,同一通路中的一组基因可以用通路的效果来表示。因此,通路上的基因可以用作预测模型输入的摘要变量,而无需包括所有基因,从而降低了模型的复杂性。在2018年的一项研究[15]中,开创性地将基因通路以掩码的方式融入到神经网络的结构中,该基于通路相关稀疏深度神经网络在预后预测问题上预测精度为66%。然而,这些通路的既定成分的界定是基于大量的生物学实验方法,且不同的数据库[16]之间也往往存在不一致性,基因分配到通路通常依赖于实验过程以及基因对通路重要性的主观评估。因此,许多经典方法可能忽略了许多相对密切的调节因子、效应器或细胞通路靶点,导致在模型预测时丢失了许多重要信息。通过蛋白质互作网络的关联信息拓展通路的方法是一种很有价值的策略[17],能够为通路添加密切可靠的基因。
癌症数据集通常很小,且不同类别的样本数量可能会有很大差异。在许多分类器中表明,当数据是高维时,类不平衡问题会加剧:高维会导致分类结果的精确度偏向多数类[18],即使类之间没有真正的差异。早期,许多方法采用了合成少数过采样技术(SMOTE[19]),这是一种产生合成少数类样本的过采样方法,常被用于检测网络入侵[20],语音中的句子边界[21],预测物种分布[22]和检测乳腺癌[23]。它曾被广泛使用,并且比简单的过采样表现要更好。但是,在最近的一项研究中[24]显示,通过生成对抗网络(GAN[25])生成的合成数据能够取得优越的召回率,研究表明GAN能够有效地学习少数类样本的特征,并且生成更高质量的合成数据。而条件生成对抗网络(CGAN[26])能够学习整体数据的特征分布,针对特定的类别标签可控的生成数据。因此,本研究将CGAN嵌入到模型中以改善GBM数据中的类别不平衡问题。
本文提出了一种结合拓展通路的深度神经网络(Extended-pathway deep neural network,EPDNN)来实现以下目标:①结合拓展生物通路对胶质细胞瘤的预后预测;②处理HDLSS数据类别平衡问题;③为系统地解释疾病生物通路之间的非线性关系提供解决方案。本文模型创新性地结合生物学先验知识及强化数据提升GBM预后预测的性能,在深度神经网络结构中使用了稀疏编码表示了多个层级之间的层次关系。
1 材料与方法
1.1 数据获取
本研究使用的数据集是从癌症基因组图谱(The cancer genome atlas,TCGA)和中国胶质瘤基因组图谱(Chinese glioma genome atlas,CGGA)获得的GBM数据集。TCGA和CGGA数据库中提供了许多GBM临床、测序及长期随访数据,为复发性GBM的基因分析和构建预测模型提供了可能性。
TCGA获取到的GBM数据集共有522个样本及12 042个基因的基因表达数据,CGGA获取到的GBM数据集共有693个样本及23 987个基因的基因表达数据,临床数据集中均提供了生存时间和存活状态。实验不考虑当前的存活状态,只考虑生存时间,将存活超过24个月的患者视作长期生存(LTS),将不到24个月内死亡的患者视作短期生存(STS)。在实验中排除了记录时间不到24个月的存活患者数据,因为这些数据仍有进一步发展的空间,不满足短期生存的条件。最后,TCGA筛选获得了99个LTS和376个STS样本,约20%的样本是LTS患者,CGGA筛选获得了364个LTS和329个STS样本。
对于基于通路的分析,研究使用了来自分子签名数据库(MSigDB[27])的生物通路数据库。在MSigDB中,本文提取了Reactome的生物学通路。然后,排除了包含少于10个基因的通路,因为小通路常可能与更大的通路冗余。作为输入特征,我们考虑了属于至少1个通路的基因,因为基因的通路注释对于构建输入层和通路层之间的掩码矩阵至关重要。最后实验中考虑了574个通路和4 359个基因,基因表达数据标准化后均值为0,标准差为1。
1.2 EPDNN总览
图1所示是EPDNN的总体架构图。拓展后通路加入到模型中作为拓展通路层,条件生成对抗网络引入数据增强层用来增强数据。深度神经网络的架构共有五层,由输入层、数据增强层、拓展通路层、隐藏层和输出层组成。数据集从输入层输入,在经过数据增强层处理后,获得更可信的生成样本。合成样本后,数据增强层与拓展通路层之间通过掩码矩阵进行连接,代表了基因与通路之间的非全连接关系。在隐藏层,模型能够捕获基因通路间的相似性和潜在的交叉调控,最终从输出层输出预测结果。
1EPDNN总体架构图
Fig.1Overall architecture diagram of EPDNN
注:(a)通路拓展模块包含三个部分:提取通路、构建基因网络、拓展通路,其中构建基因网络部分需要将蛋白质网络映射为基因网络,通过支持度确定连接关系,拓展过程基于图论建立规则;(b)EPDNN深度学习框架包含了五个层级,即输入层、数据增强层、拓展通路层、隐藏层、输出层;(c)数据增强层嵌入了条件生成对抗网络,能更好的拟合原始数据.
1.3 数据增强层
对数据增强层进行详细拆分,共有四个步骤组成。首先,分割数据集,将数据集划分为训练集以及测试集,80%用于数据平衡以及训练模型,20%用于最后测试。其次,平衡数据集,通过提取类别标签,模块自动求得少数类,并根据多数类及少数类的差额,生成相应规模的少数类。平衡方式采用CGAN,相比于SMOTE或是GAN、CGAN能够学习所有类别的基因表达数据,再结合特定类别标签生成少数类样本,使得生成出来的样本更加健壮。最后,将合成数据集送往通路层。如图2所示即为整个数据增强层的处理过程。
2利用CGAN增强数据过程
Fig.2The process of data augmentation using CGAN
标准GAN模型结构由两个神经网络组成,称为生成器(G)和判别器(D),它们同时训练,从而产生对抗过程。对于输入样本x,判别器的目标是预测该样本属于真实数据分布而非由生成器产生的概率。同时,生成器的任务是从一个先验定义的随机噪声分布z中采样,并输出能够模仿真实数据分布的合成样本。CGAN作为GAN的一个变种,其潜在空间z额外结合类别标签信息y为输入,传递给生成器网络,Gzy)从潜在空间z生成样本。判别器D在给定标签y的情况下,Dxy)得到输入样本x的输出概率。Expdata xEzpzz分别表示真实数据分布x的概率期望和潜在空间z的概率期望。Expdata x[logDxy]Ezpzz[log1-DGzy]相加,反映了判别器D区分真实数据和生成数据的能力。通过最小化生成器G的损失,训练生成器以生成能够欺骗判别器的数据,以及最大化判别器D的损失,训练判别器以区分真实数据和生成数据。该过程的计算公式可表示为
minG maxD V(D,G)=Expdata (x)[logD(xy)]+Ezpz(z)[log(1-D(G(zy)))]
(1)
1.4 拓展通路层
生物学通路对癌症的发展起着至关重要的作用,一项研究表明通过利用蛋白质网络的拓扑结构拓展通路和过程的蛋白质集,能够为影响GBM的通路中添加新的假定基因[17]。拓展通路的方法是指将不同细胞通路注释的蛋白质映射到一个大的蛋白质-蛋白质相互作用网络中,并通过添加它们最密切的网络邻接节点来拓展这些通路,拓展规则如图3所示,图中黑色节点表示已经加入通路中的成员,彩色节点展示了新节点的拓展过程。
3拓展通路过程
Fig.3Pathway expansion process
蛋白质互作网络(PPI)从STRING数据库(https://cn.string-db.org)上获取,按照标准阈值0.4进行筛选建立蛋白质间的连接。实验根据图论建立过滤规则,对获取的574个通路进行拓展。将通路基因对应的蛋白质视为种子节点,并映射到蛋白质网络上,这些种子节点的直接邻居视为拓展过程的候选节点,并根据规则进行过滤。在过滤步骤中,候选节点v必须在满足规则1)的基础上,继续满足规则2)~4)中的至少一个规则,才能够被添加到路径p中。图3中,灰色部分表示不满足规则1)被排除在外,红色部分表示满足规则1)、2)被加入通路的节点,黄色部分表示满足规则1)、3)被加入通路中的节点,蓝色部分表示满足规则1)、4)被加入通路中的节点,计算公式如下:
规则1)节点权重过滤,degree(v)是节点v的直接连接数,要大于1:
degree (v)>1
(2)
规则2)直接通路过滤,processlinks(vp)是通路p中从节点v到其他节点的直接连接数,outsidelinks(vp)是从节点v到通路p之外的节点的直接连接数,二者商大于阈值T1T1设置为1.0,对应图论中定义网络中的“强社区”的条件[28]
processlinks(v,p)outsidelinks(v,p)>T1
(3)
规则3)通路拓展过程过滤,trianglelinks(vp)是节点v与通路p中的节点和另一个候选节点一起实际构成三角形的数量,possibletriangles(vp)是通路p中所有候选节点可能和节点v构成三角形的数量,二者商大于阈值T2T2设置为0.1
trianglelinks(v,p)possibletriangles(v,p)>T2
(4)
规则4)通路节点覆盖过滤,processlinks(vp)是通路p中从节点v到其他节点的直接连接数,processnodes(p)是整个通路上的节点数量,二者商大于阈值T3T3设置为0.3:
processlinks(v,p)processnodes(p)>T3
(5)
1.5 稀疏编码
在数据增强层与拓展通路层之间,结合稀疏编码确定连接,拓展后的通路基因被编码为稀疏矩阵。通过稀疏矩阵控制,模仿生物学中的信号通路,数据增强层与拓展通路层之间的稀疏性由矩阵A定义为
h(e)=aW(d)*Ah(d)+b(d)
(6)
其中*表示两个元素相乘,a是激活函数。he表示拓展通路层的输出张量,hd表示数据增强层上输出张量,Wdbd分别表示权重矩阵和偏置向量。A的元素值由0和1组成,使拓展通路层的每个节点专注于由通路信息确定的特征。实际操作过程如图4红色箭头所示。
2 实验与结果
2.1 参数设置
为验证不同激活函数和优化器组合对EPDNN性能的影响,本研究在相同的实验设置下进行了对比实验。参照传统深度神经网络的设计,统一设置学习率为0.000 1,总训练轮次为1 000,收敛阈值为0.1,激活函数与优化器选择的范围也来自已经证实过的研究[29]。详细的实验结果见表1,根据结果可以发现,使用ReLU的组合取得了更高的准确率,这是因为在简单的任务中,计算简单的ReLU往往表现更加稳定,也能提高模型的泛化能力。而Adam得益于其自适应学习率和动量机制,能够比使用固定的学习率的SGD更早收敛,且能够达到更低的训练损失。在实验中,尽管ReLU+SGD的组合取得了最高的准确率,但考虑到对比ReLU+Adam在收敛速度和损失方面的差距,故选择ReLU作为神经网络层之间的激活函数,Adam作为优化器。
4稀疏编码操作过程
Fig.4Sparse coding operation process
1不同激活函数与优化器对比
Table1Comparison of different activation functions and optimizers
本研究所有方法都是基于Python3.8以及Pytorch2.1编写的,在PyCharm上进行代码调试和运行,操作系统使用Windows11,CPU为AMD R5-6600H,GPU为NVIDIA GeForce RTX 3050Ti,内存和显存分别为16 GB和12 GB。模型训练的详细参数如表2所示。
2模型训练参数
Table2Model training parameters
2.2 评估指标
假设GBM测试数据集中属于LTS样本类型的样本称为阳性样本(Positive),属于STS样本类型的样本称为阴性样本(Negative),TP和FP表示正确和错误分类的阳性样本,TN和FN表示正确和错误分类的阴性样本。本研究选择如下五个指标来评估多类分类问题。
2.2.1 准确率(Accuracy)
准确率[30-32]是分类模型最常用的评价指标,即在所有样本中正确分类的比例,准确率越高,说明模型在整体上对样本分类的准确性越好。计算公式如下:
Accuracy =TP+TNTP+TN+FP+FN
(7)
2.2.2 曲线下面积(AUC)
曲线下面积指的是ROC(Receiver operating characteristic curve)曲线下的面积,它是评估分类模型性能的一个指标。ROC曲线以假正类率(False positive rate,FPR)为横轴,以真正类率(True positive rate,TPR)为纵轴绘制,展示了在不同分类阈值下模型的性能变化。
将所有的(FPR,TPR)对按FPR升序排列,对于每一对相邻的点(ii+1)之间构成一个梯形,梯形Areai的面积计算公式如下:
Area i=TPRi+1+TPRi2×FPRi+1-FPRi
(8)
将所有梯形的面积累加起来便能得到AUC的估计值:
AUC=i=1n-1 Areai
(9)
2.2.3 精确率(Precision)
精确率衡量的是所有被模型预测为阳性的样本中,真正属于阳性类别的比例,在关注阳性样本识别准确性的情境下非常关键。计算公式如下:
Precision =TPTP+FP
(10)
2.2.4 召回率(Recall)
召回率是评估分类模型在识别所有实际阳性样本方面的能力的重要指标,召回率越高,表明模型在检测阳性样本时的全面性越好,即较少发生漏检阳性样本的情况。对于预后预测、安全检查等,高召回率尤为重要。计算公式如下:
Recall =TPTP+FN
(11)
2.2.5 F1分数(F1-score)
F1分数是精确度和召回率的调和平均值。对于二元分类问题,F1分数的计算公式如下:
F1-score=2*( Precision * Recall ) Precision + Recall
(12)
其中PrecisionRecall分别由公式(10)和公式(11)计算得到。
2.3 方法性能比较
为了评估EPDNN的性能,本研究在胶质母细胞瘤数据集上使用经典的机器学习模型,以及最近的PASNet预后预测模型进行生存期预测。具体而言,研究在TCGA和CGGA两份数据集上使用重复五次的五折交叉验证法,通过在测试集上计算五次五折的Accuracy、AUC、Precision、Recall和F1-score,并对结果取均值来比较各模型的性能,这五个指标均是评估二分类任务性能的常用指标。为了公平对比,在数据集输入其他模型之前,均进行和EPDNN一致的数据处理及增强步骤。如图5(a)~5(e)所示,实验将EPDNN与逻辑回归(LR)、朴素贝叶斯(NB)、随机森林(RF)、PASNet进行了对比,相比其他四种模型,EPDNN网络选择了最优的激活函数与优化器组合,以稀疏编码的方式将拓展后的通路信息融入数据层与通路层之间,有效地提升了分类精度。通过在TCGA和CGGA数据集上的表现,可以看出模型在Accuracy、AUC、Recall和F1-score这四个指标上都取得了较好的结果。以TCGA举例,依次是0.879 0、0.924 4、0.826 7、0.867 1 均与第二名拉开了较大的差距,而Precision方面,则不及NB的0.982 6和RF的0.942 3,原因可能是由于数据集规模过小,可用数据量较小,深度学习模型可能无法充分利用其容量,导致性能不如部分数据效率较高的传统机器学习模型。
2.4 样本量实验
在对TCGA上获取到的GBM数据集进行增强后,样本量从522个增加到784个。为了验证样本量对EPDNN模型准确率的影响,在本实验中,固定模型参数,训练轮次设置为1 000,对样本进行随机抽样,抽样增幅为20,每一次抽样进行五折交叉验证,对结果绘制箱线图。当样本量为20时,五折的准确率为:{0.745 2,0.751 6,0.751 6,0.789 8,0.738 9},平均准确率为0.755 4,这说明EPDNN方法在有限的数据量下具有较好的泛化能力。随着抽样数量的增加,准确率也随之上升,当抽样数量大于340时,平均准确率逐渐稳定在0.875~0.9。考虑到实际应用中的资源限制,本文建议选择340至整份数据集样本作为最优的样本量区间。在这个范围内,模型性能表现良好,同时没有出现过拟合的现象。具体上下限数据及准确率中位数如图6所示。
2.5 消融实验
为了验证EPDNN的各个模块是否有助于提升模型性能,本研究设计了以下EPDNN的变种模型进行对比:
1)无数据增强层(No data augmentation,NDA):该变种模型将数据增强层去除进行模型训练;
2)无拓展通路层(No extended pathways,NEP):该变种模型将拓展通路层替换为普通全连接层进行模型训练;
3)无数据增强层和拓展通路层(NDA&NEP):该变种模型将数据增强层去除,将拓展通路层替换为普通全连接层进行模型训练。
5不同算法的性能对比
Fig.5Performance comparison among different methods
注:(a)五种模型的平均准确率对比;(b)五种模型的平均ROC曲线下面积对比;(c)五种模型的平均精确率对比;(d)五种模型的平均召回率对比;(e)五种模型的平均F1分数对比.
6EPDNN在不同样本量下的准确率箱线图
Fig.6Box plot of EPDNN accuracy with varying sample sizes
图7所示,与完整的EPDNN相比,NDA的AUROC平均下降了约3.3%,NDA&NEP与NEP相比平均下降了约12.61%。这些结果表明,NDA和NDA&NEP的性能明显较差,无法适应所有类型的样本,说明数据增强模块在提高模型泛化能力方面有着一定作用,且对简单模型的提升更为明显。NEP的性能与NDA的AUROC相差3.4%则表明了在数据集相对不平衡的情况下,通过初始数据集结合拓展通路层训练模型,比单增强数据集的效果更好。NEP比完整模型平均低了6.61%,则更进一步突显了拓展通路层对提升EPDNN性能的重要性。由此可见,EPDNN的各个模块都为其最佳性能做出了积极的贡献。
7消融实验ROC曲线
Fig.7Ablation experiments: ROC curve
3 讨论
预后预测对于精准治疗具有重要意义,测序技术的发展极大地推动了癌症预后预测方法的进步。然而,当前的方法在不平衡数据学习、模型可解释性和稳健性方面存在局限。因此,需要一种新的计算方法来提高癌症预后预测的准确率。
本研究设计并开发出了EPDNN,这是一种用于GBM预后预测的新方法。通过对比实验,EPDNN在AUC、F1、REC等指标上取得了较好的预测分数,以及较好的AUPRC表现。并且在消融实验中,也验证了数据增强模块对模型训练的积极作用。且本模型一个更有意义的贡献是验证了拓展通路基因对GBM预后预测性能的有利影响,以其中糖原异生信号通路举例,根据本文方法拓展后的通路基因由原来的67个增加到70个,新增基因分别是ACSS3、LETM1、PDHX,而其中ACSS3已经被研究证实对胶质母细胞瘤患者预后有影响[33]。通过结合通路关联的紧密基因,能够小幅提升预测的精度,在样本量有限的情况下,提升数据集利用率。
GBM的数据集是一种典型的高维低样本量数据,为了解决低样本量导致的分类误差,采用合理的方法对样本进行上采样非常有必要。本文提出的端到端方法,能够有效利用少量数据,并尽可能提取数据中的有效信息,避免了数据在特征筛选时造成的资源浪费。分类结果表明,EPDNN可以作为GBM预后预测的有效方法,同时也表明了其他领域中深度学习模型的任何改进也可以在预后预测领域很好地反映。
然而,由于实际GBM临床样本中正例往往少于负例,平衡数据集的方式虽然可以消除预测精度对多数类的倾斜,但可能会使得预测质量降低。因此,结合DNA突变、拷贝数变异、DNA甲基化和mRNA等多组学数据对于描述涉及多个生物过程中一系列复杂相互作用的复杂人类疾病至关重要。目前,大规模的癌症研究项目提供了许多宝贵的多组学数据,未来的工作中将集中在结合不同的组学数据,进一步提高EPDNN应对不同数据集时的泛化性能。
4 结论
本文引入了一种拓展通路深度神经网络EPDNN,用于胶质母细胞瘤的预后预测。同时模型结合了CGAN算法,为HDLSS数据训练深度神经网络模型提供了一种可靠的策略。通过全面的比较实验,EPDNN的性能优于经典的机器学习算法,如Logistic Regression、Naive Bayes、Random Forest,并且也优于目前的前沿GBM预后预测方法,如PASNet。EPDNN构建了一个可以描述生物通路拓展过程的神经网络模型,为准确预测患者生存提供了重要的预后因素。EPDNN将在预后预测领域发挥重要作用并为深度学习可解释性研究提供重要帮助。
1EPDNN总体架构图
Fig.1Overall architecture diagram of EPDNN
2利用CGAN增强数据过程
Fig.2The process of data augmentation using CGAN
3拓展通路过程
Fig.3Pathway expansion process
4稀疏编码操作过程
Fig.4Sparse coding operation process
5不同算法的性能对比
Fig.5Performance comparison among different methods
6EPDNN在不同样本量下的准确率箱线图
Fig.6Box plot of EPDNN accuracy with varying sample sizes
7消融实验ROC曲线
Fig.7Ablation experiments: ROC curve
1不同激活函数与优化器对比
Table1Comparison of different activation functions and optimizers
2模型训练参数
Table2Model training parameters
LOUIS D N, PERRY A, REIFENBERGER G,et al. The 2016 world health organization classification of tumors of the central nervous system: A summary[J]. Acta Neuropathologica,2016,131:803-820. DOI:10.1007/s00401-016-1545-1.
OSTROM Q T, GITTLEMAN H, LIAO P,et al. CBTRUS statistical report: Primary brain and central nervous system tumors diagnosed in the united states in 2007-2011[J]. Neuro-Oncology,2014,16(suppl_4):iv1-iv63. DOI:10.1093/neuonc/nou223.
ALEXANDER B M, CLOUGHESY T F. Adult glioblastoma[J]. Journal of Clinical Oncology,2017,35(21):2402-2409. DOI:10.1200/jco.2017.73.0119.
OSTROM Q T, GITTLEMAN H, XU J,et al. CBTRUS statistical report:primary brain and other central nervous system tumors diagnosed in the United States in 2009-2013[J]. Neuro-Oncology,2016,18(suppl_5):v1-v75. DOI:10.1093/neuonc/now207.
LUO Chen, SONG Kun, WU Shuai,et al. The prognosis of glioblastoma: A large,multifactorial study[J]. British Journal of Neurosurgery,2021,35(5):555-561. DOI:10.1080/02688697.2021.1907306.
DAVIS M E. Glioblastoma: Overview of disease and treatment[J]. Clinical Journal of Oncology Nursing,2016,20(5):s2-s8. DOI:10.1188/16.cjon.s1.2-8.
ALHARBI F, VAKANSKI A. Machine learning methods for cancer classification using gene expression data: A review[J]. Bioengineering,2023,10(2):173. DOI:10.3390/bioengineering10020173.
ELBASHIR M K, EZZ M, MOHAMMED M,et al. Lightweight convolutional neural network for breast cancer classification using RNA-Seq gene expression data[J]. IEEE Access,2019,7:185338-185348. DOI:10.1109/access.2019.2960722.
MONTI M, FIORENTINO J, MILANETTI E,et al. Prediction of time series gene expression and structural analysis of gene regulatory networks using recurrent neural networks[J]. Entropy,2022,24(2):141. DOI:10.3390/e24020141.
CHEREDA H, BLECKMANN A, MENCK K,et al. Explaining decisions of graph convolutional neural networks: Patient-specific molecular subnetworks responsible for metastasis prediction in breast cancer[J]. Genome Medicine,2021,13:42. DOI:10.1186/s13073-021-00845-7.
QIU Linling, LI Han, WANG Meihong,et al. Gated graph attention network for cancer prediction[J]. Sensors,2021,21(6):1938. DOI:10.3390/s21061938.
ZHANG Tinghe, HASIB M M, CHIU Y C,et al. Transformer for gene expression modeling(T-GEM): An interpretable deep learning model for gene expression-based phenotype predictions[J]. Cancers,2022,14(19):4763. DOI:10.3390/cancers14194763.
BABICHEV S,ŠKVOR J. Technique of gene expression profiles extraction based on the complex use of clustering and classification methods[J]. Diagnostics,2020,10(8):584. DOI:10.3390/diagnostics10080584.
段厚州. 一种新型胶质母细胞瘤预后预测模型的构建与评估[D]. 太原: 山西医科大学,2023. DOI:10.27288/d.cnki.gsxyu.2023.001022.DUAN Houzhou. Construction and evaluation of a novel prognostic prediction model for glioblastoma[D]. Taiyuan: Shanxi Medical University,2023. DOI:10.27288/d.cnki.gsxyu.2023.001022.
HAO Jie, KIM Y, KIM T K,et al. PASNet: Pathway-associated sparse deep neural network for prognosis prediction from high-throughput data[J]. BMC Bioinformatics,2018,19:510. DOI:10.1186/s12859-018-2500-z.
LU L, SBONER A, HUANG Y,et al. Comparing classical pathways and modern networks: Towards the development of an edge ontology[J]. Trends in Biochemical Sciences,2007,32(7):320-331. DOI:10.1016/j.tibs.2007.06.003.
GLAAB E, BAUDOT A, KRASNOGOR N,et al. Extending pathways and processes using molecular interaction networks to analyse cancer genome data[J]. BMC Bioinformatics,2010,11:597. DOI:10.1186/1471-2105-11-597.
BLAGUS R, LUSA L. Class prediction for high-dimensional class-imbalanced data[J]. BMC Bioinformatics,2010,11:523. DOI:10.1186/1471-2105-11-523.
CHAWLA N V, BOWYER K W, HALL L O,et al. SMOTE: Synthetic minority over-sampling technique[J]. Journal of Artificial Intelligence Research,2002,16:321-357. DOI:10.1613/jair.953.
ZHANG Hongpo, HUANG Lulu, WU C Q,et al. An effective convolutional neural network based on SMOTE and gaussian mixture model for intrusion detection in imbalanced dataset[J]. Computer Networks,2020,177:107315. DOI:10.1016/j.comnet.2020.107315.
LEE J N, LEE J Y. An efficient SMOTE-based deep learning model for voice pathology detection[J]. Applied Sciences,2023,13(6):3571. DOI:10.3390/app13063571.
JOHNSON R A, CHAWLA N V, HELLMANN J J. Species distribution modeling and prediction: A class imbalance problem[C]//2012 Conference on Intelligent Data Understanding, October 24-26,2012, Boulder, CO, USA: IEEE,2012:9-16. DOI:10.1109/cidu.2012.6382186.
RANI S, AHMAD T, MASOOD S. Handling class imbalance problem using oversampling techniques for breast cancer prediction[C]//2023 International Conference on Recent Advances in Electrical, Electronics & Digital Healthcare Technologies(REEDCON), May 1-3,2023, New Delhi, India: IEEE,2023:693-698. IEEE,2023:693-698. DOI:10.1109/REEDCON57544.2023.10150702.
CHEREDDY N V, BOLLA B K. Evaluating the utility of gan generated synthetic tabular data for class balancing and low resource settings[C]//16th International Conference on Multi-disciplinary Trends in Artificial Intelligence, July 21-23,2023, Cham: Springer Nature Switzerland,2023:48-59. DOI:10.1007/978-3-031-36402-0_4.
GOODFELLOW I, POUGET-ABADIE J, MIRZA M,et al. GAN(Generative adversarial nets)[J]. Journal of Japan Society for Fuzzy Theory and Intelligent Informatics,2017,29(5):177. DOI:10.3156/jsoft.29.5_177_2.
MIRZA M, OSINDERO S. Conditional generative adversarial nets[EB/OL].(2024-11-06).https://doi.org/10.48550/arXiv.1411.1784. DOI:10.48550/arXiv.1411.1784.
LIBERZON A, BIRGER C, THORVALDSDÓTTIR H,et al. The molecular signatures database hallmark gene set collection[J]. Cell Systems,2015,1(6):417-425. DOI:10.1016/j.cels.2015.12.004.
RADICCHI F, CASTELLANO C, CECCONI F,et al. Defining and identifying communities in networks[J]. Proceedings of the National Academy of Sciences,2004,101(9):2658-2663. DOI:10.1073/pnas.0400054101.
LI Yu, HUANG Chao, DING Lizhong,et al. Deep learning in bioinformatics: Introduction,application,and perspective in the big data era[J]. Methods,2019,166:4-21. DOI:10.1016/j.ymeth.2019.04.008. DOI:10.11969/j.issn.1673-548X.2020.12.010.
GUO Zifan, WANG Pingping, LIU Zhendong,et al. Discrimination of thermophilic proteins and nonthermophilic proteins using feature dimension reduction[J]. Frontiers in Bioengineering and Biotechnology,2020,8:584807. DOI:10.3389/fbioe.2020.584807.
TAO Zhiyu, LI Yanjuan, TENG Zhixia,et al. A method for identifying vesicle transport proteins based on LibSVM and MRMD[J]. Computational and Mathematical Methods in Medicine,2020,2020:8926750. DOI:10.1155/2020/8926750.
ZHAI Yixiao, CHEN Yu, TENG Zhixia,et al. Identifying antioxidant proteins by using amino acid composition and protein-protein interactions[J]. Frontiers in Cell and Developmental Biology,2020,8:591487. DOI:10.3389/fcell.2020.591487.
高论, 刘骏辉, 邓钢, 等. ACSS3基因在胶质瘤中的表达及临床意义[J]. 医学研究杂志,2020,49(12):36-40.GAO Lun, LIU Junhui, DENG Gang,et al. Expression and clinical significance of the ACSS3 gene in glioma[J]. Journal of Medical Research,2020,49(12):36-40. DOI:10.11969/j.issn.1673-548X.2020.12.010.

友情链接LINKS