2. 山东省肿瘤医院 放疗病区,济南 250117
2. Department of Radiation Oncology, Shandong Cancer Hospital, Jinan 250117, China
原发性肝癌(Primary carcinoma of liver)是我国常见的恶性肿瘤之一。中国的原发性肝癌患者约占世界的55%,这类患者常伴有较高的死亡率。而原发性肝癌在接受精确放疗后易引起乙型肝炎病毒(HBV)再激活,所以找到HBV再激活的危险因素并通过进一步建立分类预测模型来进行研究对感染HBV的原发性肝癌患者具有重要的临床意义。国际上关于HBV再激活的研究不是很多,在国内,韩聚强等人指出HBV再激活与肿瘤直径大小及是否术前规范抗病毒治疗等因素有关[1]。汪孟森通过研究比较基线特征差异筛选出HBV再激活的可能危险因素,结果显示性别、年龄等指标无明显差异,肝功能Child-pugh分级可能是HBV再激活的危险因素[2]。黄伟在69例原发性肝癌患者接受精确放疗后致使乙型肝炎病毒再激活研究中发现基线血清HBV DNA水平和放疗剂量是HBV病毒再激活的独立危险因素[3]。吴冠朋在以前发现的危险因素的基础上随后又建立了RBF神经网络模型,识别率提高到80%[4]。随后在论文[5-7]中通过遗传算法发现HBVDNA水平,肿瘤分期TNM,Child-Pugh,外放边界,外放边界编码,V45和全肝最大剂量是乙肝病毒再激活的危险因素。王会娜[8-11]研究表明利用随机森林方法选取的HBV DNA水平、TNM肿瘤分期、V10、V20、外放边界这5个关键特征作为致使乙肝病毒再激活的危险因素组合,进行小波变换后,3折交叉验证下预测精度最高达到82.96%。采用顺序后向选择方法发现KPS评分、HBV DNA水平、外放边界、TNM、全肝最大剂量是乙肝病毒再激活的危险因素,采用3折交叉验证,预测精度达到85.68%。而采用顺序前向选择方法发现性别、KPS评分、HBV DNA水平、HBeAg、外放边界两分类编码是乙肝病毒再激活的危险因素,5折交叉验证下的贝叶斯分类预测精度达到84.06%。
特征选择是从原始特征中选择出一些最有效特征以降低数据集维度的过程, 是提高学习算法性能的一个重要手段, 也是模式识别中关键的数据预处理步骤[12]。通过近邻成分分析法(NCA)来对原发性肝癌患者的原始数据集进行特征选择,然后通过分别建立经Bayes优化前后的支持向量机分类器(SVM)对特征数据集进行分类预测。
1 NCA算法原理NCA算法就是一种简单有效的距离测度学习算法[13]。一个样本空间SD={(xi,yi),i=1,2,3,4,…, n},xi是输入样本,yi(1,2,3,…, c)是分类标签。本研究中由山东省肿瘤医院提供的患者临床数据集中,n=90, (90例患者样本),c=2(2分类问题),D=28(28个特征)。标签数据y1表示HBV未激活,代表良性,标签数据y2表示HBV再激活,代表恶性。
首先考虑一个随机分类器,随机从S选取一个点Ref(x),作为x的参考点,类似于1-NN分类器,参考点就是点X的最近邻。概率P(Ref(xi)=xj|s)表示从S中选取的点xj是离xi最近的那个点,也就是xj是xi的参考点。这是由距离函数来判断的,如式(1)所示:
$ {d_w}({x_i}, {x_j}) = \sum\limits_{r = 1}^n {} w_r^2|{x_{ir}} - {x_{jr}}| $ | (1) |
$ P({\rm{Ref}}({x_i}) = {x_j}|s) = \frac{{k\left( {{d_w}\left( {{x_i}, {x_j}} \right)} \right)}}{{\sum\limits_{j = 1}^n {k({d_w}\left( {{x_i}, {x_j}} \right))} }} $ | (2) |
wr表示第r个特征向量的权重系数。k是一个内核函数,
考虑经留一法交叉验证的随机分类器,点xj是点xi参考点的概率如式(3)所示:
$ \begin{array}{*{20}{l}} {\left\{ \begin{array}{l} {p_{ij}} = P{\rm{ }}\left( {Ref\left( {{\rm{ }}{x_i}} \right) = {x_j}|S} \right) = \\ \frac{{k\left( {{d_w}\left( {{x_i}, {x_j}} \right)} \right)}}{{\sum\limits_{j = 1, j \ne i{\rm{ }}}^n {k\left( {{d_w}\left( {{x_i}, {x_j}} \right)} \right)} }}, {\rm{if}}\;\;i \ne j\\ 0, {\rm{i}}{{\rm{f}}_i} = j{\rm{ }} \end{array} \right.}\\ {} \end{array} $ | (3) |
随机分类器正确分类观察样本i的概率pi为式(4):
$ {p_i} = \sum\limits_{j = 1, j \ne i}^n {} {\rm{ }}{p_{ij}}{y_{ij}}, {y_{ij}} = \left\{ \begin{array}{l} 1, \left( {{y_i} = {y_j}} \right)\\ 0, {\rm{otherwise}} \end{array} \right.{\rm{ }} $ | (4) |
使用随机分类器正确分类的平均概率F(w)值取决于权重向量w。近邻成分分析的目标就是最大化F(w),
研究数据是采取的山东省肿瘤医院的90例经过精确放疗后原发性肝癌患者的临床资料作为研究样本,90例样本中20例发生HBV再激活。每个样本包含性别、放疗前TACE次数、TNM、V20、HBV DNA水平、外放边界、分割方式等28个特征[14],组成90×28维大小的数据集,详细见表 1。
建立NCA模型训练预测计算λ值对应的损失函数值采取近邻成分分析(NCA)对原始特征空间进行特征选择,选出致HBV再激活的危险因素[14],组成新的关键特征子集。在这之前先采用k折交叉验证来调整NCA的正则化参数λ,具体工作如图 1所示。
本文采取的λ值是从0开始到10/n(5折交叉验证,4/5样本数据作训练,n=72)的等间距的20个点,步长就是10/n/(n-1), λ值如下表 2所示:
支持向量机(SVM)[15]是一种可用于二进制分类或回归的监督学习算法,属于一种机器学习算法,也称为内核机器。支持向量机(SVM)训练有两个阶段:
(1) 将样本数据的特征向量转化为高维特征空间,这个过程就是内核技巧。
(2) 求解二次优化问题以适应最优超平面将变换后的特征分为两类。变换特征的数量由支持向量的数量确定。所谓支持向量是指那些在间隔区边缘的训练样本点。如图 2所示。
在SVM理论中,需要考虑的就是能够让所有点中离它最近的点具有最大间距[16-17]。本文中乙型肝炎病毒激活人群的样本数量为20,此类样本标记为Y=1, 未激活人群的样本数量为70,此类样本标记为Y=2。样本数量P=90,超平面为wx+b=0;样本点到超平面距离为:
$ \frac{{{t_i}\cdot t\left( {{x_i}} \right)}}{{\parallel w\parallel }}{\rm{ }} = \frac{{{t_i}\cdot\left( {{w^p}\cdot\theta \left( {{x_i}} \right) + b} \right)}}{{\parallel w\parallel }} $ | (5) |
首先构造并求解约束最优化问题:
$ \begin{array}{l} {\rm{min}}\left( a \right):\frac{1}{2}\sum\limits_{i = 1}^p {} {\rm{ }}\sum\limits_{j = 1}^p {} {a_i}{a_j}{t_i}{t_j}\left( {\theta \left( {{x_i}} \right)\cdot\theta \left( {{x_j}} \right)} \right) - \\ \sum\limits_{i = 1}^p {} {a_i} \end{array} $ | (6) |
求得最优解a*,然后计算
$ f\left( x \right) = {\rm{sign}}({w^*}\theta \left( x \right) + {b^*}) $ | (7) |
采用不同的核函数将导致不同的SVM算法。常用的核函数有:线性核函数,sigmoid核函数,RBF核函数,多项式核函数,二层感知器核函数等。本文通过分别建立优化前后的支持向量机(SVM)模型进行比较,前后采用的都是RBF核函数,对应函数为:
$ K\left( {{X_1}, {X_2}} \right) = {\rm{exp}}( - \frac{{{{\left| {{X_1} - {X_2}} \right|}^2}}}{{2{\sigma ^2}}}) $ | (8) |
贝叶斯全局优化算法目的是将有界目标函数F(X)最大化,F(X)可以是确定的,也可以是不确定函数。根据已有采样点来构建一个高斯过程回归模型(Gaussian process)预估函数最大值的一个算法[18]。假设未知点也都服从多变量高斯分布,根据多变量高斯分布的一些性质,可以计算出这些点的均值μi(x)和标准差σi(x)。根据加和公式(9)选择均值μi(x)和标准差σi(x)的加和最小输入位置点作为下一个取样点。如果标准差值σi(x)大,表示我们对该点了解甚少,多去采样类似点可以更好地确定目标函数形态。如果均值μi(x)大,表示该点可能是最大值位置,多去采样类似点可以帮助我们尽快锁定最大值[19]。而贝叶斯优化算法就是协调确定目标函数形态以及确定目标函数最大值这两个目标之间的矛盾。前期算法会采样标准差大的点来尽量确定目标函数形态。随着采样点增多,对函数大致熟悉之后,标准差值会下降。所以后期采样点会尽量选取均值大的点,这样就会有更大概率接近最大值[20]。贝叶斯全局优化算法寻找最优点过程图 3所示。
加和公式为:
$ G\left( {{x_{i + 1}}} \right) = {\rm{argmax}}{\mu _i}\left( x \right) + \beta _t^{\frac{1}{2}}\sigma _i^2\left( x \right) $ | (9) |
均值函数为:
$ {\mu _i}\left( x \right) = {k^t}\left( x \right){k^{ - 1}}y $ | (10) |
预测分布的标准差为:
$ {\sigma _i}\left( x \right) = \sqrt {k\left( {x, x} \right) - {k^t}\left( x \right){k^{ - 1}}k(x)} $ | (11) |
其中k(x)是测试样本与训练样本输入值间的m × 1维协方差向量。k(x, x)是测试样本输入值和它自身的方差。K为m × m维训练样本间的协方差矩阵。
最小化F(X)的关键因素包括以下几个方面:
(1) F(X)是一个高斯过程模型
(2) 通过先验值,可以决定下一个采样点所对应的y值
(3) 已知点服从多变量高斯分布,假定A={(xi, yi)}, i=1, 2, 3…, m, xi∈Rv, yi∈R. m表示训练样本个数,v代表特征向量的维度,本文在3折、5折、10折交叉验证下m分别取60, 72, 81,v=28,贝叶斯优化是根据加和公式(9)来选择下一个采样点xi+1。
进行贝叶斯优化调整的SVM的参数主要有两个‘sigma’及‘box’[20]。在高斯RBF核函数中,‘sigma’的值就是内核的规模,Sigma值越大,分离面就越平滑; Sigma值越小,分离面就越细致。‘box’的值就是框式约束范围。这两个参数初始值设置的尽量广泛,因为具体的最优值不能确定。本文中‘sigma’及‘box’的初始范围都设置在10-4~104。
3.3 分类性能度量本文主要采用三个分类性能指标,分别是准确性、特异性、灵敏性。准确性是指分类的正确预测值占样本实际值的比重。特异性是将实际无病的人正确判定为真阴性的比例。灵敏性是将实际有病的人正确判定为真阳性的比例。
4 实验结果及分析利用近邻成分分析法(NCA)进行特征选择,得出所有最优特征子集规模为1-5的所有特征组合。分别将特征选择之后的最优特征子集代入优化前后的SVM分类器进行分类预测。为了验证特征选择对提高分类准确率的重要性,本实验加入对初始特征集的预测以求与最优特征子集的结果形成对比。实验分别采用3折、5折、10折交叉验证的方法对程序运行50次之后,选取每一个分类性能度量标准的平均值作为最终数据,具体实验结果见表 3~表 5。表 3是优化前的SVM分类器针对最优特征子集的分类预测结果,加黑的数据代表分类性能比较好的特征组合。表 4是优化后的SVM分类器针对表格3中分类表现比较好的几个特征子集分类预测的结果。表 5列出了优化调整后的参数值。表格中出现的特征编号及所对应的医学参数详见表 6。
表 6中列出的这些医学参数就是经NCA特征选择出的对HBV再激活有着重要影响的危险因素。表 1所列出的特征子集组合中,原始数据集下的分类预测精度、特异性、灵敏性都是最低的,预测精度在77%左右。特征编号9出现的频率是最多的,也就是说HBV DNA水平是影响适型放疗后HBV再激活的最关键因素。表 3中在5折交叉验证下,特征子集组合9、17的分类预测精度为84.33%,特征子集组合3、9的分类预测精度为83.67%,特征子集组合9、17、22的分类预测精度为84.00%。在10折交叉验证下,特征子集组合3、9的分类预测精度为83.78%,特征子集组合9、17、22的分类预测精度可达86.11%。以上这几个特征子集组合的预测精度要明显高于其他特征子集组合的预测精度,由此可见影响HBV再激活的关键危险因素除了HBV DNA水平外还有KPS评分、分割方式、外放边界、V25等。而通过临床灵敏度水平来看,特征子集组合为9、17、22的表现要优于其他特征组合,在10折交叉验证下平均精确度可达47%。
表 4是关键特征子集在经Bayes优化之后的SVM模型中的分类表现,由数据可知,当HBV DNA水平作为独立危险因素来表现时,经过优化之后的SVM预测准确度在3折、5折、10折交叉验证结果下都要高于未优化的SVM预测准确度。其中5折交叉验证下,优化后比优化前提高了2.66个百分点。由KPS评分、HBV DNA水平、外放边界组成的危险因素组合在10折交叉验证下,优化后比优化前提高了2个百分点。由KPS评分、HBV DNA水平、分割方式组成的危险因素组合在10折交叉验证下,优化后比优化前提高了2.89个百分点。而由HBV DNA水平、外放边界组成的危险因素组合在10折交叉验证下,优化后比优化前提高了4个百分点。从临床灵敏度来看,在10折交叉验证下,所有关键特征子集组合在优化后的预测精度明显高于优化前,可见Bayes优化调整支持向量机参数对于提高真阳性病人的正确诊断率是十分必要的。综上所述,HBV DNA水平可以当作影响HBV再激活的最危险因素,KPS评分、外放边界、V25是影响HBV再激活的关键因素,而分割方式、肿瘤分期TNM、Child-Pugh也是影响HBV再激活的重要因素。
5 结束语前预防乙型肝炎病毒再激活,降低其发病概率,延长患者生命就需要找出原发性肝癌患者在接受精确放疗之后乙肝病毒再激活的关键特征,本文就是通过近邻成分分析算法发现HBV DNA水平、KPS评分、分割方式、外放边界、V25、肿瘤分期TNM、Child-Pugh等都是影响HBV再激活的危险因素。再通过建立的优化前后的支持向量机模型分别对提取出的所有不同特征的组合进行分类预测,结果表明HBV DNA水平、外放边界、V25组成的特征子集的分类表现要优于其他组合。10折交叉验证下特征向量HBV DNA水平、外放边界、V25组合的预测精度高达86.11%。近邻成分分析法是一种有效的特征选择方法,可以对临床医学的研究提供一定的帮助。
[1] |
韩聚强, 任永强, 李国安. 原发性肝癌微创介入治疗术后HBV再激活及相关影响因素研究[J]. 中国医学前沿杂志:电子版, 2014, 6(3): 27-30. HAN Juqiang, REN Yongqiang, LI Guoan. Study on reactivation HBV and related influencing factors after minimally invasive interventional therapy for primary hepatic cancer[J]. Chinese Frontiers of Medicine: Electronic Etion, 2014, 6(3): 27-3. (0) |
[2] |
汪孟森.原发性肝癌三维适形放疗致乙型肝炎病毒再激活相关研究[D].济南市: 济南大学, 2014. WANG Mengsen. Study on reactivation of hepatitis B virus by three dimensional conformal radiotherapy for primary hepatic carcinoma[D]. Jinan: University of Jinan, 2014. (0) |
[3] |
HUANG Wei, ZHANG Wei, FAN Min, et al. Risk factors for hepatitis B virus reactivation after conformal radiotherapy in patients with hepatocellular carcinoma[J]. Cancer Science, 2014, 105(6): 697-703. DOI:10.1111/cas.12400 (0) |
[4] |
WU Guanpeng. Application of BP and RBF neural network in classification prognosis of hepatitis B virus reactivation[J]. Journal of Electrical and Electronic Engineering, 2016, 4(2): 35. DOI:10.11648/j.jeee.20160402.16 (0) |
[5] |
WU Guanpeng, LIU Yihui, WANG Shuai. The classification prognosis models of hepatitis b virus reactivation based on Bayes and support vector machine after feature extraction of genetic algorithm[C]. International Conference on Natural Computation, Fuzzy Systems and Knowledge Discovery, 2016, 572-577.DOI: 10.1109/FSKD.2016.7603236.
(0) |
[6] |
吴冠朋, 刘毅慧, 王帅. 基于遗传算法特征选择的HBV再激活分类预测模型[J]. 生物信息学, 2016, 14(4): 243-248. WU Guanpeng, LIU Yihui, WANG Shuai. Classification model of HBV reactivation based on genetic algorithm feature selection[J]. Chinese Journal of Bioinformatics, 2016, 14(4): 243-248. DOI:10.3969/j.issn.1672-5565.2016.04.08 (0) |
[7] |
吴冠朋, 王帅, 黄伟. 基于BP神经网络的肝癌放疗致乙型肝炎病毒再激活分类预测模型[J]. 智能计算机与应用, 2016, 6(2): 43-47. WU Guanpeng, WANG Shuai, HUANG Wei. Classification model of hepatitis B virus reactivation based on BP neural network for radiotherapy of liver cancer[J]. Smart Computers and Applications, 2016, 6(2): 43-47. DOI:10.3969/j.issn.2095-2163.2016.02.014 (0) |
[8] |
WANG Huina, LIU Yihui, HUANG Wei. The application of feature selection in hepatitis B virus reactivation[C]. IEEE International Conference On Big Data Analysis, 2017.DOI: 10.1109/ICBDA.2017.8078767.
(0) |
[9] |
WANG Huina, HUANG Wei, LIU Yihui. Classification of hepatitis B virus reactivation after radiotherapy of primary liver cancer based on random forest[C]. International Conference on Natural Computation, Fuzzy Systems and Knowledge Discovery (ICNC-FSKD), 2017 1th.
(0) |
[10] |
王会娜, 黄伟, 刘毅慧. 原发性肝癌放疗后乙肝病毒再激活预测模型的特征降维分析[J]. 中国生物医学工程学报, 2017(6): 697-701. WANG Huina, HUANG Wei, LIU Yihui. The characteristic dimension reduction analysis of hepatitis B virus reactivation prediction model after radiotherapy for primary liver cancer[J]. Chinese Journal of Biomedical Engineering, 2017(6): 697-701. DOI:10.3969/j.is-sn.0258-8021.2017.06.009 (0) |
[11] |
王会娜, 黄伟, 刘毅慧. 基于连续小波和随机森林的原发性肝癌放疗后乙肝病毒再激活的分类预测[J]. 智能计算机与应用, 2017, 7(3): 30-33. WANG Huina, HUANG Wei, LIU Yihui. Classification prediction of hepatitis B virus reactivation after radiotherapy for primary liver cancer based on continuous wavelet and random forest[J]. Smart Computers and Applications, 2017, 7(3): 30-33. DOI:10.3969/j.issn.2095-2163.2017.03.007 (0) |
[12] |
KIM B Y, DONG W C, WOO S R. Recurrence-associated pathways in hepatitis B virus-positive hepatocellular carcinoma[J]. BMC Genomics, 2015, 16(1): 1-15. DOI:10.1186/1471-2164-16-1 (0) |
[13] |
YANG Wei, WANG Kanquan, ZUO Wangmeng, et al. Neighborhood component feature selection for high-dimensional data[J]. Journal of Computers, 2012, 7(1): 161-168. DOI:10.4304/jcp.7.1.161-168 (0) |
[14] |
WANG Shuai, WU Guanpeng, HUANG Wei, et al. The predictive model of hepatitis B virus reactivation induced by precise radiotherapy in primary liver cancer[J]. Journal of Electrical and Electronic En-Gineering, 2016, 4(2): 31-34. DOI:10.11648/j.Jeee.20160402.15 (0) |
[15] |
ZHANG S, ZHANG S, JIN Z, et al. A novel SVM by combining kernel principal component analysis and improved chaotic particle swarm optimization for intrusion detection[J]. Soft Computing, 2015, 19(5): 1187-1199. DOI:10.1007/s00500-014-1332-7 (0) |
[16] |
宋晖, 薛云, 张良均. 基于SVM分类问题的核函数选择仿真研究[J]. 计算机与现代化, 2011(8): 133-136. SONG Hui, XUE Yun, ZHANG Liangjun. Research on selection of kernel function based on SVM classification problem[J]. Computer and Modernization, 2011(8): 133-136. DOI:10.3969/j.issn.1006-2475.2011.08.037 (0) |
[17] |
SARTAKHTI J S, ZANGOOEI M H, MOZAFARI K. Hepatitis disease diagnosis using a novel hybrid method based on support vector machine and simulated annealing (SVM-SA)[J]. Computer Methods & Programs in Biomedicine, 2012, 108(2): 570. (0) |
[18] |
ZHANG J, CHEN H, ZHOU H. Freeway travel time prediction research based on a deep learning approach[C]. International Conference on Advanced Materials and Information Technology Processing, 2016, 21-27.DOI: 10.2991/amitp-16.2016.97.
(0) |
[19] |
MARTINEZ-CANTIN R. BayesOpt: a Bayesian optimization library for nonlinear optmization, experimental design and bandits[J]. Journal of Machine Learning Research, 2014, 15: 3735-3739. (0) |
[20] |
CARPIN M, ROSATI S, RIMOLDI B, et al. UAVs using Bayesian Optimization to Lo- cateWiFi Devices[C]. Bayesopt 2015, 2015.
(0) |