摘要
前期相关研究表明,第一内含子与其它内含子之间的相互作用关系可能与基因表达调控密切有关。为探索最末内含子与其他内含子之间是否同样存在着相互作用?以线粒体核糖体蛋白基因序列为样本,计算每个基因序列的最末内含子与其他内含子反向互补序列之间的最佳匹配片段,并分析它们的特性,然后将这些特性和第一内含子与其它内含子之间相互作用的最佳匹配片段特性进行对比。结果发现,两种匹配片段的长度、GC含量、配对率等分布特征随物种总的变化趋势是一致的,但最佳匹配片段的相对位置分布有很大差异,说明第一内含子和最末内含子与其他内含子的相互作用存在着一定差异,意味着它们在相互作用基本元件结构方面具有保守性,而在基因表达调控作用方面可能具有差异性。
Abstract
Previous related researches have shown that the interaction relationship between the first intron and other introns may be closely related to the regulation of gene expression.In order to discovery if is there the same interaction between the final intron and other introns? In this work, the sequences of mitochondrial ribosomal protein genes were selected as the samples, the optimal matched segments between the last intron and the reverse complementary sequences of other introns of each gene were obtained, and the characteristics of the optimal matched segments were analyzed, and these characteristics with the characteristics of the optimal matched for interactions between the first introns and other introns were compared. It was found that the distributional characteristics of the length, GC content, and matching rate of the two kinds of optimal matched segments had the same trend with the five species, but the relative position frequencies of the optimal matched segments have very distinct different, it means the first intron and the last intron interacted with the other introns with some differences, implying that they were conserved in terms of the structure of the basic elements of the interactions, whereas they might be differentiated in terms of the roles of the regulation of gene expression.
内含子序列是基因中一种非编码DNA片段,也是阻断基因线性表达的序列。越来越多的研究证明内含子可以具有多种生物学功能,相关研究证明,内含子具有调控功能,能够调控基因的表达[1-4]。一些内含子在提高表达水平上非常有效[5],例如,由腺病毒5’端结合位点和免疫球蛋白3’端结合位点组成的混合内含子使转基因小鼠中各种基因的表达水平提高了300倍[6]。许多实验证明内含子可以调控mRNA的动态结构、转运和核输出以及mRNA的翻译过程[7-8]。同时,内含子中包含大量的非编码RNA,包括微RNA(microRNAs)、长链非编码RNA(lncRNAs)、核仁小RNA(snoRNAs)、核内小RNA(snRNAs)以及对基因调控至关重要的环状RNA(circRNAs)[9-10]。另外,大量的证据显示,内含子与多种疾病的产生、发展有着紧密的联系[11-13],如:β葡萄糖脑苷脂酶(GBA)基因的第7个内含子的突变会引起戈谢病[12],阿尔茨海默症与内含子的保留增加有关[13]。此外,内含子促进基因表达在一些医疗方面得到了广泛的应用,如在单克隆抗体或医药用酶等药物蛋白的生产中起到重要作用[14]。
早期有研究表明,最末内含子中的序列有助于3’端的正确形成[15],PKD1基因(多囊肾病相关基因)的最末内含子序列在四种哺乳动物(人类、小鼠、大鼠和狗)中具有极高的保守性[16]。在TPO(人血小板生成素)基因组中,最末内含子可显著提高TPO的表达水平,表明其可能含有特殊的结构序列,以增强TPO基因的表达[17]。更有研究者认为Zfy/Zfx基因的最末内含子可用于分化时间在200万年以上的系统分化研究[18]。近期有研究发现,肿瘤抑制因子MAX的缺氧诱导异构体E是通过保留和翻译最末内含子产生的[19]。在对普通小麦穗结构的研究中,发现了一种小麦品种“扬麦18”的基因中携带短穗Q5Ab等位基因,该等位基因在最末内含子中存在1个SNP(单核苷酸多态性)[20]。所以,最末内含子有着重要的功能,我们猜想最末内含子是通过与其他内含子间的相互作用来行使这些功能的。
内含子之间最基本也是最重要的相互作用是碱基配对,例如:形成正确的密码子和反密码子对,对于保证翻译过程中的效率和保真度至关重要。外显子环化或内含子环化形成的circRNA包含带有互补重复序列的长侧翼内含子[21]。此外,许多研究表明内含子互补匹配片段不仅是环状RNA的形成的原因,而且它在转录或转录后水平上也是基因表达复杂性和多样性的潜在因素[22-24]。
基因组是一个由各种功能元件相互作用而构成的极复杂网络,其功能主要是通过这些相互作用实现的。我们已经知道了siRNA与靶基因完全互补结合会导致基因沉默,miRNA与靶基因高度但不完全互补会抑制基因的表达。这意味着碱基配对是非编码RNA与靶基因相互作用的重要途径,内含子作为一种非编码DNA丰富了真核生物的基因组,它们之间一定存在相互作用,这种相互作用正是由碱基配对的方式体现出来。
1 材料与方法
1.1 数据来源
选取了核糖体蛋白基因数据库(RPG:Ribosomal protein gene database)中所有线粒体核糖体蛋白基因序列作为样本,它们分别来自人类(Homo sapiens)、小鼠(Mus musculus)、东方鲀(Fugu rubripes)、黑腹果蝇(Drosophila melanogaster,简称果蝇)和秀丽隐杆线虫(Caenorhabditis elegans,简称线虫)。线粒体核糖体蛋白基因在生命活动中被认为是一个高度保守的基因家族,因为线粒体核糖体蛋白基因是一类在生命活动中广泛存在的基因“管家”,其在生命活动中发挥着重要作用,它们参与了蛋白质的翻译过程,同时具有很好的进化保守性[25]。不同物种的核糖体蛋白基因中的内含子个数和长短差别不大。所以,筛选出这些保守基因,将有助于更好地、更可靠地表现出内含子间的相互作用。在表1中列出了本文选取的蛋白质基因相关的信息。
表1五种真核生物线粒体核糖体蛋白基因
Table1Mitochondrial ribosomal protein-coding genes in five genomes

1.2 匹配方法
内含子序列是从上述基因序列中获得的,首先将除最末内含子外的其他内含子进行反向互补处理,再采用改进后的Smith-Waterman局域相似比对软件(https://galaxy.pasteur.fr)对最末内含子与处理后的其他内含子序列做相似性局域对比,结合合理的打分原则,从而得到每个基因序列中最末内含子与其他内含子的反向互补序列之间的最佳匹配片段。
1.3 统计方法
分别计算了每个最佳匹配片段的长度、GC含量和配对率,然后分别根据长度、GC含量和配对率将最佳匹配片段分为几个组。再计算不同长度范围、GC含量范围、配对率范围的最佳匹配片段的出现频率,分别用FLm,FGCm,Fmat标记,计算方法如下:
(1)
(2)
(3)
式中,FLmi为长度值在第i组中的最佳匹配片段频率(i=1,2,...,10),NLmi为长度值在第i组中的最佳匹配片段的个数,nL为按长度划分的组的数量。FGCmj为GC含量值在第j组中的最佳匹配片段频率(j=1,2,...,10),NGCmj为在按GC含量划分的第j组中最佳匹配片段的数量,nGC为按GC含量划分的组的数量。Fmatk为配对率在第k组中的最佳匹配片段频率(k=1,2,...,10),Nmatk为在按配对率划分的第k组中最佳匹配片段的数量,nmat为按配对率划分的组的数量。
不同基因序列中最末内含子的长度不同,为了方便比较最佳匹配片段的相对位置分布,我们将最末内含子的长度标准化为100 bp的序列。长度标准化方法如下[26]:

(4)
式中,Li为第i个最末内含子的长度,Nij为第i个最末内含子的第j个碱基位点,nij为第j个碱基位点在第i个标准化最末内含子对应的相对位置。这样,最末内含子全部转化成了100 bp长的序列。
然后根据每个最佳匹配片段在最末内含子上的碱基位点,对最末内含子的每个碱基位点进行打分。如果碱基位点在最佳匹配区域,赋予有效值1;如果碱基位点不在最佳匹配区域,赋予有效值0,匹配打分函数的定义如下[26]:

(5)
式中,fij为第i个标准化最末内含子上第j个碱基位点被赋予的值,nia和nib分别为第i个标准化最末内含子上最佳匹配片段的起始碱基相对位点和终止碱基相对位点。因此,对于每个最佳匹配片段,最末内含子都被转化为只由0和1组成的序列。如果一个基因中有m个最佳匹配片段,则我们可以得到m个由0和1组成的序列。每个位点的最佳匹配片段的相对位置频率定义为
(6)
式中,Frj为标准化的最末内含子上第j个碱基位点在最佳匹配片段的相对位置频率,fij为标准化的最末内含子上第j个碱基位点被赋予的值,Nia和Nib分别为第i个最佳匹配片段的起始位点和终止位点,m为基因中最佳匹配片段的总数。
2 结果
2.1 最佳匹配片段的长度分布
最佳匹配片段的序列特征具有重要的生物学意义[27]。通过对人类、小鼠、东方鲀、果蝇和线虫这五个物种的每个线粒体核糖体蛋白基因中最末内含子与其他内含子反向互补序列之间的最佳匹配片段的统计,建立了最佳匹配片段的数据集。然后,统计每个物种的最佳匹配片段的长度,根据公式(1)计算不同长度范围的最佳匹配片段频率,结果如图1(a)所示。为了进一步探究最末内含子与其他内含子相互作用的特性,对比了最末、第一内含子与其他内含子反向互补序列之间的最佳匹配片段长度分布情况,相应地作出了第一内含子与其他内含子反向互补序列之间的最佳匹配片段的长度分布图,结果如图1(b)所示。
对比图1中(a),(b)两图可以看出,五个物种的最佳匹配片段长度主要集中在10~50 bp,此外,人类最佳匹配片段的长度分布与小鼠的相似,两者的长度最长且长度分布范围也是最广的,最长可达100 bp。果蝇的最佳匹配片段长度最短且长度分布范围最窄。在最末内含子中,线虫的最佳匹配片段长度和长度分布范围大于东方鲀,但在第一内含子中与此相反。综上所述,五个物种的最末、第一内含子分别与其他内含子反向互补序列之间的最佳匹配片段的长度分布总趋势有相似之处,但也存在差异。

图1五个物种最末内含子(a)和第一内含子(b)分别与其他内含子反向互补序列之间的最佳匹配片段的长度(Lm)分布
Fig.1Distribution of the length (Lm) of the optimal matched segments between the last intron (a) and the first intron (b) and the reverse complementary sequences of other introns in each of the five species
注:x轴表示最佳匹配片段的长度(Lm),y轴表示最佳匹配片段的长度频率(FLm).
为了更好的分析最佳匹配片段长度分布的普适性,将五个物种的最佳匹配片段数据汇总,把最佳匹配片段按照长度分为若干组,计算每组中最佳匹配片段的频率,如图2。

图2五个物种最末内含子(a)和第一内含子(b)分别与其他内含子反向互补序列之间的最佳匹配片段的总长度(L′m)分布
Fig.2Distribution of the total length (L′m) of the optimal matched segments between the last intron (a) and the first intron (b) and the reverse complementary sequences of other introns in each of the five species
注:x轴表示最佳匹配片段的长度(L′m),y轴表示最佳匹配片段的长度频率(FL′m).
从图中可以发现,最末内含子和第一内含子的最佳匹配片段长度具有相似的分布,主要集中在20~30 bp之间,说明最佳匹配片段长度分布具有普适性。
为了对5个物种的最佳匹配片段长度进行差异性分析,采用Sanger box绘图工具(http://www.sangerbox.com/tool.html)绘制出小提琴图,检验任意两个物种之间的最佳匹配片段长度的差异性,如图3和图4。
图3和图4的不同之处是,在最末内含子中,人类的最佳匹配片段长度与东方鲀的最佳匹配片段长度有显著性差异,但在第一内含子中,人类的最佳匹配片段长度与东方鲀的最佳匹配片段长度无显著性差异。图3、图4中人类与线虫、小鼠与线虫、东方鲀与线虫之间的p值均大于0.05,说明无论在最末内含子,还是在第一内含子中,与其他内含子的最佳匹配片段长度分布方面,人类与线虫、小鼠与线虫、东方鲀与线虫之间无显著性差异。对比统计结果中的r值和p值,发现随着物种的进化,最佳匹配片段长度的差异逐渐缩小。

图3最末内含子最佳匹配片段的长度差异性分析小提琴图
Fig.3Violin plot of the length variability analysis of the optimal matched segments of the last intron
注:x轴表示五个物种名称,y轴表示最末内含子最佳匹配片段的长度频率(FLm).

图4第一内含子最佳匹配片段的长度差异性分析小提琴图
Fig.4Violin plot of the length variability analysis of the optimal matched segments of the first intron
注:x轴表示五个物种名称,y轴表示第一内含子最佳匹配片段的长度频率(FLm).
2.2 最佳匹配片段的GC含量分布
统计每个物种的最佳匹配片段的GC含量,根据公式(2)计算不同GC含量范围的最佳匹配片段频率,结果如图5(a)所示。为了进一步探究最末内含子与其他内含子相互作用的特性,对比了最末、第一内含子中最佳匹配片段的GC含量分布情况,相应地作出了第一内含子与其他内含子反向互补序列之间最佳匹配片段的GC含量分布图,结果如图5(b)所示。

图5五个物种最末内含子(a)和第一内含子(b)分别与其他内含子反向互补序列之间的最佳匹配片段GC含量(CGCm)分布
Fig.5Distribution of the GC content (CGCm) of the optimal matched segments between the last intron (a) and the first intron (b) and the reverse complementary sequences of other introns in each of the five species
注:x轴表示最佳匹配片段的GC含量(CGCm),y轴表示最佳匹配片段的GC含量频率(FGCm).
图5(a),(b)中显示五个物种最佳匹配片段的GC含量分布范围为0~0.9。对比五个物种的结果发现,在最末内含子中,东方鲀的FGCm峰值大于小鼠和果蝇;而在第一内含子中,果蝇的FGCm峰值大于东方鲀和小鼠。在最末内含子中,果蝇的FGCm峰值对应的GC含量大于东方鲀,但在第一内含子中相反。说明最末、第一内含子分别与其他内含子反向互补序列之间的最佳匹配片段GC含量是存在差异的。无论是在最末还是在第一内含子,线虫的FGCm峰值最大,人类的FGCm峰值最小,而人类的FGCm峰值对应的GC含量最大,线虫FGCm峰值对应的GC含量最小,说明内含子间相互作用是存在保守性的。
有研究表明,高GC最佳匹配片段与低GC最佳匹配片段所执行的功能是不同的[28]。为了探讨不同GC含量的最佳匹配片段在最末内含子或第一内含子的分布情况,我们根据GC含量对最佳匹配片段进行分组,分别为高GC组(CGC>50%),中GC组(30%<CGC≤50%)和低GC组(CGC≤30%),做出了不同组最佳匹配片段的GC含量频率分布图,结果如图6所示。

图6五个物种的最佳匹配片段中的低GC组(0.0-0.3)、中GC组(0.3-0.5)和高GC组(0.5-1.0)的含量分布(C’GCm)
Fig.6Distribution of the content of low GC segments (0.0-0.3) , middle GC segments (0.3-0.5) and high GC segments (0.5-1.0) in the optimal matched segments of the five species (C’GCm)
注:x轴表示最佳匹配片段的三种不同GC含量(C’GCm),y轴表示最佳匹配片段的三种不同GC含量片段的频率(F’GCm).
从图6中看出,在最末、第一内含子中,只有人类和小鼠的曲线呈现上升趋势,说明人类和小鼠的最佳匹配片中的GC含量较高,线虫的最佳匹配片段大部分为低GC组。尤其在最末内含子中,高GC组频率是随着物种的进化而增加的。在最末内含子中果蝇的中GC段>低GC段,东方鲀的低GC段>中GC段,但在第一内含子中与此相反。说明不同GC含量组的最佳匹配片段在最末、第一内含子中含量是有差异的。
为了对五个物种的最佳匹配片段的GC含量进行差异性分析,绘制了小提琴图,检验任意两个物种之间的最佳匹配片段GC含量的差异性,如图7、图8。

图7最末内含子最佳匹配片段的GC含量差异性分析小提琴图
Fig.7Violin plot of the GC content variability analysis of the optimal matched segments of the last intron
注:x轴表示五个物种名称,y轴表示最末内含子最佳匹配片段的GC含量频率(FGCm).

图8第一内含子最佳匹配片段的GC含量差异性分析小提琴图
Fig.8Violin plot of the GC content variability analysis of the optimal matched segments of the first intron
注:x轴表示五个物种名称,y轴表示第一内含子最佳匹配片段的GC含量频率(FGCm).
图7和图8不同的是,图7显示在最末内含子中,人类、小鼠的最佳匹配片段GC含量分布分别与果蝇的最佳匹配片段GC含量分布无显著性差异,但图8显示在第一内含子中,人类、小鼠的最佳匹配片段GC含量分布分别与果蝇的最佳匹配片段GC含量分布有显著性差异,体现了最末内含子与其他内含子的最佳匹配片段GC含量分布和第一内含子与其他内含子的最佳匹配片段GC含量分布的差异性。
2.3 最佳匹配片段的配对率分布
统计每个物种的最佳匹配片段的配对率,根据公式(3)计算不同配对率范围下的最佳匹配片段频率,结果如图9(a)所示。另外,对比了最末、第一内含子的最佳匹配片段配对率分布情况,相应地作出了第一内含子与其他内含子反向互补序列之间最佳匹配片段的配对率分布图,结果如图9(b)所示。

图9五个物种最末内含子(a)和第一内含子(b)分别与其他内含子反向互补序列之间的最佳匹配片段的配对率(fmat)分布
Fig.9Distribution of the matching rate (fmat) of the optimal matched segments between the last intron (a) and the first intron (b) and the reverse complementary sequences of other introns in each of the five species
注:x轴表示最佳匹配片段的配对率(fmat),y轴表示最佳匹配片段的配对率频率(Fmat).
从图9的最佳匹配片段的配对率分布来看,无论在最末内含子还是在第一内含子上,最佳匹配片段的配对率分布具有高度的一致性,fmat值大多数集中在0.6~0.9,少部分配对率达到100%。表明了五个物种的大多数配对率分布在60%~90%,说明最佳匹配片段的配对率在五个物种中的分布具有较高的一致性或普适性。
为了对五个物种的最佳匹配片段的配对率进行差异性分析,绘制出了小提琴图,检验任意两个物种之间的最佳匹配片段配对率的差异性,如图10、图11。
图10和图11中任意两个物种的最佳匹配片段配对率分布的p值均大于0.05,说明无论在最末内含子还是在第一内含子中,任意两个物种的最佳匹配片段配对率分布无显著差异,表明最佳匹配片段的配对率在物种进化过程中表现了显著的保守性。
2.4 最佳匹配片段的相对位置分布
将标准化后长度为100 bp的最末内含子,根据公式(4)计算其碱基位点的相对位置,然后根据每个最佳匹配片段在最末内含子上的碱基位置,由公式(5)对最末内含子的每个碱基位置进行匹配打分,再根据公式(6)计算每个位点的最佳匹配片段相对位置频率,依据此结果做出热图,如图12(a)所示。我们对比了最末、第一内含子的最佳匹配片段相对位置频率分布情况,相应地作出了第一内含子与其他内含子反向互补序列之间最佳匹配片段的相对位置频率热图,如图12(b)所示。
从图12可以看出,对同一物种而言,最末、第一内含子的最佳匹配片段相对位置Fr峰值出现的位置不相同。这表明同一物种中,最末、第一内含子的最佳匹配片段相对位置频率存在差异。
为了对不同物种的最佳匹配片段的相对位置频率进行差异性分析,我们绘制出了小提琴图,检验任意两个物种之间的最佳匹配片段相对位置频率的差异性,如图13、图14。

图10最末内含子最佳匹配片段的配对率差异性分析小提琴图
Fig.10Violin plot of the matching rate variability analysis of the optimal matched segments of the last intron
注:x轴表示五个物种名称,y轴表示最末内含子最佳匹配片段的配对率频率(Fmat).

图11第一内含子最佳匹配片段的配对率差异性分析小提琴图
Fig.11Violin plot of the matching rate variability analysis of the optimal matched segments of the first intron
注:x轴表示五个物种名称,y轴表示第一内含子最佳匹配片段的配对率频率(Fmat).

图12最佳匹配片段的相对位置频率热图
Fig.12Heatmap of the relative position frequencies of the optimal matched segments
注:x轴代表物种,y轴代表相对位置位点,右上角的Fr中,蓝色表示相对位置频率低,红色表示相对位置频率高.(扫本文首页二维码见彩图).
从图14和图15可以看出,无论是在最末内含子还是第一内含子中,任意两个物种的最佳匹配片段相对位置频率的p值均大于0.05,说明不同物种中最末、第一内含子的最佳匹配片段相对位置频率无显著差异,也说明了随着物种的进化,标准化最佳匹配片段的位置分布表现出了显著的保守性。

图13最末内含子最佳匹配片段的相对位置频率的差异性分析小提琴图
Fig.13Violin plot of the relative position frequencies variability analysis of the optimal matched segments of the last intron
注:x轴表示五个物种名称,y轴表示最末内含子最佳匹配片段的相对位置频率(Fr).

图14第一内含子最佳匹配片段的相对位置频率的差异性分析小提琴图
Fig.14Violin plot of the relative position frequencies variability analysis of the optimal matched segments of the first intron
注:x轴表示五个物种名称,y轴表示第一内含子最佳匹配片段的相对位置频率(Fr).
2.5 基于最佳匹配片段序列的系统进化树
为了验证不同物种的最末、第一内含子与其他内含子的最佳匹配片段与物种进化的关系,分别对最末、第一内含子与其他内含子的最佳匹配片段进行了拼接,采用clustal w方法对拼接后的序列进行对比,进化树的构建以非加权配对算术平均法(UPGMA)用MEGA软件实现,如图15。

图15以拼接后的最佳匹配片段序列构建的系统进化树
Fig.15Phylogenetic tree constructed by splicing the optimal matched segments
从图15(a)中可以看出,进化树的Bootstrap value均大于70,表明此树的分支是可靠的。我们可以明显的看出,图15(b)的进化树结构更符合物种进化规律,说明相比于最末内含子,第一内含子与其他内含子的最佳匹配片段与物种进化相关性更大。
3 结论与讨论
1)最佳匹配片段在最末、第一内含子中长度分布主要集中在21~30 bp之间。有趣的是,最佳匹配片段的长度与siRNA和miRNA的长度非常相似,siRNA是由21~25个核苷酸组成,它通过与靶mRNA的完全互补结合来降解模板mRNA,从而导致基因沉默[29-30]。miRNA长度为18~25 bp,通过与靶mRNA不完全互补来抑制靶mRNA的转录和表达[31]。结果表明,这些最佳匹配片段很可能像siRNA和miRNA一样,是一些有功能的片段。
2)从最佳匹配片段GC含量的统计结果发现(图5),低等生物的最佳匹配片段大部分集中于低GC含量区,而随着真核生物的进化,最佳匹配片段的GC含量分布更为广泛。如果某些功能元素与具有特殊GC含量的最佳匹配片段相关,则说明高等生物比低等生物具有更多的功能元素种类。随着真核生物的进化,峰值处相应的GC含量逐渐增加。AT和GC碱基对都形成一组氢键,GC有三个氢键,而AT有两个氢键,这意味着GC含量高的DNA比GC含量低的DNA更稳定。基于以上理论,可以得出结论,高等生物中通过弱键结合相互作用的内含子多于低等生物,我们推测通过弱键相互作用可以保证参与基因调控的灵活性。相比第一内含子,最末内含子与其他内含子的最佳匹配片段的GC含量与物种的进化关系稍弱一些,这也说明了两种内含子的功能差异。
3)大多数最佳匹配片段的配对率分布在60%~90%,有少数片段是完美匹配的,在物种进化过程中表现了显著的保守性。这和siRNA或miRNA与靶mRNA的配对率范围非常相似,这意味着一些最佳匹配片段是一种具有特殊生物学功能的非编码RNA,很可能参与基因的表达和调控过程。最末内含子中具有特殊功能的最佳匹配片段可能通过与其他内含子或外显子匹配竞争,从而参与基因的表达调控。
4)同一物种中,最末内含子的最佳匹配片段相对位置频率与第一内含子的最佳匹配片段相对位置频率存在着明显差异。说明不同内含子之间相互作用的位点不同,最末、第一内含子在基因表达调控中拥有不同的分工。但是最佳匹配片段位置分布与物种进化的关系的分析结果表明,不论是最末内含子还是第一内含子,它们与其他内含子的最佳匹配片段随着物种的进化,表现出保守性。
5)通过构建基于最佳匹配片段序列的系统进化树,相比于最末内含子,第一内含子与其他内含子的最佳匹配片段可以更好地体现物种进化规律,说明最佳匹配片段,特别是第一内含子的最佳匹配片段上携带了一定的物种进化信息。
综上所述,最末、第一内含子的最佳匹配片段与siRNA或miRNA之间有很高的相似性,这意味着最佳匹配片段可能是像siRNA和miRNA一样的某种功能性非编码RNA,它具有很高的组织性和特殊的序列结构,该序列可以为研究物种之间的进化关系提供有用信息。前期相关研究表明,第一内含子与其它内含子之间的相互作用关系可能与基因表达调控有关[32],本文结果提示最末内含子与其他内含子之间可能同样存在着相互作用,且与基因的表达调控有关。由于两种匹配片段的长度、GC含量、配对率等分布特征随物种总的变化趋势是一致的,但最佳匹配片段的相对位置分布有很大差异,这种差异表明最末、第一内含子在基因表达调控过程中发挥着各自不同的作用。