新冠病毒下一步将如何突变？机器学习从生物学

许多人对病毒没有多想的是，就像地球上为生存而挣扎的其他生物一样，它们会进化或变异。

只要看一看人类病毒来源的蝙蝠病毒RNA核苷酸序列片段即可：

AAAATCAAAGCTTGTGTTGAAGAAGTTACAACAACTCTGGAAGAAACTAAGTT

以及人类COVID-19的RNA核苷酸序列的一小段：

AAAATTAAGGCTTGCATTGATGAGGTTACCACAACACTGGAAGAAACTAAGTT

显然，冠状病毒已改变其内部结构以适应其宿主的新物种（更精确地说，冠状病毒内部结构的约20％发生了突变），但仍保持了足够的能力，以至于它仍然正确起源物种。

实际上，研究表明COVID-19已经以提高其存活率的方式反复变异。在抗击冠状病毒的斗争中，我们不仅需要找到如何消灭病毒的方法，还需要找到病毒如何突变以及如何解决这些突变的方法。

在本文中，我将：

提供什么是RNA核苷酸序列的表面解释；使用K-Means创建基因组信息集群；使用PCA可视化集群。

并从我们执行的每个分析程序中获取见解。

什么是基因组序列？

如果你对RNA核苷酸序列有基本的了解，请跳过此部分。

通常与“解码”相比，基因组测序是分析从样品中提取的脱氧核糖核酸（DNA）的过程。在每个正常细胞内有23对染色体，这些染色体容纳着DNA。

DNA的卷曲双螺旋结构使其可以展开为梯形。该梯子由成对的化学字母（称为碱基）制成。DNA中只有四种：腺嘌呤，胸腺嘧啶，鸟嘌呤和胞嘧啶。腺嘌呤仅与胸腺嘧啶结合，而鸟嘌呤仅与胞嘧啶结合。这些基数分别用A，T，G和C表示。

这些基础构成了指示生物体如何构建蛋白质的各种代码-实际上是DNA控制病毒行为的DNA。

DNA从RNA转化为蛋白质的过程

使用包括测序仪器和专用标签的专用设备，可以揭示特定片段的DNA序列。从中获得的信息将进行进一步的分析和比较，以使研究人员能够识别基因的变化，与疾病和表型的关联以及识别潜在的药物靶标。

基因组序列是一串长长的“ A”，“ T”，“ G”和“ C”，代表生物体对其环境的反应。通过改变DNA可以产生对生物的突变。查看基因组序列是分析冠状病毒突变的有力方法。

了解数据

这些数据，可以在Kaggle找到这里，看起来是这样的：

每行代表蝙蝠病毒的一种突变。首先，只需花一分钟就可以欣赏大自然的不可思议性-在数周之内，冠状病毒已经产生了262种自身突变，以提高存活率。

一些重要的列：

query acc.ver 代表原始病毒标识符。subject acc.ver 是病毒突变的标识符。% identity 代表序列与原始病毒相同的百分比。alignment length 表示序列中多少个相同或对齐。mismatches 代表突变和原始变异的项目数。bit score表示衡量对齐程度的度量；分数越高，对齐越好。

每个列的一些统计度量（可以使用方便地在Python中调用data.describe()）：

查看% identity专栏，有趣的是，突变与原始病毒的最小比对百分比-大约为77.6％。的7％的较大标准偏差% identity表示存在广泛的突变。这有一个巨大的标准偏差支持bit score-标准偏差大于平均值！

可视化数据的一种好方法是通过关联热图。每个单元代表一个特征与另一个特征之间的关联程度。

许多数据彼此高度相关。这是有道理的，因为大多数措施都是彼此不同的。要注意if alignment length与高度相关的一件事bit score。

使用K均值创建突变聚类

K-Means是用于聚类的算法，这是机器学习中在特征空间中查找数据点组的一种方法。我们的K均值的目标是找到突变簇，因此我们可以得出有关突变性质以及如何解决突变的见解。

但是，我们仍然需要选择簇数k。尽管这就像在二维中绘制点一样简单，但在更高的维度中则无法实现（如果我们想保留最多的信息）。像肘法这样选择k的方法是主观且不准确的，因此，我们将使用轮廓法。

轮廓法是对k个聚类给出的聚类对数据适应程度的评分。sklearnPython中的库使实现K-Means和silouhette方法非常简单。

似乎5个集群对数据来说是最好的。现在，我们可以确定簇中心。这些是每个簇围绕的点，代表了（在本例中）5种主要突变类型的数值评估。

注意：已对功能进行了标准化，以使它们全部具有相同的比例。否则，列将不可比较

此热图按列表示每个群集的属性。因为这些点是按比例缩放的，所以实际的注释值在数量上并不意味着什么。但是，可以比较每列中的缩放值。你可以从视觉上感觉到每一个变异簇的相对属性是。如果科学家要开发一种疫苗，它应该解决这些主要的病毒群。

接下来，我们将使用PCA可视化集群。

用于集群可视化的PCA

PCA是一种降维方法。它选择多维空间中的正交向量来表示轴，这样就保留了大部分信息（方差）。

使用流行的Python库sklearn，可以用两行代码实现PCA。首先，我们可以检查解释的方差比。这是从原始数据集中保留的统计信息的百分比。在这种情况下，解释的方差比是0.9838548580740327，这是天文高度！我们可以确信，我们从主成分分析中得到的任何分析都将是真实的数据。

每个新特征（主成分）都是几个其他列的线性组合。我们可以用热图直观地看到一个列对两个主要组件之一有多重要。

重要的是要理解在第一个组件中具有高值意味着什么——在这种情况下，其特征是具有更高的对齐长度（更接近原始病毒），而组件2的特征主要是具有更短的对齐长度（更远离原始值突变）。这也反映在比特分数的较大差异上。

很明显病毒突变有5条主线，我们可以了解到更多。

四个病毒突变在第一主成分的左侧，一个在右侧。第一主分量的签名是高对齐长度，这意味着第一主成分的较高值意味着较高的对齐长度（更接近原始病毒）。因此，组分1的较低值与原始病毒的遗传距离较远，大多数病毒簇与原始病毒有很大不同。因此，试图制造疫苗的科学家应该意识到这种病毒变异很大。

结论

利用K-Means和PCA，能够识别冠状病毒的五个主要突变簇。研制冠状病毒疫苗的科学家可以利用这些簇中心来获得关于每个簇特征的知识。通过主成分分析，我们可以在两个维度上看到这些簇，并且发现冠状病毒具有非常高的突变率，这可能是它如此致命的原因。

--END--

翻译：未艾信息（www.weainfo.net）

查看更多最新资讯，欢迎大家点击阅读原文登录我们的AI社区。

以及关注我们的公众号：为AI呐喊（weainahan）