论文阅读笔记(1)

链接

论文介绍了GenomeScope 2.0和Smudgeplot两个工具，用于无参考分析多倍体生物的基因组特征。这些工具通过分析k-mer频率在杂合和多倍体基因组中的分布，可以估算基因组的大小、杂合性和重复性。

graph LR A("Genomescope 2.0和Smudgeplot是用于无参考策略下多倍体基因组分析的工具") A --> B("基因组特征评估和推断倍性") A --> C("基因组分析通过k-mer频率来估计主要基因组特征") C --> D("基因组特征包括大小、杂合度和重复性") B --> D A --> E("Genomescope 2.0应用组合理论建立了一个详细的数学模型") E --> F("k-mer频率在杂合和多倍体基因组中的分布") E --> G("多倍体感知的混合模型") G --> H("推断模拟和真实数据集中的基因组特性") A --> I("Smudgeplot通过分析杂合性k-mer对来可视化和估计基因组倍性和结构") I --> J("成功应用于多个已知变异倍性的物种") I --> K("开源的代码可以在GitHub上获取")

概述

以k-mer谱作为输入，通过非线性最小二乘优化拟合负二项式分布的混合模型，并输出基因组大小、重复性和杂合率的估计值

GenomeScope diploid model

GenomeScope 1.0

通过统计分析k-mer的分布情况，并拟合了一个由四个负二项分布组成的混合模型，其中前两个表示异质和同质双体k-mers，后两个表示具有两份拷贝的异质和同质双体k-mers

四个负二项分布等间距排列，并出现在λ、2λ、3λ和4λ处，其中λ = 22.2是双体基因组的平均k-mer覆盖度,其中，第i个峰值对应于在双体基因组中正好出现i次的k-mer的贡献

GenomeScope 2.0

GenomeScope 2.0现在适配2×p个负二项分布，其中p为倍性:

$f(x)=G\sum^{2p}_{i=1}\alpha_iNB(x,i\lambda,\frac{i\lambda}{p})$

G is the number of distinct k-mers
NB(x, μ, size) is the negative binomial distribution that approximates the sequencing coverage with mean μ and dispersion parameter size,
λ is the average k-mer coverage for the diploid genome, and
ρ is a bias parameter proportional to PCR duplication and other sequencing biases

与二倍体情况类似，每个双倍子的负二项分布等距地分布在λ、2λ、...和2pλ处，其中λ是多倍体基因组的平均k-mer覆盖度。同样第i个峰表示在多倍体基因组中出现恰好i次的k-mer的贡献

下一步是根据倍性、重复性、杂合性和k-mer长度来确定 $a_i$ 值

在多倍体情况下，需要利用Möbius逆公式在部分有序集合上进行

GenomeScope implementations

非线性最小二乘法确定最适合输入数据的参数。

GenomeScope 1.0使用基于高斯-牛顿算法的R中的nls函数，
GenomeScope 2.0则使用nlsLM函数。

nlsLM使用Levenberg-Marquardt算法，并支持参数上下界。像高斯-牛顿方法一样，Levenberg-Marquardt算法从初始的粗略估计开始，然后进行迭代过程来更新参数。此外，Levenberg-Marquardt引入了一个阻尼参数，在迭代过程中进行调整，使其更加健壮。值得注意的是，在许多具有更高倍性的模拟和真实数据集中，nlsLM函数能够收敛，而nls函数则不能

对于具有高杂合性和/或高倍性的数据集，k-mer频谱不显示清晰定义的高阶峰值,在这些情况下，拟合转换后的k-mer频谱可以提高模型的收敛能力

转换后的k-mer频谱定义为频率乘以覆盖度（y轴）与覆盖度（x轴）的图像，而不是典型的频率与覆盖度的图像。转换k-mer频谱有效增加了高阶峰值的高度，克服了高杂合性的影响。这增加了高阶峰值的信号，特别是同源峰值，使模型能够收敛。即使对于杂合性和倍性较低的数据集，转换后结果依然准确

因此GenomeScope 2.0现默认拟合转换后的k-mer频谱，并相应调整在非线性优化过程中使用的数学模型的方程