论文阅读笔记(1)

链接

论文

论文介绍了GenomeScope 2.0和Smudgeplot两个工具,用于无参考分析多倍体生物的基因组特征。这些工具通过分析k-mer频率在杂合和多倍体基因组中的分布,可以估算基因组的大小、杂合性和重复性。

graph LR A("Genomescope 2.0和Smudgeplot是用于无参考策略下多倍体基因组分析的工具") A --> B("基因组特征评估和推断倍性") A --> C("基因组分析通过k-mer频率来估计主要基因组特征") C --> D("基因组特征包括大小、杂合度和重复性") B --> D A --> E("Genomescope 2.0应用组合理论建立了一个详细的数学模型") E --> F("k-mer频率在杂合和多倍体基因组中的分布") E --> G("多倍体感知的混合模型") G --> H("推断模拟和真实数据集中的基因组特性") A --> I("Smudgeplot通过分析杂合性k-mer对来可视化和估计基因组倍性和结构") I --> J("成功应用于多个已知变异倍性的物种") I --> K("开源的代码可以在GitHub上获取")

概述

以k-mer谱作为输入,通过非线性最小二乘优化拟合负二项式分布的混合模型,并输出基因组大小、重复性和杂合率的估计值

GenomeScope diploid model

GenomeScope 1.0

通过统计分析k-mer的分布情况,并拟合了一个由四个负二项分布组成的混合模型,其中前两个表示异质和同质双体k-mers,后两个表示具有两份拷贝的异质和同质双体k-mers

四个负二项分布等间距排列,并出现在λ、2λ、3λ和4λ处,其中λ = 22.2是双体基因组的平均k-mer覆盖度,其中,第i个峰值对应于在双体基因组中正好出现i次的k-mer的贡献

GenomeScope 2.0

GenomeScope 2.0现在适配2×p个负二项分布,其中p为倍性:

f(x)=Gi=12pαiNB(x,iλ,iλp)f(x)=G\sum^{2p}_{i=1}\alpha_iNB(x,i\lambda,\frac{i\lambda}{p})

  • G is the number of distinct k-mers
  • NB(x, μ, size) is the negative binomial distribution that approximates the sequencing coverage with mean μ and dispersion parameter size,
  • λ is the average k-mer coverage for the diploid genome, and
  • ρ is a bias parameter proportional to PCR duplication and other sequencing biases

与二倍体情况类似,每个双倍子的负二项分布等距地分布在λ、2λ、...和2pλ处,其中λ是多倍体基因组的平均k-mer覆盖度。同样第i个峰表示在多倍体基因组中出现恰好i次的k-mer的贡献

下一步是根据倍性、重复性、杂合性和k-mer长度来确定 aia_i

在多倍体情况下,需要利用Möbius逆公式在部分有序集合上进行

GenomeScope implementations

非线性最小二乘法确定最适合输入数据的参数。

  • GenomeScope 1.0使用基于高斯-牛顿算法的R中的nls函数,
  • GenomeScope 2.0则使用nlsLM函数。

nlsLM使用Levenberg-Marquardt算法,并支持参数上下界。像高斯-牛顿方法一样,Levenberg-Marquardt算法从初始的粗略估计开始,然后进行迭代过程来更新参数。此外,Levenberg-Marquardt引入了一个阻尼参数,在迭代过程中进行调整,使其更加健壮。值得注意的是,在许多具有更高倍性的模拟和真实数据集中,nlsLM函数能够收敛,而nls函数则不能

对于具有高杂合性和/或高倍性的数据集,k-mer频谱不显示清晰定义的高阶峰值,在这些情况下,拟合转换后的k-mer频谱可以提高模型的收敛能力

转换后的k-mer频谱定义为频率乘以覆盖度(y轴)与覆盖度(x轴)的图像,而不是典型的频率与覆盖度的图像。转换k-mer频谱有效增加了高阶峰值的高度,克服了高杂合性的影响。这增加了高阶峰值的信号,特别是同源峰值,使模型能够收敛。即使对于杂合性和倍性较低的数据集,转换后结果依然准确

因此GenomeScope 2.0现默认拟合转换后的k-mer频谱,并相应调整在非线性优化过程中使用的数学模型的方程