IWGSCv1.0准确性如何?-北京物流信息联盟

IWGSCv1.0准确性如何？

昨天的更新闹了一个大乌龙

目前使用广泛的是中国春参考基因组，据小编我了解，至少有3个独立版本的中国春参考基因组，分别是IWGSCv1.0，TGACv1，PacBio。其中，目前应用最广泛的是IWGSCv1.0，这得益于其染色体水平的组装，完善的基因组注释信息。

TGACv1短暂流行过，虽然没能组装至染色体水平，但其利用三代转录组数据注释出的基因表现相对不错，在某些时候是优于IWGSCv1.0注释的。而PacBio序列则用的人比较少，但是其组装出的基因组据说是迄今最完整的。

PacBio序列更多的用于填补IWGSCv1.0的gap。因为三代序列毕竟不受GC含量影响，并且读长相对较长。这对于填补某些类型的gap是非常有利的。第二就是验证IWGSCv1.0的序列。谁也没有评估过IWGSCv1.0的正确率有多高，所以做图位克隆的小伙伴还要多总结经验才是。三代的序列目前也可以在小麦多组学网站blast和下载。

另外还有一些团体也可能再做一些中国春参考基因组的工作，比如美国加州大学戴维斯分校罗明诚教授。

总之，要想完美拿下小麦基因组还有不少路要走。除了中国春基因组，很多其他小麦材料的基因组也在进行测序。比如我们前面提到过10个小麦基因组计划。国内作科所的贾继增研究员等组成的团队对矮抗58进行了测序，据说该成果已小规模共享。要给这种发表前共享数据的做法点个赞！希望以后这种数据共享行为会越来越普遍，无论对小麦的科学研究和育种应用都有不可估量的促进作用。

最近GIGA Science上发表了一篇题为“Independent assessment and improvement of wheat genome sequence assemblies using Fosill jumping libraries”的研究论文。作者信息如下：

image-20180527155801702

本文校正的版本是TGACv1，并生成了TGACv2。我们网站目前可以提供该版本的blast（http://202.194.139.32/）。

那么是如何进行校正和提高的呢？我们从题目上就可以看出来，使用了Fosill jumping libraries。简单说，就是构建插入片段在40Kb左右的BAC文库，然后将BAC转换成使用Illumina 测序的模板，然后对该模板的末端进行pair-end测序。原文的介绍是这样的：

Fosmids are used because DNA is cloned in a precise range of 35~41 Kb by efficient packaging in phage lambda and cohesive end circularisation. Fosmid clone inserts have been converted to Illumina sequencing templates to generate 38 Kb mate-pair “jumping libraries” and used to improve assemblies of the mouse genome.

目前国内很多公司提供Fosmid文库构建服务，至于如何转化成Illumina sequencing templates，可以参考本文的材料与方法部分。

那么这种方法对TGACv1进行校正的效果如何呢？scaffold N50可以提高3-5倍，下图展示了校正前后scaffold N50的变化。

image-20180527162358700

这种方法对基因组的组装无疑是有帮助的。另外，通过本文我们还可以了解到在这些基因组版本一般都有哪些类型的组装错误以及哪些类型的组装错误最常见。原文对此有很详细的分析和对比，这里我们不再转述了。

今天我们的重点是如何利用这个数据来辅助我们判断IWGSCv1.0上某一区间的序列是否组装正确。首先我们下载了本文的原始数据然后使用BWA mapping至中国春基因组（IWGSCv1.0）上。然后将数据链接至jbrowse（http://202.194.139.32/jbrowse/?data=Chinese_Spring）中以便于可视化判断。

bwa mem -M -R '@RG\tID:ERR2190620\tSM:chinese_spring' -t 20 Chinese_Spring_genome ERR2190620_1.fastq ERR2190620_2.fastq > ERR2190620.sam
samtools sort -@ 20 -o ERR2190620.sorted.bam ERR2190620.sam
samtools index ERR2190620.sorted.bam
然后配置jbrowse，导入上述文件信息

如下图所示，半圆可以理解为一个BAC克隆，起点和终点可以理解为BAC的两个末端。

半圆的起点和终点之间的距离正常情况下38Kb左右，如果远小于38Kb，表示参考序列有缺失（或gap）；如果起点和终点之间的距离远远大于38Kb，则表示该区间内序列拼接错误。

如果序列是连续的，则是半圆套半圆；如果序列拼接错误，则该位置没有半圆相交（下图蓝框处所示）。

输入后面的网址就可以在jbrowse看到上述截图的情况http://202.194.139.32/jbrowse/?data=Chinese_Spring&loc=chr3A%3A526756970..527247744&tracks=ERR2190620_Arc%2CERR2190624_Arc&highlight=

上面这个出错的位置可是花了我不少时间，不过这也在某种程度上说明，IWGSCv1.0组装上还是可以的。

如果中国春里有gap，现在可以试试利用这个来判断gap大小。如果gap较小，就可以忽略了。

要结合序列覆盖度来看，上面ERR2190620的覆盖度低，所以我们看着比较稀疏，下面的ERR2190624的覆盖度相对就高一点了。ERR2190620-ERR2190626可以结合起来看。

不过，要还是要提醒大家：

尽信书则不如无书，小麦基因组复杂，也不要全信这个东西，要结合多种证据来证明。

wheatomics2

geizan