【深度好文】想做好RNA-seq?你得先搞定它!

来源: 发表日期:2018-01-10 浏览量:2497



前言

近年来,随着二代测序技术的不断进步和价格的不断降低,其逐渐从“神坛”上走下,成为了越来越多科研工作者的选择。近两年,由于测序技术的迅速推广,许多做芯片的科研工作者也开始转做转录组测序。

经常有人在公众号问小编:我想做转录组测序,是不是可以比芯片少做一些样本,是不是可以不做生物学重复?

今天小编就在这里从两个方面和大家讨论一下。

第一,RNA-seq样本要不要设计生物学重复?

首先回答第一个问题。在测序刚刚兴起的蛮荒时代,由于过度迷信新一代测序技术的优越性和成本的确太高,导致了部分杂志编辑忽略了 “生物学重复”的重要性。但是随着测序技术应用的进步和成本的降低,杂志编辑也逐渐回归理性,对文章的要求不断提高,严谨的实验设计越来越会受到优秀杂志的青睐。

其实早在20117月,发表在《Nature Biotechnology》上的一篇文章就为研究者做出了重要提示——测序技术并不能消除生物学差异。其实和芯片技术一样,测序技术也需要生物学重复!(文章详见文末 参考文献1)

文章中,研究者将两组转录组测序数据(生物学重复样本数分别为n=60和n=69)和对应的表达谱芯片数据(n=43, n=51)进行比对。结果发现,用测序和芯片技术研究相同的细胞,同一基因在不同生物学重复样本间表达水平的差异(SD值)是相似的(图a和图b)。结果说明,生物学差异是基因表达自身的特性,与检测技术的选择以及数据处理的方式无关。

同时,研究者用测序技术和芯片分别检测COX4NBRASGRP1基因。结果发现, 同一实验组内,COX4NB在生物学重复样本中表达差异非常小;但在同样情况下RASGRP1的生物学差异很大(图c)。

结果意味着:不同实验组间COX4NB的表达水平的变化存在研究意义;而同样情况下RASGRP1的检测数据可能不能说明问题。所以,设计的实验如果没有生物学重复,或者生物学重复的数量不够,就不能得到有统计意义的实验结果;获得的差异表达的基因很可能仅仅是少数个体差异的表现,并不能反映疾病或者某种特定生理状态的群体本质特征。由此可见,生物学重复对于测序实验的设计以及实验数据的解读和分析非常重要。

 

第二,生物学重复设置多少样本比较合适

相信大家现在都了解了为什么要设计生物学重复,那么是时候来考虑第二个问题了,我们设计多少生物学重复合适?

非常幸运,2016年《RNA》上发表了一篇文章,专门介绍了RNA-Seq实验应设计多少生物学重复样本,并研究了市面上常见的差异分析软件的优缺点和适用范围。如果您和小编一样感兴趣建议您去膜拜原文。(文章详见文末 参考文献2)

在这里小编给大家介绍一下此文中的一些重要内容:

文章中,研究者将野生线虫和SNF2基因敲除的线虫样本进行差异分析(生物学重复样本数分别为n=42和n=44),研究者用不同的软件并设置了不同的生物学重复数目来比较差异基因的情况,随着生物学重复样本的数目增多软件拿到真实差异基因的比例也会随之增加。

 

由上图可以看出,随着生物学重复nr的增加,拿到真实差异基因的比例由不到20%增加到将近80%(图中展示的结果为 edgeR(exact)软件计算结果)

同样上图也可以看出,随着nr(生物学重复数目)的增加,在T(取过对数后的FC值)较小时,不同软件拿到的真是差异基因数目都有显著提升。但是当差异基因的FC值要求非常严格T=2(相当于4倍的差异)时,生物学重复的数目对差异基因的影响较小。

 

但是很遗憾的是,并没有文献提出差异基因的差异倍数越大越说明其发挥更重要的生物学功能,反而有一些研究肿瘤的文献发现差异变化不大的显著差异基因也能发挥重要的生物功能。

最后,小编也建议大家:如果研究人员比较关注差异倍数变化不大的显著差异的基因,建议生物学重复样本数要>=12。如果还有什么不懂得,欢迎随时与我们康普森生物公众号互动,或者直接来电咨询我们的技术支持人员。

参考文献1 :Sequencing technology does not eliminate biological variability

参考文献2:How many biological replicates are needed in an RNA-seq experiment  and which differential expression tool should you use?


分享: