原核生物转录组测序

  • 产品详情
  • 产品参数
  • 产品评论

原核生物转录组测序

二代真核转录组采用Illumina/BGI测序平台,对有参、无参真核生物特定细胞在某一功能状态下转录的所mRNA进行测序。在定量层面,有参可以对基因进行定量分析,无参只能对Unigene(优化的转录本)进行定量分析,并进行下游的差异基因分析和功能注释等;在结构层面,有参可进行可变剪切、SNP分析、基因结构优化、新基因预测。目前已广泛应用于基础研究、临床诊断、药物研发和分子育种等领域。


数据分析


1、数据质控

为确保Reads有足够高的质量,将下机原始测序数据(raw reads)去掉含有带接头的、低质量的reads,得到clean reads,保证后续分析的准确性。测序因受测序仪本身、测序试剂、样品等因素影响,存在一定的错误率。碱基测序错误率分布图可以反映测序数据的质量。









2、数据质控参考序列比对

将Clean Reads与参考基因组进行序列比对,获取在参考基因组或基因上的位置信息,定位区域分为Exon(外显子)、Intron(内含子)
和Intergenic(基因间区)。比对到参考基因组上的Reads称为Mapped Reads,Mapped Reads占Clean Reads的百分比,可以评估所选参考基因组组装是否能满足信息分析的需求。







3、重复相关性评估

生物学重复的相关性不仅可以检验生物学实验操作的可重复性,还可以评估差异表达基因的可靠性和辅助异常样品的筛查。





4、差异表达基因分析

差异表达基因以火山图、MA图、韦恩图、聚类热图、蛋白互作图等形式呈现,通过火山图(Volcano Plot)可以快速地查看基因在两个(组)样品中表达水平的差异,以及差异的统计学显著性。对于有生物学重复的样本,我们采用DEseq进行样品组间的差异表达分析,获得两个生物学条件之间的差异表达基因集;对于没有生物学重复的样本,使用EBseq进行差异分析。筛选差异基因标准一般为:Fold Change≥2,FDR<0.01。



5、差异表达基因聚类分析

聚类分析用于判断差异基因在不同实验条件下的表达模式,可通过将表达模式相同或相近的基因聚集成类,从而识别未知基因的功能或已知基因的未知功能,同类基因可能具有相似的功能或共同参与同一代谢过程。








6、差异表达基因GO分类

差异表达基因GO注释分类统计图,直观的反映出在生物过程(biological process)、细胞组分(cellular component)
和分子功能(molecular function),所有基因和差异基因注释GO term的个数分布。可深入挖掘差异基因的功能及所在的信号通路,筛选关注差异基因注释情况。



7、差异表达基因蛋白互作网络

STRING收录多个物种预测的和实验验证的蛋白质-蛋白质互作的数据库,包括直接的物理互作和间接的功能相关。结合差异表达分析结果和数据库收录的互作关系对,构建差异表达基因互作网络。

8、测序数据组装

对于无参转录组,过滤得到的高质量clean reads需通过Trinity软件进行组装得到转录本序列。转录本测序深度除了受测序数据量等影响,还与该转录本的表达丰度有关。为了使各样品中表达丰度较低的转录本组装得更完整,对于同物种的测序样品推荐合并组装可以间接增加测序深度,从而使转录结果更完整,同时也有利于后续的数据分析;而对于不同物种的样品,由于基因组间存在差异,推荐采用分别组装或分开分析。

9、差异表达基因KEGG通路富集


差异表达基因的KEGG Pathway富集分析,系统分析基因产物在细胞中的代谢途径以及这些基因产物功能,把基因及表达信息作为一个整体的网络进行研究。利用富集因子(Enrichment Factor)分析Pathway的富集程度,并利用超几何检验方法计算富集显著性。