高通量测序数据分析
由于不知道疾病的致病原因,因此病原体的类别为以下几种:病毒、真菌、细菌以及等。而且这些病原体的遗传信息又可分为DNA、RNA以及蛋白质或是多肽。本项目以基于高通量RNA 测序数据进行分析。
高通量RNA 测序即RNA-seq,就是把mRNA, small RNA and Non-coding RNA等或者其中一些用高通量测序技术把它们的序列测出来。反映出它们的表达水平。主要有以下几个应用领域:转录本结构研究(基因边界鉴定、可变剪切研究等),转录本变异研究(如基因融合、编码区SNP研究),非编码区域功能研究(Non-coding RNA研究、microRNA前体研究等),基因表达水平研究以及全新转录本发现。与基因芯片技术相比,RNA-seq无需设计探针,能在全基因组范围内以单碱基分辨率检测和量化转录片段,并能应用于基因组图谱尚未完成的物种[6],具有信噪比高、分辨率高、应用范围广等优势,正成为研究基因表达和转录组的重要实验手段.
本项目对当前RNA-seq应用的现实情况,尝试以Illumina/Solexa测序平台产生的mRNA-seq数据为例(即产生的),不对测序过程做讨论,只对数据处理和分析的基本流程、关键方法和现有软件进行介绍,并讨论RNA-seq数据分析中存在的挑战.
RNA-seq数据分析包括基本数据分析和生物信息数据分析,对测序数据的序列匹配(mapping),裁减低质量部分,数据格式转换等。序列拼接(assembly),tRNA/rRNA识别和分类。基因组GC含量分析,并识别特异区域。基因功能注释(包括同源注释和蛋白结构域识别)。基因功能分类,参照Gene Ontology或COG标准(由用户指定标准)
关注微信订阅号,实时查看信息,关注医学生物学动态。