基因表达数据集

GeneLib软件基本上都会将基因表达数据转换成为基因表达集(eSet)文件,这个文件来源于R语言的表达谱集合数据。数据中有些包含很多基因表达之外的信息,如实验分组、实验名称、实验平台、时间、临床数据、采样情况等等。

总的来说,基因表达数据是非常复杂的。通常在我们平台本地化应用的表达集,是由以下几部分构成:

表达数据

表达数据即基因的表达谱,这个表达谱可以是芯片中基因表达值密度值,也可以是测序中的拷贝数。一般数据都是进行过预处理后,得到的相对表达量,这个值更利于后续基因差异等分析的计算。同时注意的是,这个值一般都不能包含缺失值。 同时,表达值变化过小(所有样本都是同一个值),极大值、极小值等等,一般都会在预处理中去掉,因此,合适的基因表达谱中是不含有这些数据的。

元数据

元数据(meta-data,phenoData)记录着样本的变化数据,以及样本各种相关的信息

特征数据

特征数据(featureData)记录着实验所用的平台数据,以及平台参数等,如Affy、illum