一、在基因云馆平台的实验库搜索合适的数据。
1、首先输入吸烟者的英文“smoker”点击实验库进行搜索,如pic1。
2、这时会出现很多的数据下一步就要筛选出自己想要的,物种要选择—— 人类(“Homo sapiens”),如Pic2。
3、然后就在这些数据中进行选择,找到一个数据,看最佳样本的数量是否为合适,一般最佳样本的数量都是在20—100之间;查看该数据的平台是否可以在基因云馆平台所用;再是看该数据有没有“Processed data”(处理后的数据),如Pic3 。
4、点进去看一下该数据有没有对照组,因为最终结果肯定会需要对照组的,如Pic4。
5、这些满足后就可以带着合适的数据去Genelibs 平台进行分析了,小编找到了一个满意的数据GSE75037,如Pic5。
二、登录网站:www.genelibs.com , 登录系统(先注册后登陆或在数据下面的分析链接中直接进入),如Pic6。
三、数据本地化
1、首先要进行 GEO 数据库检索,输入 GSE75037,如Pic7所示 。
2、然后点击运行,这时会生成一系列的文件,如Pic8。这些中.RData是后期所需要的,然后点击html文件查看报告,如Pic9所示,看看报告中列名称有无空格。若有空格的话,数据信息需要更改,而且我们是要进行差异分析的,所以需要操作表达集数据信息和基因表达集生成器这一步骤。
四、表达集数据信息
1、进入后需要把本地化那一步的 .RData 放入,如Pic10。
2、点击运行,就会生成类似第一步中的很多文件,两个 .CSV 是我们所需要的,如Pic11。将生成的 “pDatamatrix.csv” 保存后根据需要进行更改,如Pic12。(要做到:第一个csv文件的列名称与第二个csv文件的行名称对应且无空格;分组列中名称后无空格且分组名称尽量简单)修改完成后保存备用。(如 PData 的行名称更改,则 exprsmatrix.csv 的列名称也要做相应的改变)。点击html即可查看报告,如Pic13所示。
五、基因表达集生成器
将修改好的“exprsmatrix.csv"文件放matrix*;将“pDatamatrix.csv "文件放入pData*中,根据需要填写保存名称,运行即可,如Pic14。
运行结束生成一个新的RData文件及报告等,如Pic15。
点击html 查看报告,如Pic16。
六、芯片数据预处理
在预处理模块选择“芯片数据预处理”,将新生成的.RData文件放入eSetPath*,在platform*处选择相应平台,groupName*处填入分组列的列名称(一般取名为groups),点击运行,如Pic17。
运行结束会生成新的RData文件及报告,如Pic18所示。
七、表达集取子集
对照组中除了一直吸烟与从不吸烟外还有其他的,所以要进行表达集取子集这一步骤,就是把对照组拿出来做分析,点击表达集取子集后,把上一步中的.RData输入 eSetPath* ,在 groupnames 中写上取子集的名称,用逗号隔开,点击运行,生成了新的 .RData,如Pic19。
生成了新的.RData,如Pic20。
八、差异基因分析
1、按照提示输入,inputset*中输入上一步的.RData,logFC*和pvalue*是阈值,可以调节这两部分来得到差异基因的数量,输入完后,点击运行,如Pic21。
2、,就可以生成html ,点击html就可以查看报告,如Pic22。
九、查看报告结果
报告中显示共筛选出差异较大的表达基因37个,在这个平台的 基因搜索模块 对比较有代表性的几个基因进行了搜索,可以看到基因的基本信息、基因在染色体的位置、基因表达等,其中还包括基因的相关疾病,如下图所示,每个基因下面都有几个疾病名称,通过疾病名称我们可以知道该基因导致哪种疾病。如下图所示。
比如搜索FGG基因,可以看到FGG基因可以导致瘢痕瘤、静脉血栓栓塞等与肺癌相关的疾病,并且FGG基因还与其他癌症有关;TYRP1基因可以导致腺癌、肺肿瘤、恶性黑素瘤等疾病;IYD基因可以导致甲状腺机能减退、急性焦虑症、地方性呆小病等疾病;CYP3A5基因可以导致肾病、血栓症、肝硬化、神经中毒综合征等疾病;CCL20基因可以导致肺炎、溃疡性结肠炎、结肠肿瘤、糖尿病等;CYP24A1基因可以导致肺肿瘤、肾功能不全、前列腺恶性肿瘤等。
由此可得到吸烟不仅有得肺癌的可能,还有得其他癌症的可能性。
关注微信订阅号,实时查看信息,关注医学生物学动态。