基因云馆新一代信息数据库

知识决定起点,智慧带来突破,欢迎使用新一代生物学、医学数据库。

云馆首页 > 资讯文章 > 信息资讯 > 文章详情

在基因云馆中探索吸烟如何引发癌症

来源/作者:Genelibs   发表时间:2016-12-07 09:16:42  
分享到:   

      最近几年肺癌患者的数目逐渐增加,造成这一结果的原因除了日益下降的空气质量外,最主要的还是人们最难戒掉的习惯——吸烟。小编也很想了解一下,吸烟真的对人身体有这么大的危害吗?身边有很多朋友吸烟已经几十年了,看着很强健,难道他们都是亚健康吗?

     小编了解到Genelibs 平台可以解开这些疑问,于是小编打算亲自去了解一下。原来在平台上得到一个想要的结果还要费点周折,首先在平台上输入与肺癌有关的数据,但让小编这个外行人来说出一个与肺癌相关的数据太难,不过听说可以在数据库中搜索到自己想要的数据,在基因云馆平台的实验库检索就行, 于是小编就先前往实验库搜索合适的数据,进入后,小编的表情是这样的,一脸懵圈,全是英文,看不懂啊!问了一个朋友,她说不用全看懂,看重点词就可以,一步步来。

1481267305470057391.png

      首先输入吸烟者的英文“smoker”进行搜索,这时会出现很多的数据,我们下一步就要筛选出自己想要的,首先物种要选择人类(“Homo sapiens”),然后就在这些数据中进行选择,这一步是比较重要的,找到一个数据,看它的种类是否为合适,一般最佳样本的数量都是在20—100之间,点进去看一下该数据有没有对照组,因为最终结果肯定会需要对照组的,所以咱选的必须要有对照的数据(看不懂的可以在百度搜索一下,小编全程都是搜索的,嘻嘻,在百度经验搜索:http://jingyan.baidu.com/article/1709ad806da6ba4634c4f0e0.html

    点进该数据会有一个Platforms ,这是平台的意思,看看这个数据的平台在Genelibs中是否可用,(Genelibs的可用平台有哪些小编可以在稍后的步骤中详细介绍一下。)再是看一下该数据有没有“Processed data”(处理后的数据) 及 “Raw data”(处理前的数据),小编只知道Processed data是必须有的,Raw data可有可无的,对于为什么Processed data是必须有的,小编认为应该是在Genelibs平台上的某一步应该能用得到它。


4.png

      

这些满足后就可以带着合适的数据去Genelibs 平台进行分析了,小编找到了一个满意的数据GSE75037。

      又一个激动人心的时刻,小编要进行分析操作了,首先登录网站:http://www.genelibs.com ,登录系统,由于初次使用,小编是先注册后登陆的,进入后左边有好多官方名词,什么差异分析、数据库、预处理等等,弄得小编一头雾水,小编问了问使用过该平台的朋友操作步骤。还好有度娘经验,按照步骤来吧。


T(G_{~BER~$$~_1UM)1QK)E.png

     

       首先要进行GEO数据库检索(这一步可以将GEO上的数据文件本地化,将其转化为Genelibs平台所用的格式,使其可以在平台上进一步的处理)输入GSE75037,下面type后面有个处理后的数据(小编终于明白前面Processed data是必须有的了),然后点击运行,这时会生成一系列的文件,这些中.RData是后期所需要的,然后点击html文件查看报告,看看报告中列名称有无空格。若有空格的话,数据信息需要更改,而且我们是要进行差异分析的,所以需要操作表达集数据信息和基因表达集生成器这一步骤。

       开始操作表达集数据信息这一步,进入后需要把本地化那一步的.RData放入,点击运行,就会生成类似第一步中的很多文件,两个.CSV是我们所需要的,下面这个小编认为也是比较难点的了,将生成的“pDatamatrix.csv”保存后根据需要进行更改(要做到:第一个csv文件的列名称与第二个csv文件的行名称对应且无空格;分组列中名称后无空格且分组名称尽量简单)修改完成后保存备用。(如PData的行名称更改,则exprsmatrix.csv的列名称也要做相应的改变)


   

}5]]TCHXWW[J30@@CFQIH$J.png


       再进行基因表达集生成器,将修改好的“exprsmatrix.csv”文件放入matrix*;“pDatamatrix.csv ”文件放入pData*中,根据需要填写保存名称,运行即可,运行结束生成一个新的RData文件及报告等。

       然后再进行芯片数据预处理(对本地化芯片数据进行预处理),在预处理模块选择“芯片数据预处理”,将新生成的RData文件放入eSetPath*,在platform*处选择相应平台,groupName*处填入分组列的列名称(一般取名为groups),点击运行,运行结束会生成新的RData文件及报告。

        由于小编开始做的是一直吸烟和从不吸烟作为对照做的分析,对照组中除了一直吸烟与从不吸烟外还有其他的,所以要进行表达集取子集这一步骤,就是把对照组拿出来做分析,点击表达集取子集后,把上一步中的.RData输入eSetPath*,在groupnames中写上取子集的名称,用逗号隔开,点击运行,生成了新的RData。

       进行最后一步的差异基因分析,按照提示输入后点击运行,就可以生成html ,点击就可以查看报告。做到这小编已用了大半天的时间了,不过最后能生成报告,真的好开心。

       

B]V(]_VID@MW7COX[AIRC7M.png


      最终需要做的就是从这个报告中来解决小编的疑问了,报告中显示共筛选出差异较大的表达基因37个,小编理解为这37个基因就应该是吸烟与不吸烟者的差异基因,小编又在这个平台的基因搜索模块对比较有代表性的几个基因进行了搜索,可以看到基因的基本信息、基因在染色体的位置、基因表达等,其中还包括基因的相关疾病,如下图所示,每个基因下面都有几个疾病名称,通过疾病名称我们可以知道该基因导致哪种疾病。


8N]_IEXBN0CPHHZNUC9JOZY.png

     

      比如搜索FGG基因,可以看到FGG基因可以导致瘢痕瘤、静脉血栓栓塞等与肺癌相关的疾病,并且FGG基因还与其他癌症有关;TYRP1基因可以导致腺癌肺肿瘤、恶性黑素瘤等疾病;IYD基因可以导致甲状腺机能减退、急性焦虑症、地方性呆小病等疾病;CYP3A5基因可以导致肾病、血栓症、肝硬化、神经中毒综合征等疾病;CCL20基因可以导致肺炎、溃疡性结肠炎、结肠肿瘤、糖尿病等;CYP24A1基因可以导致肺肿瘤、肾功能不全、前列腺恶性肿瘤等。

      由此可得到吸烟不仅有得肺癌的可能,还有得其他癌症的可能性。

      经过这个操作过程,最终得到了分析结果,解开了小编的心里疑问,让小编好开心,你们若想查一下某种疾病的影响,都可以到基因云馆平台去查奥,这个平台还是不错的。

  

      你们猜这样的分析要多少钱?

     好几千?好几万?

     NO!    NO!     NO!

     你们太out了,分析免费!!!

     小编只能感叹,这年头土豪都任性啊!

 

 

 

 

联系方式

山东省济南市 高新区 崇华路359号 三庆世纪财富中心C1115室

电话: 0531-88819269

E-mail: product@genelibs.com

微信公众号

关注微信订阅号,实时查看信息,关注医学生物学动态。