基因云馆新一代信息数据库

知识决定起点,智慧带来突破,欢迎使用新一代生物学、医学数据库。

云馆首页 > 资讯文章 > 相关简介 > 文章详情

GEO数据库搜索不到数据怎么办?

来源/作者:基因云馆   发表时间:2017-07-16 02:21:39  
分享到:   

GEO数据库搜索不到数据怎么办?

 

作为一名新手,我给大家介绍一下在基因云馆分析平台上的心得和方法。既然登录到这个平台,我们最先想到的是快速找到数据,分析后得到满意结果,GEO这么大的数据库,总是令我们这些新手失望怎么办?

下面我就拿GSE21510做个例子,带你步入正题。

1.登录系统数据库查找数据

IMG_256

您和我一样很失望,怎么没有?(不过有时也能查到,但不是精确查找,我是做过多次了。)那我们就换个网址试试http://www.ebi.ac.uk/arrayexpress/

 

IMG_256

2.下载数据和记下平台信用号

IMG_256

所谓平台信用号就是Array(1)后面的信息Human Genome U133 plus 2.0,这个很关键后面预处理时要用。另外,下载自己想要的数据了(记住Processed data(1)对应的才是真正需要的数据)。IMG_256

下载后,打开看看,如果是多个文件包一起的,可以安全使用,像这样:

IMG_256

如果是这样的情况:比较危险(下次单独讲,处理起来很繁琐)。

IMG_256

3.登录genelibs分析平台进入数据库选择ArrayExpress数据库检索处理

IMG_256

输入数据号,点击运行,不过下个过程等待时间比较长,半个小时到一个小时出结果(甚至更久),要有耐心,这么大的数据,真是累死电脑了。

IMG_256

检索结果显示如图:

 

IMG_256

保存第一个、第二个和第三个文件。第一个文件E-GEOD-2510.RData用来下部芯片预处理,第二个文件 E-GEOD-21510pData.csv帮助你找分组信息,第三个文件是一个检索报告,介绍了样品个数和对应表达值。

4.数据预处理---芯片数据预处理

这步处理帮你把探针信息转化成基因名。

IMG_256

上传上步处理结果E-GEOD-2510.RData文件,platform里面的平台号和第2步操作里Array(1)后面的信息Human Genome U133 plus 2.0信息一致,不然还是没办法处理数据,这个很重要,目前,genelibs分析系统上只有19个平台信用号。当然,groupName这栏信息也很重要,打开E-GEOD-21510pData.csv文件,找到相关分组信息(一般是两个明显的处理信息),如图:

IMG_256

点击运行后:

IMG_256

还是漫长的等待呀!(大约半小时)

结果出来啦,是不是很高兴!

IMG_256

当然没有完,打开PREPROCESS_GENE.html文件,看看是不是自己需要的结果,再保存E-GEOD-21510.RData文件。

IMG_256

结果完美,是我想要的了,如此保存结果。然后才真正开始在genelibs系统里进行分析处理,我们所做的这些都是数据的前处理,仅仅为了给计算机两个指令表达量和分组信息,其余都是计算机的活了。

说这么多,是不是操作起来也挺简单!

 


联系方式

山东省济南市 高新区 崇华路359号 三庆世纪财富中心C1115室

电话: 0531-88819269

E-mail: product@genelibs.com

微信公众号

关注微信订阅号,实时查看信息,关注医学生物学动态。