30G的芯片数据怎么下载呢
最近接到学徒求助,在广州,导师给了她分析cnv芯片的任务,调研文献发现,数据集很可怕,30G的芯片数据感觉下到猴年马月都不一定能成功!
我很少在中国大陆真正的下载数据并且处理,我打开https://www.ncbi.nlm.nih.gov/geo/query/acc.cgi?acc=GSE60607 发现的确是很大,通常呢,如果是表达矩阵,我会建议大家直接处理即可,忽略掉原始芯片数据。但是这个SNP6.0的CNV芯片不太一样,其实即使我为她下载了原始数据,基本上也很难教会其使用MATLAB去处理它!

如果你直接使用浏览器,下载,会发现,经常就会失败!

如果你听完我B站的GEO课,就知道,可以使用FTP服务器找到链接后下载:
ftp://ftp.ncbi.nlm.nih.gov/geo/series/GSE60nnn/GSE60607/suppl/

有了链接, 如你是在海外,通常是下载速度10M/S已经绰绰有余,如果你是在中国大陆,可以尝试迅雷等下载神器。

因为我的确不熟悉中国大陆的下载方式,所以希望粉丝们可以帮忙看看!欢迎留言推举你喜欢的下载工具哦!
另外,号召学徒们都要向九月份杨胖子学习:
号外:生信技能树全国巡讲11月在福州和上海,点击了解报名哈:(福州、上海见!)全国巡讲第19-20站(生信入门课加量不加价)
如果你处理的并不是像这个学徒的CNV芯片,是常规的表达芯片,可以看公共数据库挖掘系列推文 ;
然后看B站的GEO数据挖掘技巧,基本上该分享的都在B站和GitHub了,目录如下:
第一讲:GEO,表达芯片与R
第二讲:从GEO下载数据得到表达量矩阵
第三讲:对表达量矩阵用GSEA软件做分析
第四讲:根据分组信息做差异分析
第五讲:对差异基因结果做GO/KEGG超几何分布检验富集分析
第六讲:指定基因分组boxplot指定基因list画热图
第七讲:根据差异基因list获取string数据库的PPI网络数据
第八讲:PPI网络数据用R或者cytoscape画网络图
第九讲:网络图的子网络获取
第十讲:hug genes如何找