我教程的第一个外国读者

今天突然间收到了一封全英文邮件,虽然以前也有,但是前面的都是咱们华人朋友,只不过是有些时候电脑不方便打中文,所以写英文邮件罢了。但是今天的粉丝来信,确实是外国读者,他的问题是:

I'm new to bioinformatics, I came across your github and I tried to follow your steps, but some of them are outdated and some are in chinese, so I couldn't follow through your steps. I was wondering if you can help.

I'm trying to replicate this heatmap for GSE("GSE133399"), I retrieved the GSE using GEOquery package and then assigned to an object and then tried to plot a heatmap, but I was not successful, I used the following code in RStudio:

简单的说,就是使用了我的GitHub关于GEO数据挖掘代码,先分析他自己感兴趣的数据集,但是代码大片段报错,一脸懵逼!

我检查了他感兴趣的数据集,其实那个数据集是RNA-seq的,并不是表达量芯片,所以我回信:

I just check your GSE: https://www.ncbi.nlm.nih.gov/geo/query/acc.cgi?acc=GSE133399

What a pity, it’s not microarray data, so you can not download the expression matrix by : 
BiocManager::install("GEOquery")
library(GEOquery)
## change my_id to be the dataset that you want.
my_id <- "GSE133399"
gse <- getGEO(my_id)

Which didn’t work for RNA-seq project just like your GSE.

If your goal is the heatmap, you can only download the csv files like below :
GSE133399_Fig2_FPKM.csv.gz 662.1 Kb (ftp)(http) CSV
GSE133399_Fig4_FPKM.csv.gz 865.6 Kb (ftp)(http) CSV

Then read them into R , create a heatmap 

我没有去具体读那个文章, 《CD103 hi T reg cells constrain lung fibrosis induced by CD103 lo tissue-resident pathogenic CD4 T cells》. Nat Immunol 2019 Nov;20(11):1469-1480. PMID: 31591568

读者仅仅是想重复一个热图而已,估计也是想学习生物信息学吧!

 

那我就把这个需求布置成为一个学徒作业吧!

如果你还不懂RNA-seq,建议看完我的这个系列教程:理解RNA-seq表达矩阵的两个形式, 这36个教程看完,你就是大神啦!

 

学徒作业目录如下:

写在最后

完成任意学徒作业,均可发邮件给我(jmzeng1314@163.com ),再附上你的简历,可以获取惊喜大礼包,或者一些咱们生物信息学领域的上市公司,独角兽公司,头部公司的面试内推机会!

(0)

相关推荐