生信技巧第3课-请你务必学好R语言
长期更新列表:
本期视频,学会R语言,方便你我他~~~
为什么需要学习R语言呢?
可能是想画一个热图
或是想做GEO芯片数据分析
也可以说是各种统计分析(比如生存分析,差异分析,lasso回归)
各种搜索渠道
https://biotree.ke.qq.com/
http://study.163.com/
百度云资料
了解并安装R
安装包 install.packages(" xxxxxx ")
加载包 library( xxxxx )
查看包的帮助文档help("xxxxx") 或?xxxxx
获取当前工作区间getwd() 更改工作区间
setwd( "xxxxxx")
清除当前对象rm()
安装包你一定会遇到错误,请参考: R包终极解决方案!(http://www.biotrainee.com/thread-144-1-1.html)
R的包(package)(http://www.bio-info-trainee.com/579.html)
下载R语言的软件: https://cran.r-project.org/bin/windows/base/
下载Rstudio这个R编辑器: https://www.rstudio.com/products/rstudio/download/
安装一些必要的包,了解CRAN和bioconductor
理解R语言与Excel表格在数据处理的异同点
重中之重!!!
明白R中的变量
向量和因子:向量特简单,没什么好说的,因子太复杂了,我说不清楚,你们慢慢理解。
数据框:就像我们的表格,第一行就是每一列的名字,我们称之为字段,或者变量名。那么对应每列下面的数据就叫做记录或者观测。用data.frame( 字段1,字段2,…. )创建 )
列表:与数据框类似,区别就是每一列向量类型和长度可以不一致。用list( 字段1, 字段2,….. )创建
数组:其形式就像我们玩的模方,每一个面都是一个矩阵数据,用array(数据,各维度的最大值,各维度的名称)
了解变量的基础操作函数
str,class,names,row.names,col.names,length,unique,view,min,max,summay,table
我们处理生物信息学数据一般很少会手动创建这些对象,都是从文本里面读取,比如kegg数据库文件,差异分析结果,RNA-seq的表达量矩阵,但是读入之后,我们的重点就是知道它们变成了什么,该如何去一步步的转换它们。
变量怎么来,对它们处理什么?
数据的特性函数也必须要知道,无非就是一些英文单词而已,你经常的玩一下,就慢慢的熟练了。
数据对象的高级操作
前面我们对向量,数据框,数组,列表都了解了,也知道如何查看数据的特性,但是要进行高级转换,就需要一些时间来学习apply系列函数,aggregate,split等函数的用法。这是一个分水岭,用好了你就算是R入门了。也可以用一些包,比如reshape2,dplyr。
当然,R里面的字符串对象是另外完全不一样的操作模式,建议大家自行搜索学习。
高级分支
统计学
可视化
bioconductor与生物信息学
shiny与网页