每月一生信流程之RNAseq123

目前bioconductor社区有27个流程,早在2015/2016年我组织生信菜鸟团小伙伴建设bioconductor中文社区的时候就想系统性的学习和分享,一晃四五年过去了, 我们的bioconductor中文社区只有一个空荡荡的主页,我自己的几个笔记而已,很可惜没有能坚持下去,不过现在有数十万粉丝了,这些资料必须得强推给大家,系统性学习生物信息学的宝藏资源!

全部bioconductor流程链接在;http://www.bioconductor.org/packages/release/BiocViews.html#___GeneExpressionWorkflow

目前的27个流程,已经分门别类的整理好了,我们每个月学一个流程,预计两年就可以成为生物信息学领域的全栈工程师啦!

image-20191104223655680

今天学习RNAseq123

我们首先看看转录组领域的基因表达相关流程吧,首先一起学习 RNA-seq analysis is easy as 1-2-3  的是:http://www.bioconductor.org/packages/release/workflows/html/RNAseq123.html  实际上就是使用常见的RNA-seq差异分析包,从头到尾走流程熟悉转录组数据分析的基本知识,让我意外的是,居然是有中文版教程,实在是不能太友好了!

HTML    R Script    RNA-seq analysis is easy as 1-2-3 with limma, Glimma and edgeR (Chinese version)
HTML    R Script    RNA-seq analysis is easy as 1-2-3 with limma, Glimma and edgeR (English version)

可能是因为作者里面有不少中国人吧!

R package that supports the F1000Research workflow article on RNA-seq analysis using limma, Glimma and edgeR by Law et al. (2016).
Author: Charity Law, Monther Alhamdoosh, Shian Su, Xueyi Dong, Luyi Tian, Gordon Smyth and Matthew Ritchie

在R里面安装这个bioconductor流程

if (!requireNamespace("BiocManager", quietly = TRUE))
    install.packages("BiocManager")

BiocManager::install("RNAseq123")

因为是有中文的,我就不拷贝粘贴了,大家直接去阅读即可:

  • 使用limma、Glimma和edgeR,RNA-seq数据分析易如反掌

  • http://www.bioconductor.org/packages/release/workflows/vignettes/RNAseq123/inst/doc/limmaWorkflow_CHN.html

全部目录如下;

  • 1 摘要

  • 2 背景介绍

  • 3 初始配置

  • 4 数据整合

  • 4.1 读入计数数据

  • 4.2 组织样品信息

  • 4.3 组织基因注释

  • 5 数据预处理

  • 5.1 原始数据尺度转换

  • 5.2 删除低表达基因

  • 5.3 归一化基因表达分布

  • 5.4 对样本的无监督聚类

  • 6 差异表达分析

  • 6.1 创建设计矩阵和对比

  • 6.2 从表达计数数据中删除异方差

  • 6.3 拟合线性模型以进行比较

  • 6.4 检查DE基因数量

  • 6.5 从上到下检查单个DE基因

  • 6.6 差异表达结果的实用图形表示

  • 7 使用camera的基因集检验

  • 8 使用到的软件和代码

学习这样的流程是需要一定背景知识的

首先是LINUX学习

我在《生信分析人员如何系统入门Linux(2019更新版)》把Linux的学习过程分成6个阶段 ,提到过每个阶段都需要至少一天以上的学习:

  • 第1阶段:把linux系统玩得跟Windows或者MacOS那样的桌面操作系统一样顺畅,主要目的就是去可视化,熟悉黑白命令行界面,可以仅仅以键盘交互模式完成常规文件夹及文件管理工作。

  • 第2阶段:做到文本文件的表格化处理,类似于以键盘交互模式完成Excel表格的排序、计数、筛选、去冗余,查找,切割,替换,合并,补齐,熟练掌握awk,sed,grep这文本处理的三驾马车。

  • 第3阶段:元字符,通配符及shell中的各种扩展,从此linux操作不在神秘!

  • 第4阶段:高级目录管理:软硬链接,绝对路径和相对路径,环境变量

  • 第5阶段:任务提交及批处理,脚本编写解放你的双手

  • 第6阶段:软件安装及conda管理,让linux系统实用性放飞自我

然后是R学习

我在在生信分析人员如何系统入门R(2019更新版) 里面给初学者的知识点路线图如下:

  • 了解常量和变量概念

  • 加减乘除等运算(计算器)

  • 多种数据类型(数值,字符,逻辑,因子)

  • 多种数据结构(向量,矩阵,数组,数据框,列表)

  • 文件读取和写出

  • 简单统计可视化

  • 无限量函数学习

必备书籍及视频

书籍贪多不烂,下面2本必买,读5遍以上:

视频必须强推生信技能树近30万学习量的基础合辑:

生信技能树RNA相关教程节选

因为做目录确实很浪费时间,差不多就下面这些,大家先学习吧:

(0)

相关推荐

  • 综述 | Frontiers in Oncology : 不断变化的RNA测序技术及其在临床肿瘤学中的应用(国人作品)

    编译:夕夕,编辑:十九.江舜尧. 原创微文,欢迎转发转载. 导读 RNA测序(RNAseq)是生命科学领域最常用的技术之一,已广泛用于癌症研究,药物开发以及癌症诊断和预后.在各种生物学和技术问题的推动 ...

  • 3_0_4 要理解并会用的几个脚本

    这个介于3和4之间,目的是练习几个有用的脚本,学几个命令. 随便找几个文件进行练习,只是为了说明问题,这些其实是RNA-seq数据,但无所谓,只是看脚本的处理 有以下几个文件 假如现在觉得文件太大,想 ...

  • 这是你要的5+单细胞挖掘思路吗?

    导语 今天和大家分享的是今年7月份发表在Cancer Immunology, Immunotherapy 杂志(IF=5.442)上的一篇文章,"Integrated analysis of ...

  • 每月一生信流程之rnaseqDTU(差异转录本)

    每月一生信流程栏目灵感来自于<铁汉1991>博客的<每日一生信>,他那个时候介绍的主要是生信基础知识,包括数据结构,数据格式,数据库资源,计算机基础等等,所以每天都可以进步,每 ...

  • 每月一生信流程之rnaseqGene

    每月一生信流程栏目灵感来自于<铁汉1991>博客的<每日一生信>,他那个时候介绍的主要是生信基础知识,包括数据结构,数据格式,数据库资源,计算机基础等等,所以每天都可以进步,每 ...

  • 人一生要流多少眼泪,仿佛是苍天注定的更是无法逃避的

    ​2021年4月27日,晚21点左右到医院探望病人,路过急症室听到一女人一边嚎啕大哭,嘴里一边说着伤感的话,不知为什么我真想去安慰她,又怕引起她更加伤心,不经意间想到人一生要流多少眼泪,仿佛是苍天注定 ...

  • 诗词丨醉漾轻舟,信流引到花深处

    点绛唇·桃源 宋·秦观 醉漾轻舟,信流引到花深处. 尘缘相误,无计花间住. 烟水茫茫,千里斜阳暮. 山无数,乱红如雨.不记来时路. 译 文 醉酒后荡着小船,任流水引着轻舟飘向花草深处.现实世界的名利缠 ...

  • 我好恨!!!为什么没能早点看到这封信[流...

    我好恨!!!为什么没能早点看到这封信[流...

  • 西贝莜面村,以客户为中心的流程之美

    今天是周末,去西贝,用餐流程又简化了.一直有一个梦想...有时间的时候,我要整理开发一个餐厅的流程故事.扯远了,先说说今天感受到的西贝流程之美吧. 一.沙漏,背后是端到端流程绩效管理能力 说到餐厅行业 ...

  • 检测bam文件的完整度-流程之殇

    本来以为有bai文件就说明是流程运行是完整的,事实上我还是太年轻,最近处理一个 600个病人的肿瘤WES数据,走流程过程发现卡在CNVKIT,部分样本出现了:   File "pysam/l ...

  • 可变剪切流程之suppa的diffsplice太慢了

    我们发布了转录组产品线的一些服务,连接生信技能树粉丝群体的数据分析工程师和有数据分析的科研人员: 明码标价之转录组常规测序服务(仅需799每个样品) 明码标价之普通转录组上游分析 明码标价之转录组下游 ...

  • 如信流鼻血要仰头止血民间几大偏方会害了宝宝!

    多多今年一岁半,平时由奶奶照顾.不久前刚学会走路,多多揉着奶奶的时间去卫生间,跑到饮水机前玩.不小心碰到热水开关时,多多的左臂被热水烫伤.李奶奶立即找到牙膏抹在多多的手上.半个多小时后,她发现多多的手 ...