人类全外显子测序数据分析视频教程学习笔记
耗费半年的时间精心制作了成套的生物信息学入门视频教程,并且在生信技能树联盟平台发布了这个长达74个小时全套生物信息学入门视频:生信技能树视频课程学习路径,这么好的视频还免费!
在B站看了看,大家学的热火朝天, 接下来我们就一个个知识点进行专题介绍,主要是一些优秀学生的笔记分享,希望大家在学习的过程中也能吸收到我传达的学习经验,人生感悟,只要你发给我笔记(邮箱 JMZENG1314@163.COM),就有惊喜!
【生信技能树】全外显子测序数据分析
下面是笔记正文
惊闻Jimmy的视频开拍,不,重新剪辑,便到B站当了次潜水观众。
发现很奇怪的一个地方:其它教学视频观看次数都已经以万为统计单位了,而外显子分析的播放量腰折了似的。
更有趣的是当初这个视频公布的推文浏览量居然比视频播放量要高!
于是拖拖拉拉看完了前前后后两百多分钟的视频,总的感受是:
“卧槽,为何我现在才看到这般用心的教学视频!”
因为很多地方都是自己当初摸索时遇过的坑,像是BWA 比对要加 -R 参数,面对一大堆样本如何省时省力处理等等小枝节,遗憾当初没有及时看到,浪费了不少时间。
至于为啥说用心呢,是因为看之前我以为会是GATK PPT + best practice 讲解一遍即可,看完后发现这是手把手、甚至是哺乳式的新手教学啊!
从综述、结题报告入手了解技术,然后提炼分析主干,还有最后的应用实战,真正体现了 Talk is cheap, show me the code。
还有现场教报错调试,任何单纯把调试好的代码贴出来看结果的都不能叫教学,有了报错处理,才算完整的教学啊!
因为之前已经学过GATK,所以这次算是温故而知新。
最让我获益的是 P-15 这一节所强调的质控;毕竟只有详细质控才能清楚项目结果是否可靠。算是对自己一个提醒。
当然其余小节也让我很有收获; 比如
想认真学习一门技术第一步是什么?直接上网搜索教程?当然很快速,可是没有学习的饱满感啊,万一要学的东西还没完备的教程资料呢。
那么让我们用对待科研的态度来准备吧!
通过挑选技术诞生以来的综述文章,读文章知天下,了解技术的前生今世,应用优缺和发展现状。
说到应用,我们也可以看看产业界的情况嘛,所以各家公司的结题报告也是一个很好的资料来源,至少知道自己要做到什么地步才能跟上时代的脚步👣 。
这一节给我印象很大,因为没看视频前,还真的没有专门关注结题报告
上手实践,敲键盘的事情,首先要准备环境、软件、数据的。而既然用开源社区的软件,既然用python,那么就得面对多种环境、同一软体的不同版本。这点觉悟少不了。所以P4用了20分钟具体演示操作,如何用conda便利管理多种环境,安装分析软件。
conda 确实很便利,奈何我已经先入为主,习惯了 virtualenv +pip了。(其实也差不多啦),但用windows的话,还是conda吧,不要把时间浪费在没意义的地方。
GATK步骤繁杂还耗时,那么如果想快速看下差异咋办呢,P8 顺利成章就要解决这个问题,手把手带你走下较为简单的 bcftools calling 流程。想再快点看下结果?那就直接看关心的基因情况吧。
这一节的干货非常实用,看完后,我决定下次再做变异分析,就先这样快速看下结果有没亮点
可是对人的变异检测当然不能随意,所以继续看了【P9-P14】;完整的一个GATK 4 找突变流程实战,包括了从PCR 去重复到碱基质量重新校正到HC找突变、过滤和突变可视化。
GATK作为目前的主流流程,这5节视频给新手提供了很全面的认识和体验。
而作为最后的处理, 对变异结果VCF文件的注释当然不可少,常用的软件有VEP,annovar, snpEFF等,教学里介绍的是 annovar。有点小遗憾,没能看到三种软件的比较。虽然网上有Golden Helix博客比较了VEP,annovar 和 snpEFF,但annovar的作者认为前者的比较结果并不准确,所以一直想看看这三者的差别大不大。
小小建议
貌似视频里 annovar 注释这节有个地方感觉不妥当,关于执行perl脚本什么时候加perl 什么时候不加perl,视频说的是“如果改了权限777,就不加perl了“。
但准确来说;这取决于脚本头部第一行注释是否指定了以何种可执行程序来运行脚本,至于是否被允许执行,才看用户权限。另外对于权限的设置,尤其在多用户的操作系统上,一般不会设到777,因为开放所有权限后,没法保障别人会否对脚步做些小变动,甚至误删数据。带来安全隐患。一般设到755,可以参考可写就不可执行,可执行就不可写的原则。
明明很赞的教学视频,却通常是这样的状态:
真叫人孤独😂 😂😂 😂
■ ■ ■