生信工程师入门最佳指南
先搞清楚生信工程师都在干嘛:
售前售后技术支持-偏生物医学背景知识
应用项目研发-偏编程和流程
科研热点追踪或者前沿探索-懒得评价这个
这三类生信工程师养成的侧重点不一样,我这里仅仅是列出一下共性!
友情提示,成为一个生信工程师并不是一件容易的事情,我在这条路上面走了五年了。
如果是想通过培训掌握生物信息学,那么可以参考:彻底入门生物信息学,可能需要12天! 推文介绍的。
必学linux
在生信技能树公众号后台回复马哥,可以下载全套马哥linux视频,先看外面的导读了解linux的用法。
然后抽时间把马哥linux视频看完,这样就了解了linux的命令的原理。如果你每天抽两个小时,应该需要一个星期来掌握。关于生物信息学自学环境的搭建,我们生信技能树也精心制作了视频教程,课程介绍在:https://mp.weixin.qq.com/s/ZhE1gGB5IgdJoCits-Y_mg 购买链接见;https://ke.qq.com/course/310838?tuin=4926c730
需要掌握完成下面的linux考试:http://www.bio-info-trainee.com/2900.html
linux都不想花时间掌握,就别妄想成为生信工程师了,没有意义
重点:
(去可视化概念+练习) 了解 命令+参数+文件 的模式
基础知识:cd -, cd .. , cd -, history, !5 , /home/ , /tmp/ , >,&,jobs,nohup 1,2,0
文件目录操作:ls,cd,pwd,mkdir,rm,mv,cp,touch,head,tail,less,more
系统管理: df,du,top,free,ps,ipconfig,netstat,ssh,scp,
用户权限:chown,chgrp,groups,ls文本操作:awk,grep,sed,paste,cat,diff,wc,vi
可以选择使用腾讯云实验室的linux服务器:https://cloud.tencent.com/developer/labs/lab/10000 或者干脆购买一个最低配版本云服务器,应该是十块钱一个月。
参考 生物信息学常见1000个软件的安装代码! 来安装软件,至少安装100+软件,力图掌握其中的规律。
如果学完了,理论上你看下面的总结应该是有茅塞顿开的感觉。
必须熟练掌握R语言
时刻牢记学习R语言是为了分析生物信息学数据,不要跑偏了。
约翰·霍普金斯大学的Bioconductor学习课程
a Little Book of R for Bioinformatics!
比如掌握R语言后,可以在GEO数据库的海洋里遨游,那么你应该是可以看懂下面的教程:
当然,如果你耗费了四五个小时都没办法搞懂我的GitHub代码啥意思,或者无法重复,说明你急需视频指导哦,先看完视频讲解,学习后就可以完成这个项目流程啦,还等什么呢?购买链接: https://mp.weixin.qq.com/s/WrEpxq9okMPaZAm852bG0g
而我我放在GitHub的代码大全你也应该是很容易看懂:https://github.com/jmzeng1314/GEO
还有需要完成 生信人的20个R语言习题 :http://www.bio-info-trainee.com/3415.html
其它编程了解一下即可
perl和python大家都会首推python的,初学者也这样学吧, 掌握的标准是 做完 生信编程200题:
接着是组学实战:
几个转录组流程
https://f1000research.com/articles/4-1070/v1
https://f1000research.com/articles/5-1438/v1
https://www.bioconductor.org/help/workflows/rnaseqGene/
其实是需要一定时间来掌握,但是转录组已经是目前NGS组学里面最完善,最简单的流程了,从它开始容易完成,获得信息。
还有我在生信菜鸟团博客发布的实战
一个RNA-seq实战-超级简单-2小时搞定!
一个植物转录组项目的实战
建议从植物转录组开始,了解:
生信技能树»生信技能树›生信基础›测序原理-数据格式-数据库 这样你才知道你处理的转录组测序数据是如何来的,是什么。了解数据处理应该是用到的参考基因组,注释是什么。
软件需要安装好
流程要看懂,这样才能一步步运行各种软件,转换各种数据
工程师进阶
这个就五花八门了,比如肿瘤外显子,单细胞转录组等等,就不一一罗列,希望看到此推文的小朋友先入门哈。
生信技能树有的是教程等着你学习。