我的视频你应该这样听-附优秀听课笔记
jimmy
生信技能树联盟创始人
收到了一份优秀的听课笔记,马不停蹄的分享给大伙!
希望其他粉丝也是同样的认真好学!
视频在B站:https://www.bilibili.com/video/av28813815
基础命名
基础知识:cd -, cd .. , cd -, history, !5 , /home/ , /tmp/ , >,&,jobs,nohup 1,2,0
文件目录操作:ls,cd,pwd,mkdir,rm,mv,cp,touch,head,tail,less,more
系统管理: df,du,top,free,ps,ipconfig,netstat,ssh,scp,
用户权限:chown,chgrp,groups,ls
文本操作:awk,grep,sed,paste,cat,diff,wc,vi
ps:个人觉得根据全称记这些命名比较方便比如ls:list(列出目录内容),cd:Change Directory(改变目录),rm:Remove(删除目录或文件),参考资料linux 命令英文全称
man + 命令相当于help函数可以看帮助文档(git里面无法使用)
https://www.cnblogs.com/gaojun/p/3359355.html linux常用命名的教学
最重要的就是cd,ls,pwd,mkdir,rm,>会这几个基本的数据处理问题就不大了
文本操作
cat,less,more,head查看文件
创建文件 vi
| 管道 >定向
grep,awk,sed传说中的三驾马车
根据这个资料好好学习,极大提升工作效率重要参考资料linux命令行文本操作一文就够这个也还不错linux系统三大文本处理工具grep、sed及awk的简单介绍
环境变量
/bin目录下存放很多系统命令,如ls,可能会奇怪,为什么我们执行/bin/ls,不过输入ls也可以运行而不是提示找不到命令呢?这就是环境变量PATH的帮助。在里为取值符,PATH即为取出环境变量PATH的。
参考资料:https://www.cnblogs.com/qiuhong10/p/7815943.html
软件安装
最早接触这个的时候简直满满的泪呀,因为最开始是想分析Hi-c的数据接触这个linux,安装HIC-pro的出了一堆问题,各种百度谷歌,还写了封email问HIC-pro的作者陈博士,简直惭愧,这里介绍的还是比较详细,推荐搭配生信必修课之软件安装配合食用效果更佳,尤其是现在有conda真方便
推荐两篇conda的学习资料conda与bioconda解决生信软件安装困扰以及建明老大的,但是排版有点凌乱用Miniconda,Bioconda来安装常见的生物信息学软件
常用软件直接抄代码生物信息学常见1000个软件的安装代码
Shell脚本编程
这个会了后感觉工作效率大大提高,再也不用每次一个命令一个命令的敲了,建议视频里面的每个专有名词都去百度下,收益匪浅
Shell十三问
变量
通配符
头文件:在每个脚本的开头都使用”#!”,这意味着告诉你的系统这个文件的执行需要指定一个解释器,一般是#!/bin/sh
循环 while,for
标准输出,标准误输出(1,2,>):https://www.cnblogs.com/emanlee/p/5375496.html
Linux考试答案和涉及的知识点
一、在任意文件夹下面创建形如 1/2/3/4/5/6/7/8/9 格式的文件夹系列。
二、在创建好的文件夹下面,比如我的是 /Users/jimmy/tmp/1/2/3/4/5/6/7/8/9 ,里面创建文本文件 me.txt
三、在文本文件 me.txt 里面输入内容:
Go to: http://www.biotrainee.com/
I love bioinfomatics.
And you ?
四,删除上面创建的文件夹 1/2/3/4/5/6/7/8/9 及文本文件 me.txt
涉及的知识
mkdir -p 1/2/3/4/5/6/7/8/9
touch 1/2/3/4/5/6/7/8/9/me.txt
vi me.txt
rm -rf 1/
五、在任意文件夹下面创建 folder1~5这5个文件夹,然后每个文件夹下面继续创建 folder1~5这5个文件夹,效果如下:
六、在第五题创建的每一个文件夹下面都 创建第二题文本文件 me.txt ,内容也要一样。
七,再次删除掉前面几个步骤建立的文件夹及文件
涉及的知识
mkdir -p folder{1..5}/folder{1..5}
touch me.txt
vi me.txt
echo */* | xargs -n 1 cp -v me.txt
rm -rf *
八、下载 http://www.biotrainee.com/jmzeng/igv/test.bed 文件,后在里面选择含有 H3K4me3 的那一行是第几行,该文件总共有几行。
wget http://www.biotrainee.com/jmzeng/igv/test.bed
sed -n 'H3K4me3'
wc -l *
九、下载 http://www.biotrainee.com/jmzeng/rmDuplicate.zip 文件,并且解压,查看里面的文件夹结构
涉及的知识
wget http://www.biotrainee.com/jmzeng/rmDuplicate.zip
tar zxvf *
ls *
十、打开第九题解压的文件,进入 rmDuplicate/samtools/single 文件夹里面,查看后缀为 .sam 的文件,搞清楚 生物信息学里面的SAM/BAM 定义是什么。
涉及的知识
十一、安装 samtools 软件
涉及的知识
sudo apt-get install samtools
十二、打开 后缀为BAM 的文件,找到产生该文件的命令。
十三题、根据上面的命令,找到我使用的参考基因组 /home/jianmingzeng/reference/index/bowtie/hg38 具体有多少条染色体。
十四题、上面的后缀为BAM 的文件的第二列,只有 0 和 16 两个数字,用 cut/sort/uniq等命令统计它们的个数。
十五题、重新打开 rmDuplicate/samtools/paired 文件夹下面的后缀为BAM 的文件,再次查看第二列,并且统计
涉及的知识
samtools view -H *.sorted.bam
samtools view -H *.sorted.bam|awk 'print {$2}'| grep "chr"|sort|uniq -c|grep -v "_"|wc -l
samtools view -H *.sorted.bam|cut -f 2|sort|uniq -c
十六题、下载 http://www.biotrainee.com/jmzeng/sickle/sickle-results.zip 文件,并且解压,查看里面的文件夹结构, 这个文件有2.3M,注意留心下载时间及下载速度。
十七题、解压 sickle-results/single_tmp_fastqc.zip 文件,并且进入解压后的文件夹,找到 fastqc_data.txt 文件,并且搜索该文本文件以 >>开头的有多少行?
wget http://www.biotrainee.com/jmzeng/sickle/sickle-results.zip
unzip sickle-results/single_tmp_fastqc.zip
cat fastqc_data.txt|awk '/^>>/{print $0}'|wc -l
十八题、下载 http://www.biotrainee.com/jmzeng/tmp/hg38.tss 文件,去NCBI找到TP53/BRCA1等自己感兴趣的基因对应的 refseq数据库 ID,然后找到它们的hg38.tss 文件的哪一行。
十九题、解析hg38.tss 文件,统计每条染色体的基因个数。
二十题、解析hg38.tss 文件,统计NM和NR开头的熟练,了解NM和NR开头的含义。
wget http://www.biotrainee.com/jmzeng/tmp/hg38.tss
sed -n 'TP53'
cat hg38.tss| grep "chr" |sort|uniq -c|grep -v "_"
cat hg38.tss| grep "NM" |sort|uniq -c|grep -v "_"
学习心得
最开始是实用主义者,在没学习linux的情况下,直接给电脑装了一个centos,直接就跑RNA-seq的流程,一遍查一遍跑,跌跌撞撞居然会用了,然后开始看鸟哥的私房菜,感觉很系统但是太长了,到现在也没完整的看一遍,每次遇见问题除了百度就是查下鸟哥,感觉更像字典而不是教材,最近看生信技能树出了linux视频,就一边重新学习一边整理了下,开始和师弟一起听得,感觉对我这种有点基础的真是受益匪浅,师弟这种0基础的常常一脸懵逼,毕竟很多零基础的ubuntu,centos都很难分清,可以参看学习这个基础知识linux基础知识,完全0基础建议还是看看培训班或者鸟哥的视频在来这里感觉会学的很快,然后在结合后面的练习题或者自己RNA-SEQ,CHIP-seq的流程练手,估计很快就能熟悉了。自己的awk,sed用的也很差,这里的知识太多,不过jimmy总结的规律很有用
学习问题
视频的顺序,感觉有些混乱,比如P1-P4已经开始设计linux的基本命名,P5又重新介绍。建议把背景和软件安装以及资料放在前面几个视频
视频P6是用mac演示,windows新手估计不会很懂,ssh是mac里面链接服务器的,windows链接可以参考这个教程https://jingyan.baidu.com/article/3aed632e2b68da70108091d2.html
环境变量个人觉得应该放到软件安装之前,因为软件安装会涉及环境变量
视频中的PPT和讲义如果能在视频简介里放个百度云下载地址,或者给一个获取渠道就很好了,很多时候想做个笔记,只有截图包村
Shell编程的时候,特殊变量$0-9感觉讲的不是很清楚,可以参考shell编程学习笔记之特殊变量
其他学习资料
马哥:链接:https://pan.baidu.com/s/1MAkqVu5Z8WQm8aiPObFyCw 密码:xdgv
兄弟连:链接:https://pan.baidu.com/s/1udQPv8tsYP2p7xXMpO7s6Q 密码:7n73
/End.
点击了文末的阅读原文链接直达作者博客主页,畅游文中的各种超链接!