我的视频你应该这样听-附优秀听课笔记

jimmy

生信技能树联盟创始人

收到了一份优秀的听课笔记,马不停蹄的分享给大伙!

希望其他粉丝也是同样的认真好学!

视频在B站:https://www.bilibili.com/video/av28813815

基础命名

基础知识:cd -, cd .. , cd -, history, !5 , /home/ , /tmp/ , >,&,jobs,nohup 1,2,0 
文件目录操作:ls,cd,pwd,mkdir,rm,mv,cp,touch,head,tail,less,more 
系统管理: df,du,top,free,ps,ipconfig,netstat,ssh,scp, 
用户权限:chown,chgrp,groups,ls 
文本操作:awk,grep,sed,paste,cat,diff,wc,vi

Alt text
  • ps:个人觉得根据全称记这些命名比较方便比如ls:list(列出目录内容),cd:Change Directory(改变目录),rm:Remove(删除目录或文件),参考资料linux 命令英文全称

  • man + 命令相当于help函数可以看帮助文档(git里面无法使用)

  • https://www.cnblogs.com/gaojun/p/3359355.html linux常用命名的教学

  • 最重要的就是cd,ls,pwd,mkdir,rm,>会这几个基本的数据处理问题就不大了

文本操作

  • cat,less,more,head查看文件

  • 创建文件 vi

  • | 管道 >定向

  • grep,awk,sed传说中的三驾马车 
    根据这个资料好好学习,极大提升工作效率重要参考资料linux命令行文本操作一文就够这个也还不错linux系统三大文本处理工具grep、sed及awk的简单介绍

环境变量

/bin目录下存放很多系统命令,如ls,可能会奇怪,为什么我们执行/bin/ls,不过输入ls也可以运行而不是提示找不到命令呢?这就是环境变量PATH的帮助。在里为取值符,PATH即为取出环境变量PATH的。 
参考资料:https://www.cnblogs.com/qiuhong10/p/7815943.html

软件安装

最早接触这个的时候简直满满的泪呀,因为最开始是想分析Hi-c的数据接触这个linux,安装HIC-pro的出了一堆问题,各种百度谷歌,还写了封email问HIC-pro的作者陈博士,简直惭愧,这里介绍的还是比较详细,推荐搭配生信必修课之软件安装配合食用效果更佳,尤其是现在有conda真方便

  • 推荐两篇conda的学习资料conda与bioconda解决生信软件安装困扰以及建明老大的,但是排版有点凌乱用Miniconda,Bioconda来安装常见的生物信息学软件

  • 常用软件直接抄代码生物信息学常见1000个软件的安装代码

Shell脚本编程

这个会了后感觉工作效率大大提高,再也不用每次一个命令一个命令的敲了,建议视频里面的每个专有名词都去百度下,收益匪浅

  • Shell十三问

  • 变量

  • 通配符

  • 头文件:在每个脚本的开头都使用”#!”,这意味着告诉你的系统这个文件的执行需要指定一个解释器,一般是#!/bin/sh

  • 循环 while,for

  • 标准输出,标准误输出(1,2,>):https://www.cnblogs.com/emanlee/p/5375496.html

Linux考试答案和涉及的知识点

一、在任意文件夹下面创建形如 1/2/3/4/5/6/7/8/9 格式的文件夹系列。

二、在创建好的文件夹下面,比如我的是 /Users/jimmy/tmp/1/2/3/4/5/6/7/8/9 ,里面创建文本文件 me.txt

三、在文本文件 me.txt 里面输入内容: 
Go to: http://www.biotrainee.com/ 
I love bioinfomatics. 
And you ?

四,删除上面创建的文件夹 1/2/3/4/5/6/7/8/9 及文本文件 me.txt 
涉及的知识

mkdir -p 1/2/3/4/5/6/7/8/9

touch 1/2/3/4/5/6/7/8/9/me.txt

vi me.txt

rm -rf 1/

五、在任意文件夹下面创建 folder1~5这5个文件夹,然后每个文件夹下面继续创建 folder1~5这5个文件夹,效果如下: 
六、在第五题创建的每一个文件夹下面都 创建第二题文本文件 me.txt ,内容也要一样。 
七,再次删除掉前面几个步骤建立的文件夹及文件 
涉及的知识

mkdir -p folder{1..5}/folder{1..5}

touch me.txt

vi me.txt

echo */* | xargs -n 1 cp -v me.txt

rm -rf *

八、下载 http://www.biotrainee.com/jmzeng/igv/test.bed 文件,后在里面选择含有 H3K4me3 的那一行是第几行,该文件总共有几行。

wget http://www.biotrainee.com/jmzeng/igv/test.bed

sed -n 'H3K4me3'

wc -l *

九、下载 http://www.biotrainee.com/jmzeng/rmDuplicate.zip 文件,并且解压,查看里面的文件夹结构 
涉及的知识

wget http://www.biotrainee.com/jmzeng/rmDuplicate.zip

tar zxvf *

ls *

十、打开第九题解压的文件,进入 rmDuplicate/samtools/single 文件夹里面,查看后缀为 .sam 的文件,搞清楚 生物信息学里面的SAM/BAM 定义是什么。 
涉及的知识

十一、安装 samtools 软件 
涉及的知识

sudo apt-get install samtools

十二、打开 后缀为BAM 的文件,找到产生该文件的命令。 
十三题、根据上面的命令,找到我使用的参考基因组 /home/jianmingzeng/reference/index/bowtie/hg38 具体有多少条染色体。 
十四题、上面的后缀为BAM 的文件的第二列,只有 0 和 16 两个数字,用 cut/sort/uniq等命令统计它们的个数。 
十五题、重新打开 rmDuplicate/samtools/paired 文件夹下面的后缀为BAM 的文件,再次查看第二列,并且统计 
涉及的知识

samtools view -H *.sorted.bam

samtools view -H *.sorted.bam|awk 'print {$2}'| grep "chr"|sort|uniq -c|grep -v "_"|wc -l

samtools view -H *.sorted.bam|cut -f 2|sort|uniq -c

十六题、下载 http://www.biotrainee.com/jmzeng/sickle/sickle-results.zip 文件,并且解压,查看里面的文件夹结构, 这个文件有2.3M,注意留心下载时间及下载速度。 
十七题、解压 sickle-results/single_tmp_fastqc.zip 文件,并且进入解压后的文件夹,找到 fastqc_data.txt 文件,并且搜索该文本文件以 >>开头的有多少行?

wget http://www.biotrainee.com/jmzeng/sickle/sickle-results.zip

unzip sickle-results/single_tmp_fastqc.zip

cat fastqc_data.txt|awk '/^>>/{print $0}'|wc -l

十八题、下载 http://www.biotrainee.com/jmzeng/tmp/hg38.tss 文件,去NCBI找到TP53/BRCA1等自己感兴趣的基因对应的 refseq数据库 ID,然后找到它们的hg38.tss 文件的哪一行。 
十九题、解析hg38.tss 文件,统计每条染色体的基因个数。 
二十题、解析hg38.tss 文件,统计NM和NR开头的熟练,了解NM和NR开头的含义。

wget http://www.biotrainee.com/jmzeng/tmp/hg38.tss

sed -n 'TP53'

cat hg38.tss| grep "chr" |sort|uniq -c|grep -v "_"

cat hg38.tss| grep "NM" |sort|uniq -c|grep -v "_"

学习心得

最开始是实用主义者,在没学习linux的情况下,直接给电脑装了一个centos,直接就跑RNA-seq的流程,一遍查一遍跑,跌跌撞撞居然会用了,然后开始看鸟哥的私房菜,感觉很系统但是太长了,到现在也没完整的看一遍,每次遇见问题除了百度就是查下鸟哥,感觉更像字典而不是教材,最近看生信技能树出了linux视频,就一边重新学习一边整理了下,开始和师弟一起听得,感觉对我这种有点基础的真是受益匪浅,师弟这种0基础的常常一脸懵逼,毕竟很多零基础的ubuntu,centos都很难分清,可以参看学习这个基础知识linux基础知识,完全0基础建议还是看看培训班或者鸟哥的视频在来这里感觉会学的很快,然后在结合后面的练习题或者自己RNA-SEQ,CHIP-seq的流程练手,估计很快就能熟悉了。自己的awk,sed用的也很差,这里的知识太多,不过jimmy总结的规律很有用

学习问题

  • 视频的顺序,感觉有些混乱,比如P1-P4已经开始设计linux的基本命名,P5又重新介绍。建议把背景和软件安装以及资料放在前面几个视频

  • 视频P6是用mac演示,windows新手估计不会很懂,ssh是mac里面链接服务器的,windows链接可以参考这个教程https://jingyan.baidu.com/article/3aed632e2b68da70108091d2.html

  • 环境变量个人觉得应该放到软件安装之前,因为软件安装会涉及环境变量

  • 视频中的PPT和讲义如果能在视频简介里放个百度云下载地址,或者给一个获取渠道就很好了,很多时候想做个笔记,只有截图包村

  • Shell编程的时候,特殊变量$0-9感觉讲的不是很清楚,可以参考shell编程学习笔记之特殊变量

其他学习资料

马哥:链接:https://pan.baidu.com/s/1MAkqVu5Z8WQm8aiPObFyCw 密码:xdgv

兄弟连:链接:https://pan.baidu.com/s/1udQPv8tsYP2p7xXMpO7s6Q 密码:7n73

/End.

点击了文末的阅读原文链接直达作者博客主页,畅游文中的各种超链接!

(0)

相关推荐