九万人都看不懂的视频

踩过的坑,才足够刻骨铭心!这里正好推荐一下这个九万人都没有看懂的视频:https://www.bilibili.com/video/av28813815/?p=9跑完一个RNA-SEQ项目,下意识的看了看bam文件大小,还有最后的文库统计情况,发现非常的 诡异,首先是bam文件大小就很奇特:29M Apr 29 12:15 S12.bam30M Apr 29 12:15 S1.bam35M Apr 29 12:10 S22.bam33M Apr 29 12:10 S2.bam2.3G Apr 26 18:54 S8.bam2.2G Apr 26 15:27 S7.bam2.1G Apr 26 12:05 S4.bam2.2G Apr 26 06:36 S18.bam1.8G Apr 26 05:14 S19.bam2.3G Apr 26 03:35 S6.bam很明显,有4个样本应该是流程失败了,bam文件这么小,最开始推测是不是参考基因组使用错了,但是觉得不应该,这个项目都是同一个物种,不太可能部分样本失败部分样本成功。然后我看到了文件名很有规律,失败的是 1, 12, 2,22 但是没有一眼看出来为什么,又转向其它项目了,只是把同样的代码重新跑一遍,以为是服务器问题。因为RNA-SEQ项目我早就搭建好了,很少出这样的幺蛾子,这个坑有点类似于我三年前分享的:做过1000遍RNA-seq的老司机告诉你如何翻车然后是文库统计情况:

是不是很有趣,看起来这4个样本只是文库偏小而已,并没有其它问题,所以我去检查fq文件,实际情况是他们的fq文件大小相当。不过我这时候注意到了文件名的排序很诡异,灵光一现,想起来了我录制linux视频的时候,专门提到过的一个问题,就是sort的排序问题。

sort排序问题这个问题来源于我自己的操作习惯,我制作配置文件一直使用ls /home/jianmingzeng/rna/raw_data/*1.fq.gz > 1ls /home/jianmingzeng/rna/raw_data/*2.fq.gz > 2wc 1 2cut -d"/" -f 8 1 |cut -d"_" -f 1cut -d"/" -f 8 1 |cut -d"_" -f 1  > 0paste 0 1 2  > config而这个ls的顺序会出现,S1_1.fq.gz 高于 S12_1.fq.gz ,但是呢 S12_2.fq.gz 高于 S1_2.fq.gz是不是很诡异?S1S1_1.fq.gzS12_2.fq.gzS12S12_1.fq.gzS1_2.fq.gzS2S2_1.fq.gzS22_2.fq.gzS22S22_1.fq.gzS2_2.fq.gz实际上这个问题,我早在linux视频里面讲解过!关于这个视频为什么大家看不懂因为要推荐这个系列视频才看了看B站弹幕,发现基本上留言的都是没有看懂的!

我也很纳闷,为什么听不懂呢?智商捉急吗不建议这种命名方式关于实验样本命名,其实我在全国巡讲经常拿出来说事的一个案例就很好的说明了它的重要性。(不能剧透,这里就不说了)为什么是9万人看不懂上面的17个留言是一个半表示能听懂,也就是10%左右,乘以我们的10万粉丝,就是9万人基本上是听不懂的,有点尴尬啊!

(0)

相关推荐