2021第一期生信入门微信群答疑精选200题
原文链接:https://docs.qq.com/doc/DSFdmRGR0SWhMTmNI
备注:Q-Question,A-Answer,T-Teacher,S-Student。
安装没报错,但是在package里边没找到包?
A:library 万能,能加载即已安装
R包是否安装编译版本?
A: 否,R包安装有直接安装和编译版安装,选择直接安装版本即可。
Q:生信菜鸟团的网址打不开(R包安装代码)?
A:可能网址被攻击,在微信群@讲师解决
Q: 钉钉怎么申请?
A: 看群公告
**彩蛋:**https://share.mubu.com/doc/2RgtkfD33Eq
Q: 不存在叫' XXX '这个名字的程辑包
A: 不存在即没有安装成功,要按顺序从第一行开始运行代码(先运行R包安装的代码,然后用library()检查是否安装成功)。
view(ex1)这里的ex1不加引号?
A: ex1是对象的名称,不是字符型数据,不需要加引号。
\1. 对象是R中存储数据的数据结构,存储在内存中,通过名称或符号访问。
\2. ex1是对象的名称,又可以称为变量,即将某一个对象赋值给一个变量。
\3. 变量是有class的,用函数class()来判断,还可以转换。
**Q:**R包安装成功标志
A: library()后无error即视作R包安装成功。关于R包安装:缺失啥,就独立安装它,一次次的套娃,直到解决它
关于R软件安装
A: 建议安装新的版本,4.0以上的,更新可以直接卸载R,重新安装。中英文版都行。
Q: xftp是否可以替代winscp?
A: 是的,根据自己喜好,但是,软件xftp 和 xshell 是同一套,用起来更加方便。
Q: igv安装不成功
S: 就是点击图标,只有个黑框一闪而过,其他的没反应,打不开
A: 这是正常的,igv 打开需要耗费一定的内存,还要网络好一点,关掉一些无关的程序,再试试。
规范的赋值符号快捷键:Alt+减号
Q: 上课用电脑容量
A: 上课需要用到的数据不大,20G的硬盘空间,够用。
Q: 处理5个样本10x单细胞所需计算机内存
A: 8核16G内存512G硬盘,不够
Q: 钉钉软件要装电脑版,上课直播用
A: 需要装电脑的钉钉版,准备工作里提供了软件直接从那里下载即可,也可以去官网下载,钉钉软件是阿里巴巴的,它不太可能有病毒。
T:上课截图提问,不要拍照。
Q: 请问这报错是什么意思?
A:安装GSVA的依赖包htmltools,注意htmltools的版本问题
T: 以下R包安装都算成功
S:
Q: win10系统安装R后有两个快捷方式?
A:这两个你都用不上,因为这个软件设计的很人性化,它针对不同年代的电脑都设置了一个快捷方式,但实际上我们最后都使用的是rstudio哦
R studio 界面字体太小,如何调整?
A: Tools-global option-apperence
脚本打开是乱码
打不开R或****Rstudio
打开路径上有中文字符
解决办法是:先确认把R和Rstudio安装在C盘,你的问题是中文用户名导致的,答疑文档Q4有关于中文用户名的解决方法,【答疑文档】https://docs.qq.com/doc/DT2VMdmN2Y0F5SHlr。
Q: Rstudio打开后一片空白?
A:先关掉Rstudio,然后按住 crtl 键,双击Rstudio打开。
Q: R包安装****总是出现error和warning,怎样看成功安装了R包?
A:这个问题非常典型,先搞定R和RSRUDIO的安装,等着上课讲。也可以先对照答疑文档,找找问题所在。
数据分析对电脑配置的要求?
A: 联想Y9000X,链接:https://u.jd.com/C3KMka 阅读原文直达~ 配置:9代i7标压处器,32G内存+2T固态硬盘+15.6寸4K屏,入手价格:10999(经常搞活动,这个是历史最低价了,当然以后肯定还会降)
Q: 推荐服务器?
A:https://mp.weixin.qq.com/s/mESkqakIlCRX23dFxSyQJA,这个是云空间网络服务器,可以通过买这个云服务器,在云服务器上运算
Q: 如何利用代码进行R包安装
A: 光标定在第一行,一下下点run,光标会自动跳到下一行,留意每一行运行结果,如果有error,就截图。library 成功的,就不用再安装了,library 不成功的,出现error,就重新安装。
Q: R studio重启后再次安装R包,需要删除之前自动下载的包么?
A:不需要。
Q: mac的ubuntu安装教程?
A: 为什么有这样危险的想法?我们的Linux操作都在服务器上完成,到时候会给大家邮箱发送服务器的ip地址、用户名和密码。请大家不要尝试在自己电脑上安装双系统、虚拟机以及开启win10子系统,否则后果只能自负,尽量不要折腾,虚拟机是过时产物了,早该淘汰了。
Q: 不存在叫'XXX'这个名字的程辑包,涉及R版本问题?
A: 这是个warning,不用管,只有error才需要处理
Q: R包安装,第一步镜像就failed?
A: 搜索报错的最后一行,看看网上(google)有没有相关解决方法;或者多试试,也可能是网络问题。
Q: 课程直播在哪找?
A: 钉钉群,最上方会弹出直播窗口。
关于答疑
T: 上课期间,有问题请在钉钉群的提问环节提问。直播过程微信群不提供答疑。非直播期间在微信群答疑
T: 往期学员笔记参考
https://www.jianshu.com/p/308c0b6db0a7?utm_campaign=shakespeare&utm_content=note&utm_medium=reader_share&utm_source=weixin
https://www.jianshu.com/p/143f4bbcbcc0?utm_campaign=shakespeare&utm_content=note&utm_medium=reader_share&utm_source=weixin
https://www.jianshu.com/p/d70716d97732?utm_campaign=haruki&utm_content=note&utm_medium=reader_share&utm_source=weixin https://www.jianshu.com/p/1a7983494493?utm_campaign=haruki&utm_content=note&utm_medium=reader_share&utm_source=weixin
https://www.jianshu.com/p/1f1badde59d5?utm_campaign=haruki&utm_content=note&utm_medium=reader_share&utm_source=weixin
https://mp.weixin.qq.com/s/KJiOtSDg94oKqHMY73GZUw
任何一个小知识点,一旦你搞透了,都可以写一个笔记
关于发票
T: 大家可以先咨询清楚自己的发票报销情况,问清楚条目,自己填写群公告表格,我们会每个星期批量处理审核一次,不要着急哈
Q: 报了两个班,但还不在数据挖掘的微信和钉钉群里?
A: 等第四周讲完了再拉进另一个群。
Q: 为什么NA*0返回值是NA, NA^0返回值是1?
A: https://www.quora.com/In-R-why-is-NA0-not-equal-to-0 In R, why is NA0 not equal to 0?
Q: 上课的PPT在哪?
A: 在钉钉群的群文件中,ppt转为了pdf哦~
Q: R语言中可将图片转化为文字的函数?
A: ocr
Q: 我们有全外显子数据处理吗?
A: 先学好基础,后面各种教程,会发给大家,在B站-生信技能树。
Q: unexpected ','?
A:
Q: 函数c()可以只有一个变量吗?
A: 可以但没必要。
Q: 怎么找课堂反馈的腾讯文档?
A: 去钉钉群聊天记录搜索
Q: 打开R以后有warning?
A: 这是一个warning, 可以不用管的,error才需要去处理哈
Q: R包安装问题
今天下午发现有包是报错的,然后又重新跑了一遍,装这些R包的代码发现原来有的现在的都没有了…再打开R就是现在这样了
A: 先library一下,看看哪些没有,没有就重新安装。
Q: 重新安装好多次总是warning
A: 没有error,不管;只要能library,就说明没问题。
Q: 请问c() 这个函数叫什么名字?
A: 没有名字,就叫c
T: 一个难点, match, merge, %in% 尽量理解吧
这个概念是难点,http://www.bio-info-trainee.com/1071.html 需要一点点理解力。可以看帮助文档,多实战即可,无需背诵,靠理解,随时查也行。本来也不可能听完课里面就吸收,瞬间变成高手,多实战多练习。甚至可以尝试自己根据这些知识点来编写习题,互相考一考,尤其是结合你们生活中的示例。
Q: dplyr会讲通道吗?
S: R数据科学那本书后面代码都用通道简写,经常看不懂[叹气]
A: 大约是第7天会讲到
Q:处理高通量测序的问题
bwa mem -M -t 16 -R "@RG\tID:id}\tLB:WXS\tPL:Illumina" {fq1} ${fq2}samtools sort -@ 10 -m 1G -o ./4.align/${id.bam -
echo "end bwa for ${id}" date
done
请问一下,这个"@RG\tID:{id}\tLB:WXS\tPL:Illumina",这个参数的用处是?
A: 这个是给数据添加header,在header里设置不同的分组
Q: 使用管理员打开R
A: 具体操作:鼠标右键单击rstudio的图标,查看,选管理员方式打开。
Q: R包安装
A: 答疑文档Q15,16,提示:包未加载或者未安装
Q: http://www.bio-info-trainee.com/3727.html 打不开
A: 可能是又被攻击了,我去弄一下
Q: R包安装没有出错,但是只有30个包。
A: 因为你这个是在不同的文件夹里面存储着这些包,你可以看看你的其他文件夹,应该还有两个地方都有包
Q: install.package()
A: 你函数写错了,install 没有ed
Q: 简书现在不能注册
A: 其实你们可以注册知乎(他也是支持md)、幕布、语雀阵地、CSDN、腾讯云社区、科学网。其中,更推荐语雀,幕布适合做思维导图,但是不太适合做笔记。
Q: tsv无法读取
A: 见第一张图的倒数第二行报错信息,关键词“unexpected input”,说明“标点符号或者语法有错误”所以无法识别,然后报错,即最后一行代码中有中文括号。
Q: 关于Github
A: 是Github的使用还是从github上下载安装R包呢?如果是使用的话,有很多的教程可供参考的,直接去微信公众号上搜索关键字相关文章来看就行。
Q: ID转换
想知道某ENSEMBL对应的基因表达产物是mRNA还是LnRNA……用哪个参数?我试了"BIOTYPE","TYPE"都不对。我是用Mus.musculus包做ID转换的。
A1:搜索我们生信技能树公众号历史教程,自行点击教程学会在技能树[公众号历史教程里面根据关键词查找,https://mp.weixin.qq.com/s/TQqKlNRRbSYPM74D7mflsg基本上初学者问题都有解决方案!
A2: 像GPL16956这样的芯片平台(lncRNA macroarry)只给出来基因序列,不妨试试看 library(devtools)
install_github("jmzeng1314/AnnoProbe")
library(AnnoProbe)
使用起来 超级方便
library(AnnoProbe)
gpl='GPL16956'
probe2gene=idmap(gpl,type = 'pipe')
head(probe2gene)
中国大陆也可以选择下面的下载和安装方式
library(remotes)
url='https://gitee.com/jmzeng/annoprobe.git'
install_git(url)
详见:https://mp.weixin.qq.com/s/HbFM3CWfR98Xjx60sU6AwA
Q: 那您帮我看看,这个报错是因为什么原因呢?
A: 找不到对象,需要先听一下前面的课,数据类型第一节,基础不牢的话,做实战分析必然是一步一个坑的,不能这样没完没了下去,这个报错是因为文件名缺了引号,在数据类型第一节和文件读取部分都有讲。
Q: 还有一个问题是没有设置species这个参数,默认值是human,而数据是mouse。
Q: R突然白屏
A: 卡住了?强制关掉重启一下试试,或者去任务管理器中关掉。
Q: 关于****分面
有个知识点,好像是按字符串逐个字符排序的,搜不到,怎么把gene10扔到最后去[捂脸]?
A: 中文世界里搜不到可以试试英文世界噢,提示:有序因子,需要统一重命名。
**T:**ggplot2代码
这里大概有188个ggplot2画出来的图,有3k行代码。真的是我看到过除了Rstudio出的书以外最全的ggplot2讲解系列。凡是您能想到的,这个内容全都覆盖了,讲解的也是非常清除有条理,整理的是非常全面。
这个文章的网站链接:https://cedricscherer.netlify.app/2019/08/05/a-ggplot2-tutorial-for-beautiful-plotting-in-r/
这里的所有内容都被保存在rmd里面: https://github.com/Z3tt/Z3tt/blob/master/content/post/2019-08-05_ggplot2-tutorial.Rmd
代码链接:https://cedricscherer.netlify.app/files/ggplot-tutorial-cedric-raw.R
希望每个人都学会搜索,ggplot代码其实不长,但是绘制起来,有可能是三五天。
Q: cat的使用
A: 不对,cat是输出内核,cat是打印出来,用来看的,它不属于R语言里所说的常规数据了。(备注:ggplot在写列名时不用写引号,是大佬用了魔法想让你把代码写简单一些,但那个列名仍然是个正常数据。
Q: 不能下载GEO数据
A:用里面的函数是geochina。
Q: 文件路径包含中文
A: 第一,文件路径包含中文(课前准备的答疑文档里面有关于中文名的解决办法,照做一下);第二,eSet没取出来。
Q: 手动下载的GSE4107,不能提取临床信息
A: gse页面有临床信息哦,仔细看。
最佳提问方式
各位老师好,我感兴趣的基因芯片平台是:https://www.ncbi.nlm.nih.gov/geo/query/acc.cgi?acc=GPL18109,但是它里面并没有提供基因的探针对应表格。(此处加截图)。希望大家可以帮帮忙。另外,我进行了一些搜索还是有一些看不懂。(此处加截图)。
Q: 临床信息的数据库出现了乱码
A: 这是德文和法文,不是乱码。
Q: length out代表啥?
我试过几个极限数值,还有有点不明白?
A: 注释写着,break参数看上面的链接,你还没看
Q: 差异基因热图,把纵坐标换成基因名
这样画出来是探针名?
我把05_volcano_heatmap.r中的n中的行名转换成了基因symbol名,再运行上述代码,基因名是出来了,可是分组信息没了。
A: (1)分组信息没了,跟换了名字绝对没关系,“把纵坐标换成基因名”这个问题已经实现了,现在你要解决的是分组信息去哪里了,这是两个问题。(2)接下来你应该检查代码,比较你的代码和数据和示例代码和数据,改了哪里,就是哪里错了。
Q: KEGG分析不用标注物种吗?我看GO里有,KEGG代码没提。
A: 既然不用标注,成功了,那就是不用。
Q: organism = 'hsa',这个hsa是什么?
代码运行成功,但是返回结果kk.up.down.diff都是空的,没有富集到任何。
A: 那就是人类,没富集到跟他没关系。
Q: 我这个是老鼠,应该怎么换?
A: mmu。kegg有一个物种列表,https://www.genome.jp/kegg/genome.html
Q: 乱码?
A: 提示:关键词 utf-8,https://blog.csdn.net/weixin_30770783/article/details/98501986 也可以看看这个链接;或者这个https://blog.csdn.net/qq_42128122/article/details/83068280。
Q: 截图中高亮的那句函数什么意思呢?
A: 筛选出中间含有t的字符串。
Q: select()
这两句是等同的么?这样出来结果是一样的
A: 这涉及到R语言里面的正则表达式,你搜一下。
Q: “Type:Non-coding RNA profiling by array"
这种数据是不是只测了非编码RNA没有mRNA呢?
A: 原则上没有这样的产品,理论上是不可能绕过编码蛋白的基因,可以咨询一下公司,还是有一些公司提供这种芯片的。
Q: 数据文件“chic”下载不了
我下载了jimmy老师推荐的ggplot2绘图网站里的R文件,里面要求的包都已经更新装好了。本来想运行一下试试里面的绘图,然后里面的数据文件“chic”下载不了,这个提示是指源文件chicago-nmmaps.csv找不到还是没有权限呀?
A: 这个代码,联网读取了一个 csv 文件,可能是网络问题,你试试在浏览器打开这个链接看看能不能下载,如果不能下载,就换个网络环境。当然也有可能是链接已经失效了。如果试过浏览器了,打不开网页,可能链接失效可能性大
T: mac用户,一些好玩的软件
https://macwk.com/soft/hookshot,自己摸索哈,不是教学范围,仅仅是分享,生产力工具。
S:关于课堂配置的服务器
我已经用了买的jimmy 老师的服务器了,那个开通服务器的我就不用了啊[呲牙]
T: 上课还是要用上课的服务器
Q: csv文件第一个列名总是乱码
老师,我打开一个csv格式,第一个列名总是乱码;但是在project直接打开csv(import)又是好的,UTF-8,设置过了。
A: 像你这样是第一列的列名乱码而已,这是因为这个表格的第一行第一个位置要和行名错开,这个错开的符号编码方式不太一样。至于到底为什么,我不建议你深究,我建议你读取之后,用colnames 改名就行。
Q: 老师,像excel表另存为csv,有什么细节要主意吗?
A: 其实你可以直接读取Excel表格,R语言里面有很多函数可以直接读取xlsx格式的。
Q: 字符串的分割
为什么总是不对?
A: 点是特殊字符哦,需要加上 [],分割的时候 是 [.]。
Q: STAR-Fusion的“最少read支持原则”是什么意思?
A: 这个问题,很多知识点,涉及到后面的生信数据格式,等下周讲完,再问不迟,先把R语言学好。
Q: R_GEO_Linux授课内容与应用
老师,按我的理解,是不是如果是挖掘GEO数据库,R语言就足够了,linux主要应用于TCGA数据库挖掘?感觉linux和R语言的代码和操作习惯有蛮大不同,在初学时,很容易两者记混掉,想让自己有所侧重[捂脸]
A: Linux 用于处理原始的测序数据,即公司返回的原始 fastq 文件。如果只是做数据挖掘(GEO和TCGA),R语言就足够。
Q: Linux感觉好难[流泪]
A: 所以今天抓紧时间练习哦,熟能生巧,亘古不变的学习方法。
Q: 如何把第1列全部变成大写?
改成后边这样
。
A: 搜索,R语言,大小写转换。
S: 搜了toupper函数,结果赋值就行。
Q: linux怎么区分文件夹和非文件?
我就斗胆用了个tree,刷屏的有点害怕。
A: ls有一个d参数。
Q: 还有一个问题,刷屏后,回不到最开始了?鼠标拉不上去了。
A: 无需拉回去。
Q: 服务器登录
A: 用户名填错。你按照刚才登陆服务器的操作,重新来,这里改为Mar。。。。
Q: 还是没能登上去。
A: 那你先试试命令行法,ssh Mar7@192.144.162.230
S: 命令行法可以登上去
Q: 命令法可以,那就先用命令法登陆吧, 讲两种方法本来就是想给大家更多的选择,能登陆上就好 有空记得补补课呀。
S: R语言学后的应用
S: 学完R第一个应用是用来计算病人拔管及时率,说起来没啥技术含量,但是比以前一个一个点快多了。
T: 有意思,之前有个学员好像还用编程去合并发票。
Q: 火山图理解
老师 这个火山图的纵坐标怎么理解,有问题吗?
A: 很正常。
Q: 还有这个热图的样本重复性是不是不太好?
A: 样本重复性是不好哦,生物学实验,不稳定性确实会比较大。
Q: XFTP安装
请问老师,我已经安装了XFTP,为什么还会弹出“没有安装”?难道需要重新下载最新版本?
A: 确定安装了吗,如果是需要更新,那就更新一下,或者先卸载再重新安装。
miRNA 的注释方法,ceRNA网络,Target Scan,miRDB
Q: 上次小洁老师发了一个lncRNA和mRNA的注释方法的html文件。请问miRNA 的注释方法有没有啊?还有ceRNA网络后面会讲吗,包括Target Scan,miRDB等等?
A: 第一,miRNA的注释就是靶基因预测,你去文献里面找找,都能够看到他是如何从miRNA到mRNA或者mRNA到miRNA,都是有现成的数据库可以去找的,并不需要从gtf文件里面去找。第二,关于ceRNA网络的构建,你提到的这几个数据库,都只不过是一些网页工具而已,你可以自己点开它自己探索一下,网页工具你要自信一点,不需要别人讲的,就点点鼠标而已;或者,从简书和搜狗微信上面去找一找,看下别人写的教程。第三,ceRNA网络的构建后面不会讲,但是我给你的文章复现里面有全部的R语言代码,没有的都是网页工具点点点操作的,还有就是用cytoscape平台操作的,所有的文件我都已经给你准备好了。加油!(我们这里也有学员的cytoscape学习视频总结,因为是文件,复制到这个腾讯文档里就太长了。)第四,cytoscape安装包在这里,腾讯微云,mp://YqO49nP5MeZHkEA。
网页工具
T: 最近看到有人转发一个网页工具,颜值好像也不错,可以一起试试看,https://mp.weixin.qq.com/s/NZmXEYRwxK-NSM7GGEXatg。
R语言终极练习题相关问题
Q: 老师,我在做之前R语言终极题目第二题时,建立好数据框后画图遇到这个报错。尝试过stat = "identity",但不能解决。请教一下,这个报错应该怎么解决呢?
A: 你记错了吧,并不是箱线图要加这个参数,而是直方图,箱线图必须要提供横纵坐标,而且不需要加这个参数,记混了。https://mp.weixin.qq.com/s/MfQaA1oVruckCnwamYK5-w 这里边讲了,看看。代码多半是搜出来的,或者对照帮助文档写的,不要凭空自创。
运行代码,出现+
Q: 小洁老师,看之前的课分组信息的时候,在运行这行注释信息的代码之后,一直出现+,是哪里出错了?搜索了下也没找到答案。虽然不重要,但是想知道出现+的原因。
A: (1)那不是少了一对反引号吗?(`是反引号)你在自动补齐的时候,那反引号就是自动加上去的,并不是自己打的,你应该是自己手动删掉了吧?反引号不成对,导致了命令不完整 所以出了+。(2)(Q: 虽然不重要,但是想知道出现+的原因)怎么会不重要呢?一句命令没有运行,也没有成功,它怎么能不重要呢?它很重要,你解决不了这个问题,后面的都没办法做了呀。
sed '1~1s/ID=/ID==/'
Q: sed '1~1s/ID=/ID==/',虽然实现了对奇数行进行操作,但是自己写的代码自己都不理解[流汗],蒙的。
A: 奇数应该是 1~2 ,表示从第一行开始,两行取一行。1,3,5,7。。。跨度是2。
$ cat Homo_sapiens.GRCh38.102.chromosome.Y.gff3 | sed '1~2s/ID=/ID==/' > NEW_Homo_sapiens.GRCh38.102.chromosome.Y.gff3
这个代码修改的就是奇数行,没错,如果结果和你理解中不一样,你检查看看你的原文件是不是有问题。
你可以看看我运行的结果,cat Homo_sapiens.GRCh38.102.chromosome.Y.gff3 | sed '1~2 s/ID=/ID==/' > NEW_Homo_sapiens.GRCh38.102.chromosome.Y.gff3
Q: 老师,这里的感叹号,怎么没见用过?
A: 感叹号表否定,如果加上,就是 处理除了 某某行 之外。
Linux_head 查看文本
Q: 老师,这样head查看后,为什么不会整齐排列?我第一次看过管道符前面的数据,是整齐的呀?
A: 嗯,要想整齐,必须再用管道符传递一下 less -S,不过,你这个问题出在你最后用的是 head ,head 只能这样显示。
Q: 老师,这个不能主动传送给vim呀?
A: 不能这样传输,如果要保存到新文件,要用重定向。
Q: 搞定了!
推荐的linux的专业书籍?
A: 在第二天PPT最后一页有鸟哥linux私房菜在线版的链接呀 也可以搜一下马哥linux。B站有马哥的教学视频,免费的。
gtf文件中#的作用
Q: 老师,请问下gff文件这里###是什么?
A: 注释信息,以#开头,后面可以写任意的内容
mamba和conda的关系
T: mamba只是一个conda的扩展而已,华为和荣耀,子公司 差不多的意思
**Q:**安装aspera-cli时报错?
A: 网络问题导致下载到一半就以为下载完了 在安装的时候发现文件不完整。重新运行下命令,mamba install -y -c hcc aspera-cli
Q: 三驾马车那节课有这样的练习题吗?
A: LINUX的练习题:
最低要求是完成我的 linux 20题 http://www.bio-info-trainee.com/2900.html
其次完成生物信息学数据格式的习题(blast/blat/fa-fq/sam-bam/vcf/bed/gtf-gff),收集这些格式的说明书。
fasta和fastq格式文件的shell小练习 http://www.bio-info-trainee.com/3575.html
sam和bam格式文件的shell小练习 http://www.bio-info-trainee.com/3578.html
VCF格式文件的shell小练习 http://www.bio-info-trainee.com/3577.html
配套视频在:
Q: 老师,我这里环境路径输入后,重新运行报错,是错在哪儿了呢?
A: 你在用vim编辑的时候 可能不小心把第一行给多编辑进去了一个“(”,你仔细检查一下 。一般他都会告诉你在哪一行 出了什么错误的。
Q: 可是我后面重新操作,想把java和samtools的放到环境变量里也是同样报错。我应该怎样才可以退回去重新尝试呢?
A: 你的ip是多少 我去给你看看,或者你截图你的bashrc文件我看一眼
Q: 192.144.162.230
Q: 老师,关于修改权限,我看了一下,vdjtools文件夹下面有3个文件,都是不可执行,我需要都修改吗?
A: 只需要给你要执行的软件权限就可以了 你执行谁 就给谁执行权限。
Q:
A: 你忘记切换环境到rna啦,base环境下木有java 在rna环境里才有哦
Q:
A: 看$下边的第一行,你在切换vim模式的时候打了一个冒号在这里,把你修改错的地方改回来就好了. 你的错误是在第一行写入了一个: 那就把这个: 拿掉就好了。同时,建议重新听一下第二天的课吧,vim在三种模式之间切换。
A: 说实话不是什么大问题 只是每次重新加载bashrc的时候都会告诉你这个地方有问题而已. 不影响你练习和使用的. 你要是看着烦你就去把第一行给改对, 如果你觉得无所谓, 放着不管也可以, 不影响的。
Q: 已经修改了,并也完成了samtools和hisat2写入环境变量bashrc里了,就是java写入环境变量运行后还是这样的?
A: 你要激活rna小环境才可以正常使用java的软件哦. 因为我们给大家的服务器没有自带java, 但是小环境里在安装别的软件的时候把java给安装上了, 所以要激活小环境后再使用。
学员学习总结:UnderstandEA#KEGG https://mp.weixin.qq.com/s/IfjXETgtQNgzjNdqBb1gWw
Q: 老师 我这个怎么回车后什么也没有呢?
A: 缺空格,空格是linux最遥远的距离,有跟没有是本质差别。
Q:完成作业的时候,调用bowtie2成功了呀,为什么if判断出错了?
A: 看第二张截图,倒数第5行(ERR),说异常退出,再试一下。
A: 给你一点提示, 你只要输入的是bowtie2 -h 或者是其他帮助文档里提到的, 不需要配参数就可以直接执行的选项(例如--version), 再去跑if判断, 就可以运行成功了. (其他需要配参数的选项需要你有对应的文件来运行才能运行成功. 这一部分得要转录组课上才会给大家介绍)
Q: 看了好几遍,发现不了问题
A: 你的参数传递没写对. 所以报的错是说: 你重命名前和重命名之后是一样的. 因为你{i%file}这个写法匹配不到任何的后缀(因为所有文件的后缀都是file+数字.) 如果你想希望让它运行成功, 你试试看${i%*}
Q: 懂了,这个是全部去尾,不留痕迹呀
A: 是的呀 你那么写是匹配不上的呀 掐头去尾, 你那个顶多算中间(末尾还有数字你没算进去呢)
Q: 老师,请问我这是哪里出了问题?
A: 你没有添加channel
Q: 老师,请问这是啥原因?
A: 一个 > 和两个 >> 的区别,追加符号,
Q: >在运行中挨个覆盖掉了?那为啥视频里>成功了,虽然我现在用>>跑出来了
A: 在 done 之后 > config。
A: 视频里我也用的是>> ppt里有点小错误 非常抱歉,恭喜您捉虫成功。
Q: tinyarray,这个包应该不在上课教程里吧?小洁老师的课程R里应该是没有这个包;主要是我在学习她发的“黄韧带肥厚复现”时,碰到了。我再试试自己装一下。
A: 试试到github 下载安装包,然后用devtools::install_local
Q: 请问结课以后,我们还可以使用现在的Linux服务器吗?
A: 务器一般可以使用两个月,实际上,会是n个月,我们觉得需要清空数据的时候会提前通知大家的。
Q: 老师好,我安装了sra-tools后,调不出帮助文档,请问视频里有讲解吗?我该怎么办?
A: 他是个工具包,这个是里面的命令集合,你运行一下 fastq-dump -h调用成功就可以了
Q: 这个报错该怎么解决?
A: 搜索我们生信技能树公众号历史教程,自行点击教程学会在技能树[公众号历史教程里面根据关键词查询,https://mp.weixin.qq.com/s/TQqKlNRRbSYPM74D7mflsg,基本上初学者问题都有解决方案!
A: 第五节课课前讲了的 去听一下回放.
Q: 参照报错PDF上的解决办法,用mamba安装libstdcxx-ng 9.10,报错
A: 是9.1.0
Q :老师,我试着用mamba安装,结果报了这个error,是我的文件夹设置有问题吗?
A: 这个课上有说,你试试看 用conda来替代mamba安装 这个大概率是mamba的bug。
A: 那你换mamba安装试试. 没有啥软件会是完美的. 我介绍mamba主要是给大家多一个选择. 以前conda出错的时候就束手无策了, 现在还可以先试试mamba. 如果mamba出错了那就退回来使用conda. 都出错了再去看看要如何手动解决一下, 那就要多搜索多试错了. 课时有限, 需要大家课后多多练习多多犯错~
Q: cutadapt和trim-galore都安装了,不能调出帮助文档?
A: 上课也讲了, 有的软件在conda里名字会不一样, 这个软件你先打trim然后tab补齐, 就可以了.因为软件开发是没有统一的规范的 所以不同的软件总会有一些自己的脾气 咱毕竟是用人家写的软件 就得按照人家的规矩来~
Q:这个数据集跟老师的示例一样,都是三组配对样本,稍微改下就可以无脑运行了[偷笑]这图画的也太好看了。
A: 不是三组,两组 每组三个样本,
Q: 哦,两组。如果其他数据集每组多于三个样本,这里改下分组信息就可以了吧?
A: 分组信息肯定是要改的,后面的差异分析就没有差别了,样本数量随便,三个和三百个都是一样处理。
Q: ENA网站如此难以打开
Q: ENA网站如此难以打开,以后下载数据岂不是很麻烦。以前听说有什么加速器可以加快我们访问这些外网的速度的?
A: 有些网还是很好打开的 比如网吧的网,还可以试一下手机热点,好用。
Q: top怎么退出啊?
按q还是按ctrl+c都完全没反应。(运行了一下那个批量下载的命令,没看到直接后台开始跑了。关都关不掉,得强制退出termius[苦涩],到底要不要下载这些数据啊?
A: 不会没有反应的 你可能没有选中当前窗口. 另外, 可以多开几个窗口, 一个专门用来跑top
Q: top真的没反应…关窗口都得等二三分钟才有反应
A: 大家把 下载数据的任务结束掉,实际上我们学会下载就好,不需要真实下载,数据我们都已经下载好了放在服务器上了,之所以没反应,是因为太多人在用 ascp 下载数据,服务器的网速都被占用了。
Q: 老师,我在linux软件安装那天已经安装完所有转录组分析需要的软件,也一一试过了调用帮助文档是没问题的。然后今天再次登录小环境,输入acsp -h就出现说命令找不到,然后我又再次输入安装命令conda install -y -c hcc aspera-cli,就出现了以下提示,说有的包不匹配。为什么会这样呢?周末的时候已经尝试过是可以调用的,今天又不行了,是软件自己内部升级了不匹配了么?
A: 软件不会内部升级,两种可能性:第一,看起来是你对miniconda3做了什么操作, 导致环境发生了改变。第二,确认一下你敲的命令到底是啥, 是ascp还是如你所说的acsp。
Q:解决了,在base里输ascp -h不行,现在在小环境里可以了😂[抱拳]。前面在小环境里没输对。
A: 在base里不可以是正常的 因为我们强调不要装在base里, 以免造成不必要的麻烦. 记得每次登陆的时候手动启动小环境哈。
Q: 这个私钥确实也不大理解,找到它是干嘛用的😂
A: 就是你去下载数据需要的一把钥匙,你登陆服务器 不是输入了密码么 我们去公共数据库下载数据(公共数据的数据存在别人的服务器上)的时候也需要这个东西 密钥就是类似这种。
Q: 老师我这个数据下载的默认端口好像不能用?
A: 你看下 参数是不是写对了,大小写参数,而且反斜杠后面不要有空格。
Q: 医院这龟速破网....这要真下载数据,要下载到什么时候啊?
A: 如果你是在我们的服务器里下的话, 走的不是医院的网速而是我们服务器的网速. 可能同时有别的人在下, 所以分配到你的网速确实一般. 没关系的, 这个过程只是给大家演示一下这个工具的用法, 你测试过能跑通就可以了, 正式上课的数据已经放在服务器里了的。而且确实下数据是很耗时的 这是常态。
Q: 可为什么别人的下载速度都比我快呢?难道是人品问题
A: 你可以停下来重新提交一下试试 或者换个时间段
Q: 还是观念没转换过来呀,始终认为是在自己电脑上操作
A: 医院的网速只决定了你链接服务器的速度 例如你敲命令下去的反馈快不快(是敲完就有反应还是等三五秒才跳出来) 以及 如果网络不好的话会不会经常连着连着服务器就断开了。
Q: 这里有两个疑问:第一,变量id没有赋值,为什么能被识别?第二,这个报错是什么原因?[微笑]
A: cat -A ,查看sra.url的问题。另外,你认为没有赋值是你没理解while的语法,回去翻一下我讲for循环和while循环的录屏。
Q:
A: cat -A,结果如下:
你看你的跟别人的就不太一样。https://docs.qq.com/doc/DWUZSUVJwc2JNZGFE?&_t=1616470922158
Q: 我作业里的截图也不是这样呢?
A1: 加 -A 才能看见末尾那个特殊字符。
A2: 你这个文件是不是从你本地的windows 传上去的? 或者在Windows环境下打开过?
Q: 没有,直接链接过来的
A: 好的吧 老师今晚会讲 是编码的问题,有些不可见字符会产生意外的影响的。
Q: 这个sed命令的用法不明白,希望老师今天给讲讲。强行复制后没有去掉末尾的$。
A: 只要知道其中的一些字符的含义就知道这句话的含义了. 首先, \s代表任意的空白字符, 空格或者tab都算. \s*$匹配的是从空白字符到末尾的所有字符. sed的s///g是进行全局替换. 来, 你觉得是啥作用?[奸笑]
Q: 还是有点费解,-i 直接修改sra_url文件,全局替换空格到末尾,替换成什么呢?s/\s*。这个代表的是:空白到句末所有的特殊字符?
A: 不设置就是替换成空, 替换成空就是删除。
Q: 文件末尾有需要去除吗是真的有呢 还是这个$其实代表的是行末呢
Q: 这个默认端口是如何设定的?为什么是这个数值?era-fasp是个公用的账号,以后我们自己下就用这个吗?
A: 既然是默认的就是默认的 为什么是这个值 那就要问问这个数据库的管理员了 技能树的服务器端口是22 你问问管理员为啥要设置默认的是22。
Q: 意思是端口是咱么这个服务器设定的,只要用这个服务器就是这个端口数值的意思?
A: 对的,随便设置成啥都行。
Q: 如何知道自己服务器的端口号呢?
A: 问你的管理员。
A: 账号是公用的 但是每个人都有一个密钥呀 这就是为啥要设置密钥的原因 不是谁拿到账号都可以下的 得提供对应的密钥才可以下载。
Q: ”^M是个什么鬼,无论用命令还是命令,都去不掉,始终有个在最末尾
A: $是结尾的回车符,没有这个符号在所有的行就都串成一行啦 那个是不需要去除的 你要去掉的就只有^M。
Q: 可别人交的作业里,末尾没有这个$符号呀?
A: 那是因为没有用cat -A,作业里加了-A之后也是有$符号的呀。
T: “inux命令行,菜鸟报错之隐藏在换行中的字符^M”,我们已经是第34次分享了,你们的报错,没有什么大不了。大家不要在同一个地方跌倒两次,每日关注生信技能树推文,或者把以前的系统看一遍,勤能补拙,都是血泪教训才分享的,看到有启发的,在各个推文下面留言,这样我能察觉到你们在读。
Q: 那是因为我比较笨...这么一小段段代码,看半天都看不懂[流泪]
A: 也不稀奇,无非就是学习。
T: 例如:cut -f 9 filereport_read_run_PRJEB25780_tsv.txt |sed 's/;/\n/g' > fq.txt 代码不重要 ,解决问题最重要,在上边那个代码中,关键是拿到fq地址,才是你的目标不是理解代码。
Q: 这样算多线程下载成功了,是吗?
A: 成功运行起来了,可以试试用htop查看,加上-u 指定自己的用户名,这样查看的任务就都是自己的任务了。
Q: 为什么ctr + c不能终止这个命令?反复试了几次,还在运行
A: 那你要kill掉任务,你挂后台了吗? 用了nohup吗?
Q: 没有nohup,用了&
A: kill也没能终止
Q: 说明没kill到,你回去看看linux第五天的课,讲如何kill任务的部分,你没有挂起 但是让任务后台运行了 要么根据id号去kill命令 要么简单粗暴一点把你挂后台用的那个会话窗口给关掉。
Q: 请问这个报错是怎么回事?
A: 最后的done前面少了个分号
Q: 老师,做作业过程中出现的带空格的文件要怎么删除呢?
A: ftp浏览它,点击鼠标删除。
Q:为什么我的命令和结果中间空了这么大一块儿啊?
A:你是不是用鼠标的滚轮往上滚了一下
Q: 老师,用ascp下载单个文件时,为什么会让输入password?
A: 你检查一下你的命令 缺东西咯
S: 谢谢老师,发现了,少了用户名。
Q: 为什么我照着老师课上的网址打开这个网页提示不存在但用搜索的方式可以打开?
A: https://www.ebi.ac.uk/ena/browser/home 少了www.[旺柴]
S: https://mp.weixin.qq.com/s/ZtbRRgOXaqSvypcYF2lO8w 学习笔记:顺利完成下载并检验完整性,开始复习质控。
T:
这个不是表示行尾哦,$表示行尾,*表示:号前面的匹配多次,所以,\s表示匹配多个空格。
Q:
A: kill 掉
Q: 怎么批量kill它们?
A:
T: ps -ef | grep ascp | awk '{print $2}' | xargs kill
Q: 老师,这样算运行成功了吗?为什么在fqdir目录下没有出现新文件?
A: 可以把输出的结果,重定向到一个脚本,然后再运行这个脚本。-O后面那个路径没有。也可以试试,直接 echo ${fgdir} 看看有木有输出。
Q: 我改回来了
文件出来后好半天才出[+1] Done....的提示
Q: 请问老师,我每行都出现了重复的内容可能是哪里出错了呢?
A: 一行,两个fastq文件,使用分号给他劈开。你这个filereport文件是本地传上去的吗?咋又带空格又带括号的?
S: 网页上下载下来再传输到服务器里。这是历史记录里的代码。
T: pipline的文档里面有这个代码。
Q: 老师,为什么我输入单个转换,出来的是帮助文档呢?😂
A: --split-3 没有空格
Q: 为啥我传输不成功啊?😂尝试从自己的目录或老师的目录都不行呀
A: 只是路径不对,你想想你的这个文件是保存在哪个路径下。而且提示“文件不存在?”这个路径是你tab补齐的吗,还是手动打的呢?用tab补齐就不会有这个问题哦~
Q: 老师,我本来想吧gz文件放在一个专门的文件夹,一波操作被拒绝后,居然找不到gz
A: 你解释一下 rm 命令是什么意思。假如你以后是服务器的管理员,记得不要 rm -rf /
S: 找到了。
Q: 用自己的路径也传输不出来
A: 第一,你能先ls查看一下这个路径存不存在吗?截图给我们看看 你有没有这个文件夹。第二,老师的文件夹里也没有一个叫做sample.ID的文件,应该是:sampleID.txt。所以,问题是没有sample.ID这个文件,怎么能cat出一个不存在的文件呢?第三,sample.ID就跟 md5一样,是从源TSV文件里 cut 出来的样本号列,形成的文件,需要自己搞一个。你把视频看完就知道我怎么操作的了,重要的是理解传进来是个什么东西。
S: 这样可以
T: 你就用这个文件往下做吧 下次碰到这种找不到文件的情况不要死磕 看看同个文件夹下有没有相近的文件 死磕太影响你学习的进度和心情了 😂
Q:老师,这是怎么回事?
A: 回去重新看一下选项用哪些, p和f没分清。
Q: 老师,为什么课程里面你输入的命令是fastqc -t 6 -o fqdir/SRR1039510_1.fastq.gz ,没有报错能够运行;而我这边这样会报错,输入的命令是fastqc -t 6 -o fqdir SRR1039510_1.fastq.gz 才能运行?
A: 你的 fqdir 分别echo出来看一下
S:
T: 上课的时候讲了, 自定义变量的时候不要加空格。还有,你这个qcdir设置了个寂寞呀 hhhhh[旺柴]
Q: 老师我还是不能理解为啥我的解压不出现gz文件,感觉命令输出都没有错呀?😂
A: 哪一步应该有这个gz文件呢 截图我看看 还有你的脚本内容cat出来看一下
S: 我先生成了sra2fq.sh,
然后接着运行解压,然后就nohup挂在后台解压,步骤,命令执行感觉都是正常的,最后运行完了没有出现解压后的gz文件。应该每个文件有生成2个gz文件才对呀?
红色的fastq.gz文件,又尝试着跑了一遍,显示都读取了,就是没有生成fastq.gz文件😂
T: 你定义的输出目录是这个,生成的文件都保存在这里 /trainee2/Mar11/project/Human-16-Asthma-Trans/data/rawdata/fastq/
S: 原来是这样呀,我又理解错了,我以为系统会自己识别fastq和fq(简写)[捂脸]谢谢老师!
T: 你以为的不是你以为的,计算机底层只有0和1,你说什么,它就做什么。
S: 我是要重复看上3遍左右视频,一边看视频一边操作,然后操作个几次才能明白老师每个命令的意思。
T: 不能光看视频,还有自己实际操作一遍,分清楚输入输出。
Q: 老师帮我看看为啥我会被拒绝了呢?😂
A: 你的脚本有问题,可能是不小心被你覆盖了,重新生成一个。你检查一下这里ls的结果,是否就是需要传递的 id ,生成的 sh 脚本文件,你cat 看看 输入输出的文件路径是否有错。
S: 我做单个样本过滤时定义过一次,多个样本过滤时没有重新定义,是不是因为这个因素的影响?
现在我的sra文件里有这个trim_galore.sh
感觉是输入到sra文件里这个才是多个样本过滤的输出对么?
T: 是你 ls 的结果,本身就是一长串的路径,传递给 while read id 的时候,就带有路径了。
Q: 这个是啥问题啊?一开始调用salmon不行,想卸了重新来
A: 上课有提到类似的报错,在 error.pdf 文件有,或者翻翻聊天记录。这个是因为salmon依赖的tbb库默认安装的最新的2021.1.1版本, 这个版本会报libtbb.so.2不存在的错误, 解决办法是降级tbb, 用conda安装一个2020.3版本的tbb依赖即可,代码为:mamba install tbb=2020.3
Q: 助教老师好,请教一下,我该如何调用服务器中的ANNOVAR软件
A: 我们上课用的服务器,应该没有这个软件
Q: mamba install libstdcxx-ng=9.1.0,尝试用过9.2.0/9.3.0都不行
A: 原先的报错解决了,现在是新的报错。理解下这句代码 cp ~/miniconda3/lib/libstdc++.so ~/miniconda3/envs/rna/lib/libstdc++.so.6
S:不太懂
T: 就是拷贝了一个文件,你运行看看
S:
T: 嗯,你的小环境是 rnasq ,所以要把对应的路径改一下,所以才叫你理解一下这句代码。
Q: 明明存在table_annovar.pl啊为啥会报错,说不存在呢?
A: 可执行文件,用路径的形式调用。
Q: 请老师帮忙,还是报错,command not found: table_annovar.pl
A: 用 这种形式调用 ./table_annovar.pl
Q: 老师,我死磕了一个下午,还是没办法多样本过滤[捂脸]投降了
A: 首先,你的脚本这个路径是有问题的,
Q: 如果用我自己的路径,我的命令应该怎么调整才是合适的呢?😂
A: rim_galore --phred33 -q 20 --length 15 --stringency 3 --fastqc --paired --max_n 3 -o /trainee2/Mar11/project/Human-16-Asthma-Trans/data/cleandata/trim_galore /trainee2/Mar11/project/Human-16-Asthma-Trans/data/rawdata/fastq/SRR1039510_1.fastq.gz /trainee2/Mar11/project/Human-16-Asthma-Trans/data/rawdata/fastq/SRR1039510_2.fastq.gz
你先单独运行一个样本的两个fastq 文件,然后对比你的 这个脚本里面的路径,看看是哪里出错
Q: 又来请教问题了
OTICE: Running with system command <annotate_variation.pl -geneanno -buildver hg38 -dbtype refGene -outfile myanno.refGene -exonsort -nofirstcodondel /home/data/vip33/bcfvariant_0322/filetervcf/24.v.bcf.fileter.vcf.avinput humandb/>
Error: cannot write LOG information to log file myanno.refGene.log: Permission denied
Error running system command: <annotate_variation.pl -geneanno -buildver hg38 -dbtype refGene -outfile myanno.refGene -exonsort -nofirstcodondel /home/data/vip33/bcfvariant_0322/filetervcf/24.v.bcf.fileter.vcf.avinput humandb/>
报了一个error:cannot write LOG information to log file myanno.refGene.log: Permission denied
A: 建议先把课堂讲的转录组学好,再学其他数据处理,不然会一直报错的,
Q: 老师 运行后出现这个>是什么肥死呢?
A: 引号不成对或者括号不成对,Ctrl C
Q: 请问这个fastq任务怎么kill掉?kill 完之后又会出现新的pid不同的相同命令的任务。
A: 因为你循环提交的,找到主任务。
Q: 怎么找主任务?
A: ps -ef | grep 用户名
Q: 请问这哪个是主任务?我把21505和21507这两个都kill掉了,还是不行
A:第一个
Q: 老师,这里问题出在哪里?
A: 检查输入文件,搜一下报错信息
Q: 老师 第一个截图是我的命令 没有出现您课件红框框里的命令有关系吗?
A: 没关系
Q:老师 error了,
A: 如果命令没有问题,那就是网络问题,无解,可以考虑换机器,或者其它时间段
Q: 老师,每次运行,都是在这里报错。
A: 是 {cleandata},但是偶尔花括号可以不加,你自己体会哈,多练习。
Q: 老师,还是一样的报错,可是目录里已经生成了这三个文件啊?为什么nohup.out里说,cannot create......
A:你的 nohup.out 是之前就生成的,现在你要查看 log 日志里面的信息
Q:
A: 他说你的代码有问题,所以你应该检查 fastp.sh 文件
Q: 老师,为什么这等了挺久都没有响应,但查看的时候文件已经生成了?
A: 听课了吗,-X 25000
Q: 不是说25000只是演示,可以不用吗?
A: 嗯,现在你是练习,建议加上,先学会整体的流程框架。当你自己实际处理时,不加,程序会运行好几个小时,一般挂载后台。
Q: 不理解这里,老师的命令可以zcat出这些文件,为什么我的不行呢?
A: 用ls 试试看能不能补全出你要的这个文件,如果补全不出 说明你指定的位置是有问题的 你就去确认一下具体的位置
Q: 能补全,文件是存在的,按道理说应该跟老师一样可以cat出来啊
A: 存在的文件,和你 zcat 的文件,是一个吗,你仔细看看呢
Q: 老师也是这样输入的啊
A:这是按了 tab 补全出来的,因为有多个,所以就补全到 SRR103951 而已,要选一个继续输入,然后继续补全,你这里多按几次tab试试看
Q: 啊,原来是这样,我还以为说为什么老师能导出来,我的不行。原来是tab出来的。我明白了。看视频里看不到老师按tab键,所以我以为是这样输入就可以调出来下面文件[破涕为笑]
Q: 各位老师,这行代码运行结束后,既没有报错,也没给结果,算怎么回事呀?
A: 分步运行,看看每一小句命令的运行结果
Q: 请问老师,我的为啥位置变了,内容也变了呢?自己试过很多次,都是一样的结果,这是提取md5值那个环节,老师 为什么显示安装成功 但是help无效呢?
A: awk 指定一下分隔符 -F,为\t,cut 你看一下怎么改变顺序
Q: 老师 conda备份这块儿没太听明白[破涕为笑],二进制安装和源代码安装是备选方案对吧?还是有的时候不得不用这两种方式呢?
A:是的 有的软件如果没法用conda安装的话,就得手动安装。手动安装的三种方式中,如果能用二进制的文件就最好了,即开即用;java的也是下载解压就能用。要编译的话就得按照编译的三部曲走一走了,不一定会成功,跟服务器的依赖有关系。
Q: 老师,我怎么知道我这个比对参考数据是下载完全了?我只要wget ,文件夹中立马会有生成这个文件,还是占有一定内存的文件;然后这个下载链接还在继续。
同时下载生成的文件大小还和网页中的不一样
A: 下载需要时间的,你不断ll -th应该可以看到这个文件在不断变大,下载要挂后台,加-c参数,可以断点续传。
Q: 老师,像退出服务器的断开,再次接上服务器,也可以用-c参数实现断点续传?
A: 可以,但是要在上次下载的路径下,你看看下载一半的文件保存在哪里,去到那个目录继续下载。
Q: 老师,我想这下载好的东西,在同样的路径下,我再次运行下载的命令,是不是出现下面的报告,也算是证明下载完全了?
A: 对 你看他也说了这个文件已经完全拿到了,没有可以继续下载的内容了 就说明是下载好了。
Q: 老师,这个软连接总是报错
A: 你要软连接到哪里,要加一个目标路径
Q: 老师,这个管道符后面的-代表前面生成的sam文件吗?这个命令就是输出sam文件,节省空间?
A:这个管道符后面的-代表前面生成的sam文件,差不多是这个意思,因为 sam 文件比较占用空间,所以我们把 sam 文件 转为 bam 文件了。
Q: 老师,awk里不是指所有列,1是第一列吗?我这两句代码运行的结果,为什么不是这样呢?
A: 最后面不用接cat,因为awk的print会打印到标准输出流的。你print和$0之间为啥不空格呢?
S: 有空格和没空格输出是一样的
Q: print 输出,[1..9]输出整行,这是什么原因?
A: 单双引号的问题,https://www.jianshu.com/p/07fa6bed8ffb,来 看一下这一篇。如果内部需要引号的话 再在内部使用引号。
T: 感觉你是专门来考验我们讲师眼力的。
S: awk功能真是强大...又get了一项新技能[呲牙]
T: 学会三驾马车,实现95%的文本处理需求。
Q: 老师解压后出错了是为什么呢?
A: 你要去到自己的目录啊,试图在我的目录解压我的文件 咋能不出错呢,你的所有操作得在自己家目录下的文件夹里才能完成。
Q:老师 我得先把这些文件搬到我的家目录对吧?
A: 可以软链接
Q: 老师,为什么我的文件名后面有个:的呢?
A: 因为这几个是文件夹,ls * 就会加个冒号。如果你文件夹下面还有内容的话, 会显示在现在空着的那一行里. 这个冒号是为了标明文件夹下面的文件是从属于哪个文件夹的。
Q: 老师 我这儿回车后没反应
A: 卡住了嘛? 看起来是vim打开的样子 你多按几次回车试试看。
T: 完成学徒作业,以markdown笔记的形式发到我邮箱,我会抽时间集中检查,挖掘其中足够优秀的小伙伴进行重点培养,给与更高级的学习资料或者个性化的学习指引,并且提供一定量的项目兼职测试一下你成为“数字游民”的潜力。
加油哦,我的邮箱是 jmzeng1314@163.com https://mp.weixin.qq.com/s/b3rR--dUwAZSvibF07-WQQ
S: 老师,学徒作业要把所有课程学完才能做吧,估计完成得好长好长时间了
T: 不着急,我们是马拉松课程啊,技能的掌握本来就是要花时间 的,巩固所学。
Q: 老师~我想请问一下,为什么这个表达矩阵的表达量在-2到2之间呢?
A: 非常多的表达矩阵都被归一化了,这个就是zscore哦~去搜索一下统计学知识。搜索我们生信技能树公众号历史教程,自行点击教程学会在技能树[公众号历史教程里面根据关键词查询,https://mp.weixin.qq.com/s/TQqKlNRRbSYPM74D7mflsg,基本上初学者问题都有解决方案!
https://mp.weixin.qq.com/s/KbKBoJsbOhazFxrt_gMbVg https://mp.weixin.qq.com/s/sCde8gx2Sg2w3otJX_wiSw
这两个推文你结合起来看。非常的有意思。
Q: 老师为什么我下载下来的这个数据大小不对?
A: 文件大小无所谓,关键是md5。一般这个文件旁边会带有一个 md5 文件,你看看,或者发链接。如果没给md5文件,你解压成功,就是ok的。再说,检验gz文件完整度,可以看下边这篇文章 https://mp.weixin.qq.com/s/tZl_KIokSjeARbTxp1hB1g 知识点博大精深,一定要多学习。
Q: 我有好多问题想要咨询呀[捂脸]。
1.差异分析的包limma,edge,DESeq,输入的数据都是raw-count(过滤后的),那包内部进行的标准化和(最开始分析总体数据集中性)edgeR包的cpm有差别?edgeR的cpm函数是不是和edgeR包做的差异分析里的标准化是一样的?
2.limma包做差异分析是构造输入对象deg的DEGList中只输入了count值,为什么生成的deg还生成了group信息,还是这里的group里面并没有信息?
Q: 老师,KEGG中的q value是指啥?也要考虑?
A: q value是p值矫正的一种方式哦,你搜索一下 p adjust,统计学概念了。
Q: 老师,为什么管道符 | 不起作用了呢?不用-i 参数就可以,难道sed -i 时,管道符就不灵了?
A: 是的。
Q: 老师,subjunc里的start是干嘛用的?录屏里好像也没有用这个[破涕为笑]
A: 获取程序在开始运行的时候的时间,末尾再加一个,就可以知道这个过程经历了多久,常用于实际分析项目的时候评估某个过程运行了多久。
Q: 这个GSE17215对应芯片是GPL3921,包应该是 hthgu133a;可是老师给的答案里面使用hgu133a包,是有什么特殊的说法吗?
最后一张是老师给的代码。
Q: 大佬们,做fastqc的时候没有输出html文件是怎么回事
A: 检查一下你的输入文件,你的fastq.gz文件里面有内容么
S: 有的
T: 是不是程序还在运行
S: 今天确实还没运行完,但是昨天任务运行完之后也没有html文件,我换成老师提供的fastq数据,又试了一下,还是没有html文件
T: 你提交了任务,会输出log日志,你检查一下,如果没有把 log 日志保存下来,就在前台提交,不要挂到后台,仔细看看输出的信息。
S:
T: 嗯,有可能是环境问题,你试试卸载 fastqc ,重新安装。
Q: 老师,我想用aspera下载sra原始数据,需要文件地址,想问一下这个文件地址可以在哪里找得到?
A: 把上课讲的数据下载部分,重新听一遍
S: 上课老师讲的在ENA数据库下载,我这边要翻墙之能在sra下载,但是用prefetch下载又太慢了,就想用aspera下。
T: 用 aspera 下载 ENA 数据,上课就是这么讲的,ENA网站,一般的网络是可以访问的,你试试用手机热点。实在打不开,就把 SRA 的 ID 号发到群里,请大家帮你获取网址。
Q: 老师我想问一下为啥我在ENA按照视频下载,sra_aspera栏总是空白的啊?
A: 你看看你在数据库勾选的时候有没有把这一项勾选上,如果有勾选但是依然为空,那就是暂时不支持 aspera 下载。
Q: 请问一下,安装了callr包,为什么加载还是显示没有呢?
A: 安装明显error了,需要更新提示的R包,是依赖包processx 需要更新,安装的时候指定版本号,可以试试这样安装 install.packages('https://mirrors.tuna.tsinghua.edu.cn/CRAN/bin/windows/contrib/4.0/processx_3.5.0.zip',type = 'source',repos = NULL)
Q: 转录组课程里,我load的文件跟老师的是一样的,为什么会出现这种下标出界的情况呢?[破涕为笑][破涕为笑][抱拳]
A: 你的 dat 是空的,所以要检查一下前面的代码
Q: 老师,想问一下这个问题出在哪里啊[捂脸]
A: 少了一个-i
Q: 老师这个报错是什么原因呢?
A: 网络问题,换个网络环境,实在不行,去网吧,一般来说网吧里的网络很棒。我们有镜像,也是一个帮助:ibrary(AnnoProbe)
使用起来 超级方便
library(AnnoProbe)
gpl='GPL16956'
probe2gene=idmap(gpl,type = 'pipe')
head(probe2gene)
中国大陆也可以选择下面的下载和安装方式
library(remotes)
url='https://gitee.com/jmzeng/annoprobe.git'
install_git(url)
详见:https://mp.weixin.qq.com/s/HbFM3CWfR98Xjx60sU6AwA
Q: 老师 我是没安装什么R包呢?
A: group是错的,可能是大小写
Q: 老师,我想请问您一下,如果在定义临床分组时,定义多组且包含NA值,然后在指定level的时候(先不考虑多组比较),可以直接指定两组吗,比如tumor 和non_tumor?还是我要把需要比较的两组取行先取出来
A: 两个方案均可
Q: 老师,请问这段代码中间“ - && ”是什么意思?
我运行的时候报错了
A: 中划线 - 是前一句命令的。&& 你可以理解为一个分号的作用,前面是一句命令,后面是另一句命令,两句命令独立的。
Q: 那我运行这个文件的时候提示samtools sort: failed to read header from "-",最后没生成我要的文件,这个是怎么回事?
A: 可能是你上一步出了问题, 回去检查一下log看看有没有报错. &&及之后的是另一条命令. 这样用&&写在一行的好处是只有前面的任务成功运行了, &&后面的命令才会被运行. 因此相对于写在两条里, 这种写法是有好处的
Q: 单独运行没出现问题,但是用管道符联合运行就不行,看报错的意思说我要输出的文件不存在(问题是那个是我要生成的文件肯定原先就不存在吧?),直接用&&把三句放一起了
A: 你一步一步检查一下 看看前面的内容 估计是前面的哪一步写错了或者运行错了才导致到这一步没法运行的。
Q: 老师 怎么把这个误安装的miniconda2删掉呢?
A: rm -rf miniconda2
Q: 老师 我tab后为什么是这样子的呢?并没有补齐,也不能补齐[流泪]
A: 是因为f开头的文件有多个,你要再给电脑点提示,比如打fi再按teb,这样系统就能知道你指定的是哪个文件了,tab*
Q: 为什么enrichKEGG包富集出来的通路跟String上富集出的不同呢?
enrichKEGG排在第7为的是脂质和动脉粥样硬化,但是在String里就没有这条。
A: 这是一个非常好的问题,搜索我们生信技能树公众号历史教程,自行点击教程学会在技能树[公众号历史教程里面根据关键词查询,https://mp.weixin.qq.com/s/TQqKlNRRbSYPM74D7mflsg,基本上初学者问题都有解决方案!
Q: 老师,请问如果在前面group时出现NA值,主成分分析出现NA值,是该处理图片,还是处理group分组呢?
A: 当然是分组
Q: 老师,我载入ggplot2包的时候报错,更新了rlang包后依旧报错,可以怎么解决?
A: 重启Rstudio,先运行更新 rlang 包的代码
使用typora软件来写markdown格式的图文并茂的文献速递
T: 我录制了gif动画,如何使用typora软件来写markdown格式的图文并茂的文献速递笔记,需要你花几分钟仔细学习一下,https://share.weiyun.com/5ZlGRNB
Q: 保存变量的时候,文件名后缀加或不加.Rdata,有什么不同吗?
A: 后缀仅仅是一个标记,给人看的,不影响程序代码识别它。加或不加,使用起来一样,但是他们的图标看起来不一样。
Q: 老师 忘记切换rna环境了 影响大吗?
A: 你还没开始处理数据呢,现在切换一下就行,除非你要安装或者使用conda安装的软件,否则不用有这方面的疑虑。
Q: 老师 这种情况怎么退出来着[脸红]?
A: Crtl C
Q: 第一个没问题 我就是把上面截不到的也截了下 就是第二张为什么没有那一列的内容呢[撇嘴]?
A: 要设置以下分隔符,设置为\t,有一些列有空白 比如RNA Seq这样的 RNA和Seq中间是空白 但是cut切割默认是使用空白 会把一列切割成两列,你用awk 加一个参数 -F'\t' 吧。
T: 我尝试复现了你的代码, 在你没有修改这个文件的前提下, 在我们的服务器里应该是能正常运行出来的. 但是如果你提供的信息是不全的, 比如你后面的截图没有把代码截全等等情况, 那就很难说为啥会报错了
.
T: 你的代码除了能输出第一行之外, 还输出了很多的空行, 看起来很像是在less里面, 例如我下面的代码和结果图. 所以下次提问的时候记得截图截大一点、全一点哦, 否则我们也很难给你解答的呢
S: 老师 我刚做完实验 就是我刚刚找到原因了 我用excel打开下载的这个数据 发现sra_aspera这一列是空的。这四列都是空的。我再重新下载试下。
T: 你的命令看起是没有问题的 如果出问题只能是文件的问题了~ 如果解决了 记得在群里分享一下哦
S: 老师 重新下载后还是空的 我明明是勾选了的呀[破涕为笑]
T: less -S /trainee2/Mar23/Data/rawdata/sra/filereport_read_run_PRJNA229998_tsv.txt 了解你下载的文件,里面没有sra,但是有 fastq ,你完全可以直接下载 fastq ,然后就 fastq 文件进行md5 校验。至于为什么没有 sra ,可能是你下载的时候没勾上,或许也可能是某个 bug,不过这并不重要,你可以直接从 fastq 开始,跳过 sra 转 fq 这一步。
S: 文章中列的是GEO编号,但是下载需要aspera链接,而GEO没有,但是GEO和SRA有关联,但是SRA也没有该下载链接,所以转求助于和SRA关联的ENA数据库。是这个逻辑吧?
T: 是的。
T: https://mp.weixin.qq.com/s/OrEGs7X8DvOgaCluZJpfLg 要的分析方法这些年都被写烂了,我就不再赘述:
解读GEO数据存放规律及下载,一文就够
解读SRA数据库规律一文就够
从GEO数据库下载得到表达矩阵 一文就够
GSEA分析一文就够(单机版+R语言版)
根据分组信息做差异分析- 这个一文不够的
差异分析得到的结果注释一文就够
看看这个系列,去理解各个数据库的对应关系。
S: 但我还是不知道为什么我下载的就没有[破涕为笑]
T: 因为你对ebi数据库页面不熟悉啊,等你写一个 ebi数据库一文就够,
解读GEO数据存放规律及下载,一文就够
解读SRA数据库规律一文就够
从GEO数据库下载得到表达矩阵 一文就够
参考我之前的。
AnnoProbe安装失败
报错如下:
A:讲解见链接 https://stackoverflow.com/questions/9689104/installing-r-on-mac-warning-messages-setting-lc-ctype-failed-using-c
是R编码的问题,解决方法见截图,可以去terminal里运行,也可以在R中运行,但是要加上system("defaults write org.R ............")