2021第四期_生信入门班_微信群答疑笔记
做教学我们是认真的,如果你对我们的马拉松授课(直播一个月互动教学)有疑问,可以看完我们从2000多个提问互动交流里面精选的200个问答!
与十万人一起学生信,你值得拥有下面的学习班:
各位老师好,请问,IGV必须装在C盘么
R和Rstudio要装在C盘, IGV等其它软件可以放在别的盘
mac安装软件是否不用管什么,直接安装就是了
是的
R包下载过程时间好像挺长的,这时候电脑能休眠吗?
不行
我的R和Rstudio是之前下载的,用的还挺顺利的,还用重新下载么
R版本需要4以上的
请问这里点了下载下载了好多遍都不行,Windows10的选择清华的,应该怎么处理呢?
网盘里面我们准备好了R语言,可以非常方便下载
貌似安装不了网盘里面的这个软件
感觉可以换个mac的ftp软件,到时候讲师帮你安装
这个安装了,应用程序中怎么找不到?
这个是基础设施,并不是软件,理解一下这个概念
是否选一个安装
iterm2的话更像是mac原生的“终端”(或者叫terminal),所以不装ierm2直接使用系统自带的terminal也是完全OK的
请问这里为什么复制不了那些R包?粘贴不上去
R安装时,旧版本卸载后重启一下电脑
我已经安装了R了,他这个意思是说没安装,要重新装?
有安装在C盘吗?
重新装在C盘了,但是运行报错了
点这里重新创建一个脚本,然后把代码粘贴到这里
电脑最低配制什么?
怎么安装xx包,都是统一的答案
仿写代码,你看看你现在运行的脚本,install.packages,BiocManger::install,都试一下
安了好几遍了,还是不行
去这个文件夹把这个文件删掉
R包安装
右键,管理员打开。
老师好,电脑是windows,从给的网盘材料里下载安装的IGV,IGV安装好了,但是双击以后就感觉屏幕上有界面闪现了一下,没有跳出来软件的界面。
正常的,等后面上课会讲
老师 请问R studio打不开是什么原因呢 重复安装三遍了 电脑是windows 10 从网盘材料里下载安装的 谢谢!
看答疑文档 Q4
卸了重装吧。三年前的版本了
我现在关不掉,也没法重新安装RStudio
任务管理器杀掉,
请教一下老师,安装这两个包,一直提示没有.First函数?
奇奇怪怪的问题,重启一下电脑试试
请问老师们怎么看待phython和R呢[愉快]
要是做影像组学 好像python更好一些,转录组基因组这些的下游R实现起来更方便吧 python有的语法挺麻烦的
想请教下:数据框中每一列的数据类型是否必须相同?[抱拳]
每一列之内需要相同,列与列之间可以不同
数据框要求每列长度相等,缺了的话怎么办呀?
可以先用NA补齐
这里面有两个ERROR,怎样解决呢
网络问题,R包下载不完全,再重新运行下代码或者换个网络
老师,右侧不见的部分如何打开
你在 terminal是Linux命令,应该是去console,
请问,如果我想修改数据框第1和3列的列名,这个代码为什么不对?
这里取子集不对
老师好,课程回放里,后面讲的ggsave() 和 三段论 是分别两种保存方法?
是的
那ggsave以后,还要dev.off()不?
不用,但是,ggsave仅仅是针对 ggplot派系的图像哦,它很流行,但并不是唯一绘图派系
排版颜值也是在线的,工具mdnice
优秀学员终极练习题
https://www.yuque.com/docs/share/4d15544b-93c5-4d7d-83aa-6fc535ce2077
https://www.yuque.com/docs/share/12206c08-2b2b-4b31-bf32-6b9502e11186
有一个好玩的包,很方便查看任何基因的转录本结构
library(ggbio)
# hg38
library(EnsDb.Hsapiens.v86)
ensdb <- EnsDb.Hsapiens.v86
autoplot(ensdb, GeneNameFilter("TNFSF15")) + theme_bw()
这个报错了是为什么啊
输入数据错了
GSEA做KEGG和GO富集出来的结果都不一样吗?我用两种方法分别做了那个单通路的展示图,有点不一样
一个是基因集富集,一个是超几个分布,检验一个用了全部的基因,一个只用了差异基因
老师,请问做作业过程中,deg这个数据框里面的这个B这一列是什么意思?不记得是哪里有生成这一列了~
b是t检验的一个指标,统计学背景
为啥我在服务器里输入字符或者删减都一卡一卡的,是跟我网络有关么?
是的
老师,vim把频道删光了,然后再加频道一直报错,加不进去了
直接把~/.condarc文件删了就好了,重新添加频道
老师说的用conda安装生信相关的就好了是吧,其他不用装
是的
老师为啥我的vimtutor是英文的
记得后面要加Zh那个 课上说了
请教一下各位老师和同学,gff3里面第三列信息,biological_region是指的哪种生物学的定义?其他的那些染色体假基因什么的都知道,这个region倒是没有见过
http://www.sequenceontology.org/browser/current_svn/term/SO:0001411 这个网页稍微有点介绍这个biological_region
请教老师[抱拳]现在服务器上的文件和软件,能转移到购买的共享服务器上吗?
可以用 xftp,但没必要,重新建立小环境或者下载比你这样移动会更快
用mamba安装软件报错了
用conda试试 我今天用mamba也报错了 就很奇怪,或者你加一个参数试试:conda install -y -c bioconda <SOFTWARE>
老师~能简单解释一下软连接和复制粘贴的区别吗?
软链接占你很少的磁盘空间 相当于快捷方式,复制粘贴是实实在在占空间的,上课的服务器空间有限 每个人也只有40G左右吧 如果大家都是复制粘贴 早就爆了 软链接就没关系 只在软链的地方占一份空间
酱紫!因为我看课上老师二进制手动安装用的都是cp命令
二进制软件没多大 用谁都行了 转录组数据都很大 哈哈
sed 's/_1.fastq.gz//g' | sed 's/_2.fastq.gz//g'这两个命令怎么整合到一起呢?把文件的后缀给拿掉?
ls * |sed 's#_[1|2].fastq.gz##g'
我还有一个问题哦,怎么判断文本中的分隔符是空格还是\t?我记得萌哥好像讲过,但我想不起来在哪能找到了
ls *gz |sed 's/...fastq.gz$//g' 再加一个$就可以表示从后往前 删除 几个点就是几个字符
我从头到尾重新写了一遍,不行?
echo $key_ssh
密匙定义是系统关了就失效了吗
对 这个定义只在当前会话中有效,如果你希望它一直有效的话就写到 .bashrc里或者 写到脚本里去 不要在前台运行。所以 比较方便的是 写sh脚本运行。
老师,请问下Homo_sapiens.GRCh38_release95.genome.fa这个文件是怎么来的?昨天构建索引的前一步不就只是下载了fa.gz和gtf.gz文件吗?
就是个fa跟你那个一样 我重命名了
这个 sample.ID是什么时候生成的?
下好数据的时候 就可以自己做一个,上课的时候是直接用了之前生成好的
老师好,在做linux结构语句练习题的时候,bowtie2装好后,-h是可以调出来帮助文档的。为啥用if语句检测时候是输出了no?
忘记回到家目录~
为啥回不回家目录直接影响了这个判断啊老师?
$? 表示你上一句命令的返回值,你倒数第二次运行的命令,报错,返回值当然不为0。
我这个是什么问题?
你前面定义的inputdir可能没定义上 你echo出来看看,因为你定义的时候加了空格,index也有问题,是前缀,不是文件夹,养成检查的习惯能给以后省很多事儿呢
不会
老师好,请问这个aspera下载里面 -P33001这个参数 是根据服务器会更换的吗?
不会
老师好,请问我这个语句想对SRR的文件取第二行开始,每隔3行取出来序列,是哪里代码有错误无法实现呀?最后的结果是显示了从第2行一直取下去了。。。并没有每隔3行
试试sed吧,这个代码 取得是每隔 3行 正好取到第三行 并不是隔了三行去第四行
老师,请问RNA-seq 项目结题报告里的测序饱和度分析 测序随机性分析这种可以通过分析数据得到吗?
可以,技能树公众号搜一下 检索关键词:RSeQC,这个地方理解起来比基础内容要求高一些
请问一下,我好像在学校的网络环境下登录不上生信技能树的服务器,这个可以解决吗?
换个网络
请问multiqc这个命令在质量评估步骤里最后也写了,在数据过滤trim_galore的最后也用了同样的一句话,multiqc *.zip。请问这是把两个整合在一起?然后也不需要重新命名? 请问老师如何理解呀?
一个是原始数据 一个是cleandata,分别生成在不同的文件夹
老师您好,请问是不是有黄色箭头指的这一步生成日志,所以最后一个生成的fastp.log是空的?
两个不同的log,你混了
但是我按照黄色框里面的代码去打,生成的是空的呀?
sh生成的那个log 是运行sh的时候产生的日志 不一定有内容
请教各位老师一个问题,varscan call突变的结果文件里,这个Pvalue代表什么意思?
看软件的方法部分
老师好,不知道为什么写xls文件的时候遇到permission denied,是读写权限的问题嘛?
你现在所在的不是自己的目录,你可以把输出结果 > ~/xxx.xls ,这样才是输出到自己家目录
老师好~ 我在看课程录像,然后index过程这里不知道为啥明明有文件但是建索引说不存在[脸红]
index写错误了,无需通配符,前缀即可
请问一下,如果原始数据里同一个样本有两个fq文件,比如xxxxx_1和xxxxx_2,那这两个文件分别代表什么呢?
双端测序的左端和右端哈。如果忘记了可以回去重新听一下转录组测序原理的视频哈
老师,Homo_sapiens.GRCh38_release95.genome.fa 这个文件是由Homo_sapiens.GRCh38.dna.primary_assembly.fa.gz 解压得到的么?我用gzip解压并没有得到genome.fa的文件
文件名不一样,我重命名了,本质就是同一个
老师们,请问下用aspera下载单个样本,这个报错是为啥
从代码上来看,是没有问题的,如果你只是练习,那就这样就好。如果你真想下载,那就删除掉这个软连接文件,然后再下载
请教一下老师们~ 我想用DegNorm这个R包 我在电脑的RStudio里面运行示例代码的时候没有问题 但是在服务器中运行的时候出现了这个问题 请问老师们知道可能是什么问题造成的吗?谢谢!
这太具体了,除非遇到和你一模一样的报错,不然哪能知道[破涕为笑]
老师 我R包加载的时候出现这种错误 这种算不用管的报错吗[破涕为笑]
信息中间出现了一个Error
要处理的
老师好,请问,如果某个GSE的数据集的二代测序数据,作者有上传整理好的count数据,我们还要走linux过滤那些前期步骤吗?
如果你对作者的步骤有信任,无需
老师还有个问题,当时讲表达芯片的时候,能够综合多个数据集一起分析。那二代测序的数据,是否也能进行多个数据集的联合分析呀?那就得从原始数据利用linux走了吧?
通常需要三个图具体看批次情况
想请教一个问题,ggplot画的图,为什么导出pdf后横纵坐标和图例都没有了,但是保存成jpg格式的就有
你代码里面设置了字体,目测是没有这种字体吧,改回默认字体
老师好,还是有点疑问,为什么有的数据的测序raw count不是整数呀?一开始我以为是我弄错了什么、、、
你的数据是哪里来的 你标的这一列是代表raw count值么,是什么软件定量出来的?
是GEO的数据 人家上传的 GSE115181的数据集
那你凭什么相信他是是raw count值,有可能他做那就是个错的,有可能你不理解他的流程,有可能它是一个估算值,各种情况都有的呀,你还不如自己下载数据走一遍流程,反正转录之后很快就可以跑完,这个是我的代码https://mp.weixin.qq.com/mp/appmsgalbum?__biz=MzUzMTEwODk0Ng==&action=getalbum&album_id=1749887454125293572&scene=173&subscene=91&sessionid=1624460397&enterid=1624460402&from_msgid=2247498080&from_itemidx=1&count=3&nolastread=1#wechat_redirect 你要是速度快的话,三两个小时就完成了。
老师们我也很疑惑啊就是这种上传的他不写rawcount的话 就没办法认定是rawcount是吗[破涕为笑]
我看了原文 只看到他说用了Tophat比对 cufflinks分析差异 chippeekAnno做功能富集分析
你去看看这个软件cufflinks
这个结果看着就是 count值,tophat+cufflinks的组合已经过时了 好多年前的了,跑的还特别慢,建议直接做原始数据啊 跑一些流程 很快啊
哈哈 缘分啊 我也在做115181这个作业 他上传的东西我没看懂 就直接去下原始数据了 结果比对的时候忘记是小鼠的了 直到用人的做完了比对率才10左右才发现 又重新做 [捂脸] 很多步骤挂后台以后我就做实验去了 或者睡一觉发现好了 然后看着是对的 才开始下一步 哈哈哈
以后可以从头到尾串成一个流程 投第一个主流程 第二天就全部分析完了,串流程的学习可以参考第一天给你们推荐的6个综述里面去找
娟老师好,请教您课程代码里这个 前比后 是不是指的是group_list里面的前后排序?因为我后面验证了一个基因发现是反的回来这里找问题,想跟您再确认一下~
看design的列名,这里是后面比前面
小娟老师,https://www.jianshu.com/p/ad605d4fa6f6这个链接里star+rsem那里有点没看懂,他是基因本跟转录本分开定量了吗?我们上课的code流程只是基因本吗?
基因本用词不准确,就是基因水平的定量,是分开了,我们上课的 featurecount是基因水平的定量,salmon是转录本水平的定量
转录组分析的基本定义是什么?我可能还是有点模糊,是转录本的定量分析还是rna的分析就是转录组分析?
一个基因的表达量一般等于这个基因生成的所有转录本表达量之和,检测的对象是RNA
那基因水平定量做出来的差异分析跟转录本做出来的差异分析,差异数不一样啊?该做哪个呢
RNA反转录生成的cDNA
我们实验室之前了解过,如果是看lncRNA那些非编码RNA的话,普通转录组测到的数据不多,好像技术流程不太一样,娟老师能指导更多一点知识不?我也疑惑
去看B站 曾老师的 lncRNA分析专题,上课的流程适用的范围是普通转录组,带有polyA尾的mRNA测序。从total RNA中首先采用磁珠富集出来mRNA 然后片段化等 建库。lncRNA一般分析的是total RNA 去除rRNA 然后测序 包含mRNA lncRNA 少量circRNA。smallRNA又是另一个流程,小RNA也有专门的建库方式。circRNA除了这个去rRNA还有 消化性线性建库 去除线性的RNA留下circRNA建库,你看看 第一天的PPT。
这里有一个专题 lncRNA从入门到精通
我其实已经用STAR比对完了,是不是可以直接衔接这链接里面的stringtie往下走?
https://mp.weixin.qq.com/s?__biz=MzAxMDkxODM1Ng==&mid=2247504544&idx=1&sn=25275b763b6e695a39f6ca26a9f93fe9&chksm=9b4b921bac3c1b0d986da3ad78b33462da2b2c9d2bfdb61f558ea8a39febdd17cdf2e4ef8435&scene=178&cur_album_id=1322384987060142080#rd
http://ccb.jhu.edu/people/salzberg/docs/Pertea_et_al-2016-Nature_Protocols.pdf
-
你看下这段话 stringtie对比对有些要求
曾老师这个码是不是有问题啊?会报错
根据你学到的Linux基础去debug,报错显示是if语句部分,结构不对。你把脚本的路径给我,我看看。
脚本我这边经过测试,完全没有问题的,所以,你提交任务的代码有问题,
nohup 。。。&括号在外面
还有一个问题,这个有重名,输出结果会乱的
你可以试试曲线救国, 把一步完成的任务分成两步. 即写个脚本来生成用于每个样品运行的脚本, 再去运行每个样品对应的脚本。比如, 你这里主体内容是要生成0~4这五个脚本, 你可以不用括号而使用echo 把命令打印出来存到另一个脚本里, 然后再去运行. 如果一步完成不了, 那就试试分步完成。例如: for i in {0..4}; do echo "nohup xxxxxxx &"; done >> myScript.sh。这样你就能得到5条命令, 之后再运行myScript.sh就可以了.
请教一下老师们,我在看这篇文献,他找DEG的方式有点特别
R语言代码应该怎么写呢?
曾老师,这是你公众号里最新的lncRNA下游流程的step3。这里的比如cpat软件我百度了需要root才能安装。而且这里面的tsv、Rdata还有R脚本都没有提供,我不知道怎么跟这个流程了
这个流程我一个实习生在我这里花了两个月,才掌握,后面的流程,不方便录制视频,每个步骤,每个软件依赖的数据库文件,都是巨无霸。
请问一下,curl命令后面的这个网址怎么得到的呢?
不需要这么麻烦的下载方式 不是啥正经途径 不建议研究
我可能没有表述清楚,我其实想问的是,如果我要从NCBI下载一条序列,怎么获取efetch地址?
有api,有专门的R包也可以,简单点的话从NCBI的网页上去下载, 用命令行的话, 有官方的Entrez的命令行工具叫edirect. 或者我最近在外网发现的一个工具叫ffq, https://github.com/pachterlab/ffq 也是很好用的.
在做昨天的作业,老师,result <- xmlParse("./clinical/142aea0e-7a7b-4ac4-9dbb-0f62e2379599/nationwidechildrens.org_clinical.TCGA-W5-AA2O.xml"),这句代码里的文件名要更换成什么?
clinical 文件夹下的某个文件夹及其包含的那个xml文件,
请教下大家,这个报错要怎么解决呢?
你的 cg* 和dat 的行名对不上
老师,请问R里面有没有类似linux echo $?这种返回一条命令是否成功运行的值?
R语言运行代码报错会直接弹出提示
我是想写个loop循环运行。我下的数据需要反复运行才能成功,经常连不上服务器
写成R脚本,在 Linux 上提交,这样就有返回值了
老师请问 怎么联系起linux和R啊?是在linux上面运行R吗?
在命令行打 R 回车,就进入了R语言,跟你在 Rstudio 左下角的控制台是一样的。
如果你的 Linux 基础过关,那你可以把很多句调试过得R代码,保存为一个 R 脚本,然后在 Linux 上运行这个脚本:Rscript ***.R