2021第四期_生信入门班_微信群答疑笔记

做教学我们是认真的,如果你对我们的马拉松授课(直播一个月互动教学)有疑问,可以看完我们从2000多个提问互动交流里面精选的200个问答!

与十万人一起学生信,你值得拥有下面的学习班:

下面是2021第4期生信入门微信群答疑精选200题
  1. 各位老师好,请问,IGV必须装在C盘么

    1. R和Rstudio要装在C盘, IGV等其它软件可以放在别的盘

  2. mac安装软件是否不用管什么,直接安装就是了

    1. 是的

  3. R包下载过程时间好像挺长的,这时候电脑能休眠吗?

    1. 不行

  4. 我的R和Rstudio是之前下载的,用的还挺顺利的,还用重新下载么

    1. R版本需要4以上的

  5. 请问这里点了下载下载了好多遍都不行,Windows10的选择清华的,应该怎么处理呢?

    1. 网盘里面我们准备好了R语言,可以非常方便下载

  6. 貌似安装不了网盘里面的这个软件

    1. 感觉可以换个mac的ftp软件,到时候讲师帮你安装

  7. 这个安装了,应用程序中怎么找不到?

    1. 这个是基础设施,并不是软件,理解一下这个概念

  8. 是否选一个安装

    1. iterm2的话更像是mac原生的“终端”(或者叫terminal),所以不装ierm2直接使用系统自带的terminal也是完全OK的

  9. 请问这里为什么复制不了那些R包?粘贴不上去

  10. R安装时,旧版本卸载后重启一下电脑

  11. 我已经安装了R了,他这个意思是说没安装,要重新装?

    1. 有安装在C盘吗?

  12. 重新装在C盘了,但是运行报错了

    1. 点这里重新创建一个脚本,然后把代码粘贴到这里

  13. 电脑最低配制什么?

    1. https://mp.weixin.qq.com/s/3AJ8rbEHcz9F0qDpIJANVg

  14. 怎么安装xx包,都是统一的答案

    1. 仿写代码,你看看你现在运行的脚本,install.packages,BiocManger::install,都试一下

  15. 安了好几遍了,还是不行

    1. 去这个文件夹把这个文件删掉

  16. R包安装

    1. 右键,管理员打开。

  17. 老师好,电脑是windows,从给的网盘材料里下载安装的IGV,IGV安装好了,但是双击以后就感觉屏幕上有界面闪现了一下,没有跳出来软件的界面。

    1. 正常的,等后面上课会讲

  18. 老师  请问R studio打不开是什么原因呢  重复安装三遍了  电脑是windows 10  从网盘材料里下载安装的  谢谢!

    1. 看答疑文档 Q4

    1. 卸了重装吧。三年前的版本了

  19. 我现在关不掉,也没法重新安装RStudio

    1. 任务管理器杀掉,

  20. 请教一下老师,安装这两个包,一直提示没有.First函数?

    1. 奇奇怪怪的问题,重启一下电脑试试

  21. 请问老师们怎么看待phython和R呢[愉快]

    1. 要是做影像组学 好像python更好一些,转录组基因组这些的下游R实现起来更方便吧   python有的语法挺麻烦的

  22. 想请教下:数据框中每一列的数据类型是否必须相同?[抱拳]

    1. 每一列之内需要相同,列与列之间可以不同

  23. 数据框要求每列长度相等,缺了的话怎么办呀?

    1. 可以先用NA补齐

  24. 这里面有两个ERROR,怎样解决呢

    1. 网络问题,R包下载不完全,再重新运行下代码或者换个网络

  25. 老师,右侧不见的部分如何打开

    1. 你在 terminal是Linux命令,应该是去console,

  26. 请问,如果我想修改数据框第1和3列的列名,这个代码为什么不对?

    1. 这里取子集不对

  27. 老师好,课程回放里,后面讲的ggsave() 和 三段论 是分别两种保存方法?

    1. 是的

  28. 那ggsave以后,还要dev.off()不?

    1. 不用,但是,ggsave仅仅是针对 ggplot派系的图像哦,它很流行,但并不是唯一绘图派系

  29. 优秀学员笔记https://mp.weixin.qq.com/mp/appmsgalbum?action=getalbum&__biz=MzAwMDUzNTIxNA==&scene=1&album_id=1894714083283615746&count=3#wechat_redirect

    1. 排版颜值也是在线的,工具mdnice

  30. 优秀学员终极练习题

    1. https://www.yuque.com/docs/share/4d15544b-93c5-4d7d-83aa-6fc535ce2077

    2. https://www.yuque.com/docs/share/12206c08-2b2b-4b31-bf32-6b9502e11186

  31. 有一个好玩的包,很方便查看任何基因的转录本结构

library(ggbio)

# hg38

library(EnsDb.Hsapiens.v86)

ensdb <- EnsDb.Hsapiens.v86

autoplot(ensdb, GeneNameFilter("TNFSF15")) + theme_bw()

  1. 这个报错了是为什么啊

    1. 输入数据错了

  2. GSEA做KEGG和GO富集出来的结果都不一样吗?我用两种方法分别做了那个单通路的展示图,有点不一样

    1. 一个是基因集富集,一个是超几个分布,检验一个用了全部的基因,一个只用了差异基因

  3. 老师,请问做作业过程中,deg这个数据框里面的这个B这一列是什么意思?不记得是哪里有生成这一列了~

    1. b是t检验的一个指标,统计学背景

  4. 为啥我在服务器里输入字符或者删减都一卡一卡的,是跟我网络有关么?

    1. 是的

  5. 老师,vim把频道删光了,然后再加频道一直报错,加不进去了

    1. 直接把~/.condarc文件删了就好了,重新添加频道

  6. 老师说的用conda安装生信相关的就好了是吧,其他不用装

    1. 是的

  7. 老师为啥我的vimtutor是英文的

    1. 记得后面要加Zh那个 课上说了

  8. 请教一下各位老师和同学,gff3里面第三列信息,biological_region是指的哪种生物学的定义?其他的那些染色体假基因什么的都知道,这个region倒是没有见过

    1. http://www.sequenceontology.org/browser/current_svn/term/SO:0001411 这个网页稍微有点介绍这个biological_region

  9. 请教老师[抱拳]现在服务器上的文件和软件,能转移到购买的共享服务器上吗?

    1. 可以用 xftp,但没必要,重新建立小环境或者下载比你这样移动会更快

  10. 用mamba安装软件报错了

    1. 用conda试试 我今天用mamba也报错了 就很奇怪,或者你加一个参数试试:conda install -y -c bioconda <SOFTWARE>

  11. 老师~能简单解释一下软连接和复制粘贴的区别吗?

    1. 软链接占你很少的磁盘空间 相当于快捷方式,复制粘贴是实实在在占空间的,上课的服务器空间有限 每个人也只有40G左右吧  如果大家都是复制粘贴 早就爆了  软链接就没关系 只在软链的地方占一份空间

  12. 酱紫!因为我看课上老师二进制手动安装用的都是cp命令

    1. 二进制软件没多大 用谁都行了 转录组数据都很大 哈哈

  13. sed 's/_1.fastq.gz//g' | sed 's/_2.fastq.gz//g'这两个命令怎么整合到一起呢?把文件的后缀给拿掉?

    1. ls * |sed 's#_[1|2].fastq.gz##g'

  14. 我还有一个问题哦,怎么判断文本中的分隔符是空格还是\t?我记得萌哥好像讲过,但我想不起来在哪能找到了

    1. ls *gz |sed 's/...fastq.gz$//g' 再加一个$就可以表示从后往前 删除 几个点就是几个字符

  15. 我从头到尾重新写了一遍,不行?

    1. echo $key_ssh

  16. 密匙定义是系统关了就失效了吗

    1. 对 这个定义只在当前会话中有效,如果你希望它一直有效的话就写到 .bashrc里或者 写到脚本里去 不要在前台运行。所以 比较方便的是 写sh脚本运行。

  17. 基础知识来一波https://mp.weixin.qq.com/s/QnmKCh_4ypcglAjSCUvwQQ

  18. 老师,请问下Homo_sapiens.GRCh38_release95.genome.fa这个文件是怎么来的?昨天构建索引的前一步不就只是下载了fa.gz和gtf.gz文件吗?

    1. 就是个fa跟你那个一样 我重命名了

  19. 这个 sample.ID是什么时候生成的?

    1. 下好数据的时候 就可以自己做一个,上课的时候是直接用了之前生成好的

  20. 老师好,在做linux结构语句练习题的时候,bowtie2装好后,-h是可以调出来帮助文档的。为啥用if语句检测时候是输出了no?

    1. 忘记回到家目录~

  21. 为啥回不回家目录直接影响了这个判断啊老师?

    1. $? 表示你上一句命令的返回值,你倒数第二次运行的命令,报错,返回值当然不为0。

  22. 我这个是什么问题?

    1. 你前面定义的inputdir可能没定义上 你echo出来看看,因为你定义的时候加了空格,index也有问题,是前缀,不是文件夹,养成检查的习惯能给以后省很多事儿呢

    1. 不会

  23. https://mp.weixin.qq.com/s/_DtkxSfLGQHcRju66J4yTQ

  24. 老师好,请问这个aspera下载里面 -P33001这个参数 是根据服务器会更换的吗?

    1. 不会

  25. 老师好,请问我这个语句想对SRR的文件取第二行开始,每隔3行取出来序列,是哪里代码有错误无法实现呀?最后的结果是显示了从第2行一直取下去了。。。并没有每隔3行

    1. 试试sed吧,这个代码 取得是每隔 3行 正好取到第三行 并不是隔了三行去第四行

  26. 老师,请问RNA-seq 项目结题报告里的测序饱和度分析 测序随机性分析这种可以通过分析数据得到吗?

    1. 可以,技能树公众号搜一下 检索关键词:RSeQC,这个地方理解起来比基础内容要求高一些

  27. 请问一下,我好像在学校的网络环境下登录不上生信技能树的服务器,这个可以解决吗?

    1. 换个网络

  28. 请问multiqc这个命令在质量评估步骤里最后也写了,在数据过滤trim_galore的最后也用了同样的一句话,multiqc *.zip。请问这是把两个整合在一起?然后也不需要重新命名?   请问老师如何理解呀?

    1. 一个是原始数据 一个是cleandata,分别生成在不同的文件夹

  29. 老师您好,请问是不是有黄色箭头指的这一步生成日志,所以最后一个生成的fastp.log是空的?

    1. 两个不同的log,你混了

  30. 但是我按照黄色框里面的代码去打,生成的是空的呀?

    1. sh生成的那个log 是运行sh的时候产生的日志 不一定有内容

  31. 请教各位老师一个问题,varscan call突变的结果文件里,这个Pvalue代表什么意思?

    1. 看软件的方法部分

  32. 老师好,不知道为什么写xls文件的时候遇到permission denied,是读写权限的问题嘛?

    1. 你现在所在的不是自己的目录,你可以把输出结果 > ~/xxx.xls ,这样才是输出到自己家目录

  33. 老师好~ 我在看课程录像,然后index过程这里不知道为啥明明有文件但是建索引说不存在[脸红]

    1. index写错误了,无需通配符,前缀即可

  34. 请问一下,如果原始数据里同一个样本有两个fq文件,比如xxxxx_1和xxxxx_2,那这两个文件分别代表什么呢?

    1. 双端测序的左端和右端哈。如果忘记了可以回去重新听一下转录组测序原理的视频哈

  35. 老师,Homo_sapiens.GRCh38_release95.genome.fa 这个文件是由Homo_sapiens.GRCh38.dna.primary_assembly.fa.gz 解压得到的么?我用gzip解压并没有得到genome.fa的文件

    1. 文件名不一样,我重命名了,本质就是同一个

  36. 老师们,请问下用aspera下载单个样本,这个报错是为啥

    1. 从代码上来看,是没有问题的,如果你只是练习,那就这样就好。如果你真想下载,那就删除掉这个软连接文件,然后再下载

  37. 请教一下老师们~ 我想用DegNorm这个R包 我在电脑的RStudio里面运行示例代码的时候没有问题 但是在服务器中运行的时候出现了这个问题 请问老师们知道可能是什么问题造成的吗?谢谢!

    1. 这太具体了,除非遇到和你一模一样的报错,不然哪能知道[破涕为笑]

  38. 老师 我R包加载的时候出现这种错误 这种算不用管的报错吗[破涕为笑]

    信息中间出现了一个Error

    1. 要处理的

  39. 老师好,请问,如果某个GSE的数据集的二代测序数据,作者有上传整理好的count数据,我们还要走linux过滤那些前期步骤吗?

    1. 如果你对作者的步骤有信任,无需

  40. 老师还有个问题,当时讲表达芯片的时候,能够综合多个数据集一起分析。那二代测序的数据,是否也能进行多个数据集的联合分析呀?那就得从原始数据利用linux走了吧?

    1. 通常需要三个图具体看批次情况

  41. 想请教一个问题,ggplot画的图,为什么导出pdf后横纵坐标和图例都没有了,但是保存成jpg格式的就有

    1. 你代码里面设置了字体,目测是没有这种字体吧,改回默认字体

  42. 老师好,还是有点疑问,为什么有的数据的测序raw count不是整数呀?一开始我以为是我弄错了什么、、、

    1. 你的数据是哪里来的 你标的这一列是代表raw count值么,是什么软件定量出来的?

  43. 是GEO的数据 人家上传的 GSE115181的数据集

    1. 那你凭什么相信他是是raw count值,有可能他做那就是个错的,有可能你不理解他的流程,有可能它是一个估算值,各种情况都有的呀,你还不如自己下载数据走一遍流程,反正转录之后很快就可以跑完,这个是我的代码https://mp.weixin.qq.com/mp/appmsgalbum?__biz=MzUzMTEwODk0Ng==&action=getalbum&album_id=1749887454125293572&scene=173&subscene=91&sessionid=1624460397&enterid=1624460402&from_msgid=2247498080&from_itemidx=1&count=3&nolastread=1#wechat_redirect 你要是速度快的话,三两个小时就完成了。

  44. 老师们我也很疑惑啊就是这种上传的他不写rawcount的话 就没办法认定是rawcount是吗[破涕为笑]

    1. 我看了原文 只看到他说用了Tophat比对 cufflinks分析差异 chippeekAnno做功能富集分析

      你去看看这个软件cufflinks

      这个结果看着就是 count值,tophat+cufflinks的组合已经过时了 好多年前的了,跑的还特别慢,建议直接做原始数据啊 跑一些流程 很快啊

  45. 哈哈 缘分啊  我也在做115181这个作业  他上传的东西我没看懂 就直接去下原始数据了  结果比对的时候忘记是小鼠的了 直到用人的做完了比对率才10左右才发现 又重新做 [捂脸]  很多步骤挂后台以后我就做实验去了 或者睡一觉发现好了  然后看着是对的 才开始下一步 哈哈哈

    1. 以后可以从头到尾串成一个流程 投第一个主流程 第二天就全部分析完了,串流程的学习可以参考第一天给你们推荐的6个综述里面去找

  46. 娟老师好,请教您课程代码里这个 前比后  是不是指的是group_list里面的前后排序?因为我后面验证了一个基因发现是反的回来这里找问题,想跟您再确认一下~

    1. 看design的列名,这里是后面比前面

  47. 小娟老师,https://www.jianshu.com/p/ad605d4fa6f6这个链接里star+rsem那里有点没看懂,他是基因本跟转录本分开定量了吗?我们上课的code流程只是基因本吗?

    1. 基因本用词不准确,就是基因水平的定量,是分开了,我们上课的 featurecount是基因水平的定量,salmon是转录本水平的定量

  48. 转录组分析的基本定义是什么?我可能还是有点模糊,是转录本的定量分析还是rna的分析就是转录组分析?

    1. 一个基因的表达量一般等于这个基因生成的所有转录本表达量之和,检测的对象是RNA

  49. 那基因水平定量做出来的差异分析跟转录本做出来的差异分析,差异数不一样啊?该做哪个呢

    1. RNA反转录生成的cDNA

  50. 我们实验室之前了解过,如果是看lncRNA那些非编码RNA的话,普通转录组测到的数据不多,好像技术流程不太一样,娟老师能指导更多一点知识不?我也疑惑

    1. 去看B站 曾老师的 lncRNA分析专题,上课的流程适用的范围是普通转录组,带有polyA尾的mRNA测序。从total RNA中首先采用磁珠富集出来mRNA 然后片段化等 建库。lncRNA一般分析的是total RNA 去除rRNA 然后测序 包含mRNA lncRNA 少量circRNA。smallRNA又是另一个流程,小RNA也有专门的建库方式。circRNA除了这个去rRNA还有 消化性线性建库 去除线性的RNA留下circRNA建库,你看看 第一天的PPT。

  51. 这里有一个专题 lncRNA从入门到精通

    https://mp.weixin.qq.com/mp/appmsgalbum?action=getalbum&__biz=MzAxMDkxODM1Ng==&scene=1&album_id=1322384987060142080&count=3#wechat_redirect

  52. 我其实已经用STAR比对完了,是不是可以直接衔接这链接里面的stringtie往下走?

https://mp.weixin.qq.com/s?__biz=MzAxMDkxODM1Ng==&mid=2247504544&idx=1&sn=25275b763b6e695a39f6ca26a9f93fe9&chksm=9b4b921bac3c1b0d986da3ad78b33462da2b2c9d2bfdb61f558ea8a39febdd17cdf2e4ef8435&scene=178&cur_album_id=1322384987060142080#rd

  1. http://ccb.jhu.edu/people/salzberg/docs/Pertea_et_al-2016-Nature_Protocols.pdf

  2. 你看下这段话 stringtie对比对有些要求

  1. 曾老师这个码是不是有问题啊?会报错

    1. 根据你学到的Linux基础去debug,报错显示是if语句部分,结构不对。你把脚本的路径给我,我看看。

    2. 脚本我这边经过测试,完全没有问题的,所以,你提交任务的代码有问题,

      nohup 。。。&括号在外面

    3. 还有一个问题,这个有重名,输出结果会乱的

    4. 你可以试试曲线救国, 把一步完成的任务分成两步. 即写个脚本来生成用于每个样品运行的脚本, 再去运行每个样品对应的脚本。比如, 你这里主体内容是要生成0~4这五个脚本,  你可以不用括号而使用echo 把命令打印出来存到另一个脚本里, 然后再去运行. 如果一步完成不了, 那就试试分步完成。例如: for i in {0..4}; do echo "nohup xxxxxxx &"; done >> myScript.sh。这样你就能得到5条命令, 之后再运行myScript.sh就可以了.

  2. 请教一下老师们,我在看这篇文献,他找DEG的方式有点特别

    R语言代码应该怎么写呢?

  3. 曾老师,这是你公众号里最新的lncRNA下游流程的step3。这里的比如cpat软件我百度了需要root才能安装。而且这里面的tsv、Rdata还有R脚本都没有提供,我不知道怎么跟这个流程了

    1. 这个流程我一个实习生在我这里花了两个月,才掌握,后面的流程,不方便录制视频,每个步骤,每个软件依赖的数据库文件,都是巨无霸。

  4. 请问一下,curl命令后面的这个网址怎么得到的呢?

    1. 不需要这么麻烦的下载方式 不是啥正经途径 不建议研究

  5. 我可能没有表述清楚,我其实想问的是,如果我要从NCBI下载一条序列,怎么获取efetch地址?

    1. 有api,有专门的R包也可以,简单点的话从NCBI的网页上去下载, 用命令行的话, 有官方的Entrez的命令行工具叫edirect. 或者我最近在外网发现的一个工具叫ffq, https://github.com/pachterlab/ffq 也是很好用的.

  6. 在做昨天的作业,老师,result <- xmlParse("./clinical/142aea0e-7a7b-4ac4-9dbb-0f62e2379599/nationwidechildrens.org_clinical.TCGA-W5-AA2O.xml"),这句代码里的文件名要更换成什么?

    1. clinical 文件夹下的某个文件夹及其包含的那个xml文件,

  7. 请教下大家,这个报错要怎么解决呢?

    1. 你的 cg* 和dat 的行名对不上

  8. 老师,请问R里面有没有类似linux echo $?这种返回一条命令是否成功运行的值?

    1. R语言运行代码报错会直接弹出提示

  9. 我是想写个loop循环运行。我下的数据需要反复运行才能成功,经常连不上服务器

    1. 写成R脚本,在 Linux 上提交,这样就有返回值了

  10. 老师请问 怎么联系起linux和R啊?是在linux上面运行R吗?

    1. 在命令行打 R 回车,就进入了R语言,跟你在 Rstudio 左下角的控制台是一样的。

    2. 如果你的 Linux 基础过关,那你可以把很多句调试过得R代码,保存为一个 R 脚本,然后在 Linux 上运行这个脚本:Rscript  ***.R

(0)

相关推荐

  • 【无灯+Hiboy】padavan下自动更新aria2的BT tracker 服务器列表

     本帖最后由 Wildest_Dreams 于 2018-12-21 20:00 编辑 首先,在`/etc/storage`目录创建`trackers_list_aria2.sh` 在其它目录重启就会 ...

  • 宏基因组分析专题(5):从宏基因组数据中得到高质量的基因组数据- MetaBAT的安装和使用

    生科云网址:https://www.bioincloud.tech 本文由微科盟phage根据实践经验而整理,希望对大家有帮助. 微科盟原创微文,欢迎转发转载,转载须注明来源<微生态>公众 ...

  • 写了Bug,误执行 rm -fr /*,我删删删删库了,要跑路吗?

    还记得去年的小林吗?写个简单的 Bash 脚本都不上心了,写完连检查都不检查,直接拖到实体服务器跑. 结果一跑起来,发生不对劲,怎么一个简单脚本跑了 10 秒还没结束,于是立马直接 ctrl + c ...

  • 2021第二期_生信入门班_微信群答疑整理

    做教学我们是认真的,如果你对我们的马拉松授课(直播一个月互动教学)有疑问,可以看完我们从2000多个提问互动交流里面精选的200个问答! 与十万人一起学生信,你值得拥有下面的学习班: 生信入门课-20 ...

  • 2021第二期__微信群答疑笔记

    下面是2021第一期生信入门微信群答疑精选200题 有免疫相关基因集下载的地方吗?还是有专门的包解决这个问题 搜索我们生信技能树公众号历史教程,请看:免疫相关基因数量到底是多少个 老师,课前安装的软件 ...

  • 2021第一期生信入门微信群答疑精选200题

    做教学我们是认真的,如果你对我们的马拉松授课(直播一个月互动教学)有疑问,可以看完我们从2000多个提问交流里面精选的200个问答! 与十万人一起学生信,你值得拥有下面的学习班: 数据挖掘(GEO,T ...

  • SCI 写作句型|2021 第四期

    - 2021·第四期 - be intended to focus on  目的在于 This review article is intended to focus on the latest ad ...

  • 【生信挖掘】浅谈生信入门学习知识

    生信已经成为科研圈发SCI的神器了,检索PubMed上可见发表的文章不管高分低分都涉及生信,甚至南通大学2016级临床本科生张波发表21篇SCI,从影响因子 15分(2020年发表,实时IF 26分) ...

  • 生信入门课全国巡讲2019收官--长沙站

    据不完全统计,在生信技能树/生信菜鸟团的1.3万篇教程,至少有1427篇数据分析实战教程直接或者间接的帮助学员获得工作岗位,完成项目,找到课题,或者搞定基金/SCI文章!我们有一个梦想,把生物信息学技 ...

  • 【云帆诗鉴】云帆诗会2021第四期作品选评

    写在前面         诗之一途,非学无以开境,非鉴无以助长.学者,他山之石可以攻玉;鉴者,众人之议或能振聋.古人云"如切如磋,如琢如磨",此岂独言君子风度,更引申为好学精神,不 ...

  • 生物信息概论--生信入门第一本书

    到现在,接触生物信息已经三年了,我在这段时间接触了许多的学习资料,进行了或多或少的了解,这本书还是不错的,虽然在刚开始学习的时候并不知道这本书的存在,多么的希望当时有引路人,让我的步伐走的更快一下. ...

  • 2021第四期高研班第二次作业:

    完成考核人员分成A.B二组: A组:红五系红六系蓝一系蓝二系: B组:红一系红二系红三系红四系. A组由曲度91.94字长调谱中任选平仄各一首(含91.94字及平仄韵), B组由曲度92.93字长调谱 ...