把fasta序列读入到R里面去 / 四六文摘

写在前面我隐约记得我写过类似主题,但也并不确定.相关功能,我并不写使用说明的冲动,一者是这些功能至少是四五年前就有的,二者是这些功能其实比较简单,但也并不常用.然而,现在我还是决定写一篇.主要动机简 ...

写在前面 <-零命令行-生信下游数据分析>的第一帖主题,定为序列提取.因为序列提取,可以说是目前最常见的生信下游数据分析需求,其主要见于场景: 1.物种基因组已公布,但没有对应的数据库,而 ...

基因,即具有遗传效应的DNA片段,是控制生物性状的基本遗传单位.基因有两个特点,一是能忠实地复制自己,以保持生物的基本特征:二是基因能够"突变",突变绝大多数会导致疾病,因此研究某 ...

写在前面通过我几天的学习,我发现,seqkit十分好用,将序列的各种操作都囊括进去,加入多线程,我个人认为这将是非常好的胶水,在处理无论是基因组还是其他组学.定是一个必学神器.注意一下教程在0.15 ...

写在前面我们在处理GEO芯片数据的时候,经常会碰到芯片的数据的注释文件没有提供基因名,只有基因的序列.替代的解决办法就是对所有的注释数据来进行批量的blast,利用注释文件提供的序列来通过blast ...

我前面写到了生信分析人员如何入门linux和perl,后面还会写R和python的总结,但是在这中间我想插入一个脚本实战指南.其实在我前两篇日志里面也重点提到了学习编程语言最重要的就是实战了,也点出了 ...

序列是基因组学数据的基本单位,对于序列先关信息的存储,有以下两种常用的文件格式 1. fasta 2. genebank 通过biopython, 我们可以方便的读取这些格式的文件,并提取其中的信息. ...

很简单的一个shell脚本,从UCSC里面单独下载X,Y染色体的fasta序列,写脚本从Y染色体序列里面模拟双端测序的fastqa文件,然后用bwa软件比对到X染色体,作为参考基因组. 全部代码如下: ...

数据是一切的开始,前面我们介绍了一些背景知识,主要是理解什么是DNA甲基化,为什么要检测它,以及芯片和测序两个方向的DNA甲基化检测技术.具体介绍在:甲基化的一些基础知识,也了解了甲基化芯片的一般分析 ...

前面我在生信技能树的推文教程:通过IMGT数据库认知免疫组库提到了它是目前免疫组库相关fasta序列整理的最齐全的.(因为被黑粉举报,所以我们公众号时隔半个月才能继续发原创,让大家久等了) 真的是搞 ...

电脑开机启动项十分重要,如果启动项出现问题,那么就很容易导致开机失败.最近有位朋友想要添加UEFI启动序列,但是不知道如何去操作,进入BIOS界面也看不懂.其实,这种情况,我们可以通过Bootice工 ...

一天之计在于晨夏日清晨,缓缓铺开瑜伽垫唤醒沉睡一夜的身体一整天活力满满那么,夏天晨起怎样练瑜伽该注意什么呢? 下面这几点很重要哦! --练习时间-- 最好选择在6点钟左右因为早上6点钟太阳光 ...

原文链接:http://tecdat.cn/?p=22945 动态时间规整(DTW,Dynamic time warping,动态时间归整/规整/弯曲)是一种衡量两个序列之间最佳排列的算法.线性序列数 ...

原文链接:http://tecdat.cn/?p=23000 分解南非GDP数据本文包含各种过滤器,可用于分解南非GDP的方法.我们做的第一件事是清除当前环境中的所有变量.这可以通过以下命令进行. ...

假如你的Windows电脑有个bam文件,不想传输到linux服务器去使用samtools等命令行工具来探索它,就可以使用R语言! 有成熟的R包可以把bam文件读入R,比如Rsamtools,很简单的 ...

把fasta序列读入到R里面去