lncRNA组装流程的软件介绍之seqtk

咱们《生信技能树》的B站有一个lncRNA数据分析实战,缺乏配套笔记,所以我们安排了100个lncRNA组装案例文献分享,以及这个流程会用到的100个软件的实战笔记教程

下面是100个lncRNA组装流程的软件的笔记教程

seqtk在生信届被誉为序列处理的瑞士军刀,其出自生信大神李恒之手,李恒是SAMtools、BWA、MAQ等著名生信软件的核心作者。seqtk基于C语言编写的软件,运行速度极快,极大的提高工作效率。seqtk日常序列的处理包括,比如:fq转换为fa,格式化序列,截取序列,随机抽取序列等。

一、软件安装

使用conda安装

conda install -y seqtk

二、seqtk的用法

安装完成以后,可以使用 seqtk 来查看软件的帮助文档。

1. 软件用法:

2. 常用参数:

Command: seq       common transformation of FASTA/Q # FASTA/Q 的转换 
         comp      get the nucleotide composition of FASTA/Q # 获取FASTA/Q的核苷酸组成
         sample    subsample sequences # 获取样本序列 
         subseq    extract subsequences from FASTA/Q # 提取子序列
         fqchk     fastq QC (base/quality summary) # fastq的质控
         mergepe   interleave two PE FASTA/Q files # 交叉合并双端测序的两个FASTA/Q files,
                                                   # 合并后的file第一条序列是第一个fq的第一条,
                                                   # 合并后的file第二条是序列是第二个fq的第一条
         trimfq    trim FASTQ using the Phred algorithm # 用Phred算法对fq修剪

hety      regional heterozygosity # 区域性杂合
         gc        identify high- or low-GC regions # 识别高低GC含量的区域
         mutfa     point mutate FASTA at specified positions # 在特定位置指出FASTA的突变
         mergefa   merge two FASTA/Q files # 合并两个的FASTA/Q files
         famask    apply a X-coded FASTA to a source FASTA # 将X编码的fa应用到原fa
         dropse    drop unpaired from interleaved PE FASTA/Q # 从交错合并的fa/fq中丢弃不成对的序列
         rename    rename sequence names # 序列重命名
         randbase  choose a random base from hets#从hets中随机选一个碱基
         cutN      cut sequence at long N # 在N长度处切掉序列
         listhet   extract the position of each het # 提取每一个het位置       

三、软件运行命令

1. seq 序列常规转换

将fastq转换成fasta:

seqtk seq -a Sample_R1.fq.gz > Sample_R1.fa

将fastq序列做反向互补分析:

seqtk seq -r Sample_R1.fq.gz > Sample_Revc_R1.fq

2. sample 随机抽样

seqtk sample -s100 Sample_R1.fq.gz 10000

# 可直接对压缩文件进行序列随机提取,在提取R1和R2两个文件的时候,需要-s值一致,才能使提取的序列id号对应。

3. subseq 提取序列

# 根据输入的bed文件信息,将固定区域的序列提取出来:
seqtk subseq in.fa reg.bed > out.fa

# 根据输入的name list,提取相应名称序列:
seqtk subseq in.fq name.lst > out.fq

4. 截取序列

# 切除reads的前5bp,以及后10bp:
seqtk trimfq -b 5 -e 10 in.fq > out.fq

更多使用方法参考:

https://www.jianshu.com/p/2671198ae625

文末友情推荐

与十万人一起学生信,你值得拥有下面的学习班:

(0)

相关推荐

  • 盘点扩增子序列拼接工具和方法

    整理:谢鹏昊 修改:文涛 序列拼接 一.QIIME 二. Vsearch 三. Usearch 序列拼接 拿到扩增子测序结果之后的第一件事就是序列拼接(默认公司发放的数据都是没有问题的,所以不进行质量 ...

  • Harvard FAS Informatics出品的ATAC

    Harvard FAS Informatics出品的ATAC-seq测序指南 github链接:harvardinformatics/ATAC-seq 参考文献:ATAC-seq: A Method ...

  • seqkit:序列梳理神器-统计、格式转换、长度筛选、质量值转换、翻译、反向互补、抽样、去重、滑窗、拆分等30项全能

    写在前面 通过我几天的学习,我发现,seqkit十分好用,将序列的各种操作都囊括进去,加入多线程,我个人认为这将是非常好的胶水,在处理无论是基因组还是其他组学.定是一个必学神器.注意一下教程在0.15 ...

  • 9-跟着science学习宏基因组-三种组装方法混样组装(megahit/spades/idba)

    全部样本组装:核糖体基因识别:序列回帖:单个样本组装:核糖体基因识别:序列回帖: 合并全部样本 将全部样本的前端和后端分别合并,未匹配的也合并.这里我们可以注意到明没有添加序列标签,因为做组装也不需要 ...

  • lncRNA组装流程的软件介绍之MultiQC

    咱们<生信技能树>的B站有一个lncRNA数据分析实战,缺乏配套笔记,所以我们安排了100个lncRNA组装案例文献分享,以及这个流程会用到的100个软件的实战笔记教程! 下面是100个l ...

  • lncRNA组装流程的软件介绍之aspera

    咱们<生信技能树>的B站有一个lncRNA数据分析实战,缺乏配套笔记,所以我们安排了100个lncRNA组装案例文献分享,以及这个流程会用到的100个软件的实战笔记教程! 下面是100个l ...

  • lncRNA组装流程的软件介绍之trim-galore

    咱们<生信技能树>的B站有一个lncRNA数据分析实战,缺乏配套笔记,所以我们安排了100个lncRNA组装案例文献分享,以及这个流程会用到的100个软件的实战笔记教程! 下面是100个l ...

  • lncRNA组装流程的软件介绍之FastQC

    咱们<生信技能树>的B站有一个lncRNA数据分析实战,缺乏配套笔记,所以我们安排了100个lncRNA组装案例文献分享,以及这个流程会用到的100个软件的实战笔记教程! 下面是100个l ...

  • lncRNA组装流程的软件介绍之diamond

    咱们<生信技能树>的B站有一个lncRNA数据分析实战,缺乏配套笔记,所以我们安排了100个lncRNA组装案例文献分享,以及这个流程会用到的100个软件的实战笔记教程! 下面是100个l ...

  • lncRNA组装流程的软件介绍之CPC2

    咱们<生信技能树>的B站有一个lncRNA数据分析实战,缺乏配套笔记,所以我们安排了100个lncRNA组装案例文献分享,以及这个流程会用到的100个软件的实战笔记教程! 下面是100个l ...

  • lncRNA组装流程的软件介绍之featureCounts

    咱们<生信技能树>的B站有一个lncRNA数据分析实战,缺乏配套笔记,所以我们安排了100个lncRNA组装案例文献分享,以及这个流程会用到的100个软件的实战笔记教程! 下面是100个l ...

  • lncRNA组装流程的软件介绍软件推荐之DEseq2

    咱们<生信技能树>的B站有一个lncRNA数据分析实战,缺乏配套笔记,所以我们安排了100个lncRNA组装案例文献分享,以及这个流程会用到的100个软件的实战笔记教程! 下面是100个l ...

  • lncRNA组装流程的软件介绍之PLEK

    咱们<生信技能树>的B站有一个lncRNA数据分析实战,缺乏配套笔记,所以我们安排了100个lncRNA组装案例文献分享,以及这个流程会用到的100个软件的实战笔记教程! 下面是100个l ...