lncRNA组装流程的软件介绍之CPC2
咱们《生信技能树》的B站有一个lncRNA数据分析实战,缺乏配套笔记,所以我们安排了100个lncRNA组装案例文献分享,以及这个流程会用到的100个软件的实战笔记教程!
一、软件原理
CPC2为CPC 的升级版,发布于2017 年,是目前最新的lncRNA 鉴定工具,也代表着lncRNA 鉴定的最新研究进展。在经过大量的特征选择后,CPC2 最终的特征主要包括四条:最长ORF 长度,ORF 的完整性,Fickett 分数以及等电点 (isoelectric point, pI)[39,40]。其中等电点特征主要是通过将最长ORF 翻译为氨基酸序列,而后根据氨基酸等电点这一理化性质计算而得。与大多lncRNA 鉴定工具相同,CPC2 也使用了支持向量机来构建分类器。
二、软件使用
该软件既可以在本地运行,也提供了在线版本。
1. 在线版本
在线版本的网址如下
http://cpc2.gao-lab.org/
可以直接输入fasta格式的序列
2. 本地版本
安装
# 创建python2环境
conda create -n py2test python=2.7
# 安装biopython
conda install biopython=1.70
# 安装CPC2
wget https://github.com/biocoder/CPC2/archive/refs/heads/master.zip
unzip master.zip
cd ~/CPC2-master/libs/libsvm/libsvm-3.18
make clean && make
运行
nohup python CPC2.py -i ~/lncRNA_project/07.identification/step2/filter2_transcript_exon.fa -o ~/lncRNA_project/07.identification/step3/CPC2/CPC2_result.txt > cpc2.log 2>&1 &
参数解读:
-i # 参数指定输出的fasta格式的转录本序列
-o # 参数指定输出结果的名称
三、输出结果解读
根据label区分ncRNA和protein coding
文末友情推荐
与十万人一起学生信,你值得拥有下面的学习班: