生物芯片与第二代测序技术丁香园答疑帖精选(上) | Public Library of Bioinformatics
生物芯片与第二代测序技术是两种重要的高通量基因组学研究方法,在生命科学研究领域有着极其广泛的应用前景。经过近20年的发展,生物芯片技术逐渐成熟,正在向着 “高密度,灵活定制,微量样品” 的方向发展,从一个实验室技术发展成一个基因组学研究所依赖的,快速产生海量数据的常规手段,正在逐步走向产业化。第二代测序技术是最近几年建立的高通量技术,其特点是一次测序反应可以产生千万到亿条序列,而测序的成本大大降低,到2010年已经进入数千美元测定一个人全基因组的时代。
上海伯豪生物技术有限公司/生物芯片上海国家工程研究中心受丁香园网站邀请,在其论坛发布了生物芯片与第二代测序技术答疑专帖。
以下精选部分问题,希望能帮助大家解决针对生物芯片及二代测序方面的疑问!
问题1.咨询一下贵公司的microRNA检测方面信息。使用贵公司microRNA芯片,能否检测人血清的microRNA表达。是否需要对标本进行特殊处理?
答:目前用血液样品做microRNA芯片有两种情况。
1、全血:一般是分离白细胞,用试剂盒抽提白细胞中的RNA,随后做芯片实验。一般1-2ml全血即可。
2、血清血浆:直接用试剂盒抽提RNA,因为目前发现血清血浆中也有microRNA的存在。一般来讲,血浆的效果要好于血清。一般400ul的血清血浆就可以了。
您所问的属于第二种情况。但是做microRNA芯片的总RNA与做表达谱芯片的总RNA不一样,它必须包含microRNA,所以必须用能纯化到microRNA的试剂盒。我们公司抽提含microRNA的总RNA用Qiagen miRNeasy Kit试剂盒或Ambion mirVana miRNA isolution Kit试剂盒。
问题2.请问全转录组测序,可以同时检测mRNA、miRNA及其他非编码RNA吗?
答:首先需要向您讲明一个事实。目前,第二代测序的长度有不同的选择。Solexa GAIIx的测序长度是36bp,75bp和100bp;ABI SOLiD3的测序长度是25bp和50bp。不同的测序长度的费用是不同的!目前,我们通常根据测序样品长度的不同而选择不同的测序长度。例如:mRNA测序通常会需要75bp的读长,而microRNA则只需要36bp或者50bp的读长就足够了。
关于您所提的问题,技术上是可行 的,我们可以以75bp的读长测mRNA的同时测其中包含的microRNA。但是在经济上是不划算的。microRNA比较短,PCR扩增倍数多,形成 的cluster多,占用了很多本该属于mRNA测序的资源,而它们本身又用不完75bp的读长,所以造成浪费。
一般来讲,如果要进行 microRNA测序的话。我们希望能将microRNA分离出来,单独测序。
问题3.第二代测序中加barcode可以节省一些费用,但会牺牲一些数据量。对于做高等生物全转录组测序来说,最多可以加到几个barcode?
答:Barcode实际上是在同一次测序中区分不同样品的标记。一次测序产生的数据量有限,加多少Barcode要由转录组的大小和测序深度决定,而与物种无关。
理论上,Barcode可以达到256个。但是在一次测序反应中,Barcode越多,样品越混乱,越容易产生Bias。一般建议单次测序,Barcode不要超过4个。
问题4:想请问如何评价芯片的数据结果质量呢,重复性和正反标重复性是一个重要指标吗?cDNA芯片的重复性是不是比较差?
答:目前,生物芯片技术发展成熟。
根据探针的不同,生物芯片 分为cDNA芯片和寡核苷酸芯片。
cDNA芯片的探针是以文库为模板,PCR获得。目前cDNA芯片一般为点制芯片,这类芯片的探针长度一般能达 到250bp,片内重复性90%以上。但是这类芯片目前正在走向衰亡。
寡核苷酸芯片的探针是人工合成获得。现在有点制芯片和原位合成两种。目前的 主流是原位合成的寡核苷酸芯片,例如,生物芯片巨头affymetrix,Agilent,nimblegen都是原位合成的寡核苷酸芯片。
原位合成的寡核苷酸芯片重复性极高。例如Agilent的表达谱芯片的片间(注意是片间!)重复性能达到99.5%!
由于现在这些商品化的原位合成寡 核苷酸芯片的重复性已经有了很高的保障。因此,芯片实验的技术重复并不像以前那样得到重视(当然,如果您是自制芯片,那么还是需要做技术重复),现在大家更关心的是生物学重复,即从不同的侧面验证实验结果。
问题5: 我实验的目的是鉴定影响绵羊毛色的基因,想问下具体的采用哪种技术方法较好?
举例分析:有一群绵羊,毛色纯白,另一群绵羊,毛色黑色,这两种性状均遗传,请问如何鉴定影响绵羊毛色的基因。拟采用的方法:高通量的RNA-SEQ和DGE。
答:我想这类问题不能用RNA测序或者是数字表达谱来做。因为,表达谱研究RNA的转录情况及丰度。而RNA的转录情况与丰度影响因素太多。即使找到差异表达的基因,我们也不会知道哪个基因是决定毛色的。
但是,如 果把毛色看做是一种多基因决定的性状,用GWAS来研究的话,倒是一个好主意。只是费用会高的吓人。
所以,比较好而且能接受的方法是基因组筛选, 根据表型和性状进行基因组的定位。
问题6.我现在有几株噬菌体需要测序,不知道选用哪种方法好。一类是传统的sanger法,另一类是 solexa。如果用solexa测的话,小基因组可能会有比较多的gaps,拼接效果没有sanger法好,但是费用低。我们的噬菌体基因组在100kb左右。
请问我选用哪种方法好呢?谢谢!
答:如果你只有一株噬菌体的话,我建议你用Sanger法测序。100Kb的基因组很小,保守假设Sanger法测序每次能测500bp,那么理论上只需200次就可以覆盖一次基因组了,而且数据质量好,价格也不贵。
但是,如果你有好几株噬菌体的话,我还是建议你用第二代测序,因为可以设置Barcode,好几株 噬菌体一起测序,这样测序的费用会大大降低。但是如果是de novo 测序的话都存在需要用sanger法补gap的可能性。
问题7.请问生物芯片与第二代测序技术两者的优缺点各是什么?如果要比较病毒侵染后宿主基因表达的变化,在宿主基因组未知的情况下,应该选择哪一种比较合适?
答: 你好,生物芯片与第二代测序都是基因组学研究的重要手段。经过近20多年的发展,生物芯片相对第二代测序而言,优势在于价格便宜,便于分析。缺点则在于必须有参考序列(因为生物芯片的探针设计就是根据参考序列设计的)。因此,也有很多研究是先用第二代测序获得基因组序列,然后根据已知的基因组序列设计芯片,再用生物芯片来进行大量样本的分析。
但是如果宿主基因组未知的话,就只有用第二代测序了。(因为没法设计探针)
问题8.我做了array CGH,海量的数据,我看的头大,最后发现了几个基因的变化,也不知道结果对不对?真是惭愧啊!请问:array CGH的结果分析有什么具体或简洁的方法吗?还有,如果结论是对的,我下一步该怎么验证呢?
答: 你好!关于array CGH芯片的分析方法,一般芯片供应商都会提供数据分析的软件,会告诉你拷贝数的差异。这样的结果一般都是可信的。
关于后续的实验 验证。一般可以选择以下三种方法:
1、Q-PCR:比较拷贝数的差异
2、FISH
3、如果是基因缺失的话,可以用PCR的方法检测。例如,如果染色体上顺序排列A、B、C三个基因,现在B基因缺失,那么可以设计引物(覆盖A、C基因),如果该引物能扩增出来的话,表示B基因缺失 了;如果不能扩增出来的话(基因一般都很长,超过5K),那么表示B基因没有缺失。
问题9.我是在读硕士,老板说我的课题方向做某种微生物的全基因组测序。但该生物的基因NCBI上,还有必要测吗? 如果要测,请问我要提供什么样品?量为多少?测序后的拼接是你们做还是我们自己做?测完后可以做什么分析?
做这种低等生物的全基因组测序,周期大概多长?
答: 如果已经存在参考序列, 那么再测一次就叫做重测序(re-sequence)。重测序的话,可以发现基因组的改变,一些SNV,small indel等。这些都很有意义。
例如:研究某种微生物的耐药性。那么可以将已经产生耐药性的菌株重测序,与参考相比较,发现有哪些基因发生改变,那些基因可能正是耐药性产生的根源。
如果要测序的话,提供DNA就可以了,5微克应该够了。测序后的拼接和数据分析,上海伯豪都有专门的生物信息学团队完成。测序周期的话要根据测序量来定。
问题10.请问做Nibergen的2.1M人的甲基化芯片,可不可以只做两个pool(每个pool选5个人),一个正常对照的pool,一个病人的pool,得到 了芯片的结果后再用人群样本来验证如何?谢谢!
答: Nimblegen的甲基化芯片是可以双标的,就是在一张芯片上就可以比较正常组和对照组。但是如果你的样品是组织的话,用pool来做就存在一个问题。因为细胞不一样,甲基化也不一样,而组织中往往存在多种细胞(组织其实就是一个各种细胞的混合物),这样很多的甲基化就被均一化掉了,对比不出来。用单个组织来做的话,情况还好。但是用组织的pool来做,很容易会检测不出来。当然,如果样本的单克隆的细胞的话,还是可以用pool来做的。
问题11.我们课题组做了慢病毒稳转的细胞系,想通过芯片技术筛选一些新的靶点,麻烦LZ推荐一下芯片的选择及实验的设计等,谢谢!
答:实验的样本有2个:1、慢病毒稳转的细胞系;2、原始细胞系。然后用芯片比较两组细胞系的差别。一般来讲,我们可以用表达谱芯片和microRNA芯片比较 两者基因表达和microRNA表达的差异。
另外,不知道你慢病毒转染的是什么东西。具体问题要具体分析,如果你转染的是一个蛋白。那么也可以根 据实验需要设计ChIP-chip等等。
问题12.我想问下各个基因组测序方法之间的区别是什么?例如solex和de novo测序法。
答: Solexa并不是一种测序方法,而是一种第二次测序仪器。
目前,第二代测序的仪器主要有3家:(1)Roche 454 Genome Sequencer FLX;(2)Illumina Genome Analyzer IIx (Solexa);(3)ABI SOLiD3。当然Illumina和ABI现在都已经发布了新的测序仪,分别是Hiseq 2000和SOLiD4。
关于测序方法,则主要是以下几类:
1、De novo 测序:即从头测序,不需要任何现有的序列资料就可以对某个物种进行测序,利用生物信息学分析手段对序列进行拼接,组装,从而获得该物种的基因组图谱。
2、基因组重测序:对有Reference Sequence的物种进行测序,寻找基因差异。
3、转录组测序:对转录组(RNA)进行测序。
此外,还有第二代测序与其它技术相结合,还有ChIP-Seq;甲基化测序等。
问题13.请问如果要测细胞内寄生菌的全基因组序列,我必须先培养然后再纯化该生物,再提DNA吗?直接提会有宿主细胞核酸的污 染吧?不过要把该生物纯化出来不容易呀!测序后的拼接和数据分析,你们公司都有专门的生物信息学团队完成。那是不是我们只要提供核酸,不用派人过去,后面直接拿结果,还是要派一个人一直在你们那里一起分析?6株生物完成基因组测序和结果分析大概要多长时间?
答: 目前第二代测序并没有靶向性,即所有的序列都会被测一下。所以如果你想测寄生菌的DNA,就必须尽量的去除宿主细胞的污染。的确很不容易。
测序后的数据分析,上海伯豪有专门的团队完成,原则上不用派人过来,只需要提供纯度足够的核酸就可以了。但是,如果你们想要学习一下测序后的数据分析,可以过来一起分析、学习。
问题14.可以比较下miRNA microarray和Taqman microRNA array吗?如果用于比较处理前后样本miRNA表达情况的差异。
答:目前miRNA microarray和Taqman microRNA array的结果相似性蛮高。有第三方文献比较过几种microRNA芯片的重复性,以及它们与taqman array的相关系数。如下图,AGL为Agilent的microRNA芯片;AMB为Ambion;EXQ为Exiqon。红色线为标准线,蓝色线为 回归线。Agilent的相关系数最高为0.85。microRNA芯片发展到如今,重复性与准确率均达到了一个相当高的标准。如果是有高通量的要求的 话,还是选用miRNA microarray的好。
第三方文献: Fumiaki Sato, Soken Tsuchiya, Kazuya Terasawa, Gozoh Tsujimoto. Intra-Platform Repeatability and Inter-Platform Comparability of MicroRNA Microarray Technology. PLoS ONE.2009.5
问题15.能将Exqion和 Agilent的做一下比较吗?优缺点?
答: Exiqon和Agilent的microRNA芯片相对比。由于Agilent采用了独特的封闭式探针设计,因此重复性与真实性都 比Exiqon好。有第三方文献比较过各种microRNA芯片平台(见上面的帖子),Agilent的各项数据都不错。下面的图截取了部分 Agilent与Exiqon对比的部分。
另外,由于采用了封闭式的探针设计,Agilent microRNA array是唯一能区分成熟miRNA和miRNA前体的芯片平台。
问题16.贵公司能够提供使用二代测序的方法检测人转录组的质控呀?
答: 关于质控标准是这样 的:
Solexa: (1) 1条lane, 序列数目须大于1千万,碱基总数须大于1G. (2) Q20须大于80%, Q20指质量分数大于20的碱基所占的比例.
SOLid : 比对上的序列数目须大于1千万,碱基总数须大于1G.
实际上,这些质控标 准都是最低要求. 我们这边完成的数据质量远好于这样的质控标准
问题17.请教下作plasma miRNA技术上是否成熟?相较于做组织难度在于?
答:Agilent的microRNA芯片检测血清血浆样品在技术上已经成熟了(SBC平台)。这边需要注意的是:不要用胰酶抗凝,只能用EDTA抗凝。
MicroRNA 芯片检测血清血浆样品,相较于做组织,难点在于microRNA量少。但是从另一角度考虑,血清血浆中没有了大分子RNA的影响,特异性也会提高。另外, 血清血浆属于循环系统,其样本的特殊性也是其具有特殊的研究意义。
问题18.请问以双通道芯片(均与共同对照进行芯片实验)寻找差异表达基因,最少的样本是几对呢?生物学重复样本又有何要求?之后怎样选择real-time PCR 验证的基因呢?需验证多少呢?
答: 用双通道芯片寻找差异 表达基因,最少的样本1对就可以了。因为是用于筛选,后续还要验证。
至于生物学重复样本如何选择,这个需要具体问题具体分析。举个例子,用 siRNA沉默某个基因,发现siRNA-A,siRNA-B都能发挥作用,然后想研究这个基因沉默后细胞的基因表达情况,那么可以设立生物学重 复:siRNA-A转染的细胞/正常细胞;siRNA-B转染的细胞/正常细胞。
芯片实验之后,如何选择需要后续验证的基因。表达谱芯片实验完成 之后,我们可以得到一系列差异表达的基因。这个时候需要用一些生物信息学手段对数据进行统计分析和功能分析。分析完成之后,可以选择差异倍数较大的基因进 行后续验证,或者选择存在于您课题相关信号通路中的基因进行后续分析。
我们SBC平台对于客户提供了一个免费的在线分析平台—SAS系统(http://sas.ebioservice.com/)。这个系统可以进行各项统计分析和功能分析,另外还能得到一些可以直接放在文章中的图,例如聚类分析图。用起来还是比较方便。
问题19.如果做低密度芯片,能自己买点样针,自己点吗?操作因该注意些什么?还是必须买手动点样仪?不知道手动芯片点样仪大概价格是多少?
答:生物芯片从研发到制作所需的仪器,除了分子生物学常规的实验装备外,还需要点样仪和扫描仪。点样仪比较贵,便宜的也要几十万。 如果您想自制芯片,目前必须要用点样仪来点样,人工点样是不行的,毕竟生物芯片也是高精度产品。 目前,由于重复性不好等问题,自制芯片已经慢慢被淘汰。另一方面原位合成的寡核苷酸芯片发展迅速,除了Catalog上的芯片种类外,还可以用户定制芯片(例如Agilent的e-array定制芯片系统)。价格也不贵,最重要的是重复性高,实验数据得到国际公认。所以如果您想做低密度芯片,还是推荐您在专门的芯片公司定制芯片。
问题20.请问如果要对人类的肿瘤组织进行全基因组测序,是进行de novo 还是 Re-Sequence?人类的全基因组测序结果已经公布(千人基因组),但是肿瘤组织每种肿瘤、不同病理类型、不同种族差异很大。
答:对人类样本测序都是Re-Sequence。因为已经有参考序列,在NGS中,参考序列的意义是搭建一个框架,然后NGS得到的数据就可以根据这个框架搭建上去(拼接)。
虽然不同的个体,不同的肿瘤组织基因组序列不同,但是框架是一样的。NGS得到的数据依靠框架重新拼接起来,就可以得到各个组织独特的基因组序列。
问题21.根据NCBI上可以得到线虫的SNP,我从一颗树上取下一推线虫(由于线虫太小,无法分离)来提取基因组,想通过再测序知道我的样本中SNP是否与数据库一致,另外还想知道SNP发生的频率是多少。请问哪种方法可以得到我想要的结果呢?
答:你的样本实际上是一个线虫基因组DNA Pool。这样的样本拿来测序,得到的数据是可以与NCBI数据库比对的,你可以发现一些那棵树上的线虫种群所特有的SNP位点。但是,以此来推算SNP位点的频率是不行的。因为那个线虫基因组DNA Pool是不均匀的。
举个例子,那棵树上有两只线虫A和B。A的基因组大些,为2ug;B的基因组小些,为1ug。在某个SNP位点,线虫A为C,线虫B为T。
然后你逮到了线虫A和B,然后混合提取基因组DNA。所提取到的基因组DNA pool为3ug(A占2ug,B占1ug)。假设测序的扩增过程是完全线性的,那么最后的测序结果中,在那个SNP位点,67%的比率为C,33%的比率为T。
这样的测序结果,你能说在这个SNP位点C的频率为67%吗?当然是不能的。
因此。你想发现新的SNP位点是可以的。但是想估算SNP频率是不行的。
延续问题:你好,我仔细阅读了你的建议,有如下思考,我们知道ROCHE454的焦磷酸测序的优点就在于可以给出序列和频率,那其他两个平台有可能给出类似的信息吗?当然其中有个问题就是你在上面提到的浓度问题。如果浓度不平衡,给出的频率就不准确。那我想问问是否有办法来解决浓度平衡的问题呢?如果没有更好的办法,是不是就不可能知道SNP发生的频率了?
答:频率的解决还是通过一个个体测一次然后统计才能真正解决,
当然,我们对于“频率”的要求是不一样的,比如说线虫,也许您只是想知道那种位点占优势而已,对于线虫来说通过一定的方法,分离,计数虫体等等,得到的数据还是有一定意义的,
另外对于NGS来讲,454,SOLEXA,SOLID都可以解决这个问题,当然碰到的问题都一样,这个问题不是测序的问题,而是样本的问题。
问题22.关于生物芯片和二代测序,我有一些问题请教。
1)现在二代测序很火,有一种取代芯片的趋势,我想知道,生物芯片和二代测序各自的优缺点?
2)什么样的研究,使用芯片更好?什么样的测序更好?
3)关于不同的测序平台,测的长度不同,有什么样区别?
4)什么是数字表达谱?
答:microarray和NGS都是高通量的基因组学研究手段,两者还是有较显著的差异。
首先,根本机制不同,Microarray本质上是核酸杂交;NGS本质上是PCR。其次,microarray是一个封闭的系统,不可能检测到探针没有覆盖到的那部分信息;而NGS是一个开放的系统,来什么,测什么。所以:
(1)microarray不能发现新序列,而NGS可以发现一些以前没有检测到的基因。
(2)由于NGS本质上还是PCR,在建库的过程中样本被扩增上千倍,因此样本中基因的量的线性关系会有所偏差。因此NGS定量不是很好。如果想检测基因的表达量,还是用microarray的好。
简而言之,如果是想发现新东西,做探索性的实验,用NGS好些。如果研究对象是那些已知的东西,对定量的准确度要求很高,那么还是microarray的好。
关于不同的测序平台的差异,参见回帖。
关于数字表达谱,其实就是用NGS定量,一个基因的mRNA,测到一次算一个;测到两次算两个。这是在NGS刚刚出现的时候风靡的一个技术。但是现在基本没人用了,因为不是很准,而Illunima公司也停产了数字表达谱的相关试剂盒。