找不到ID就怀疑人家造假这样不好啊
看到我最近在报道一些生物信息学数据分析的吐槽点,见:
感兴趣的粉丝超级多,也有一些朋友想贡献自己的一份力量,一起来吐槽看到的一些无厘头的生物信息学数据分析。
其中一个粉丝想吐槽他最近看到的一篇自己研究领域的文章:Resveratrol improves high-fat diet-induced insulin resistance in mice by downregulating the lncRNA NONMMUT008655.2. Am J Transl Res 2020;12(1):1-18. PMID: 32051733,因为该文章里面提到了一个基因超级重要,就是 lncRNA NONMMUT008655.2,但是搜索全网,各种数据库,根本就是没有这个 lncRNA NONMMUT008655.2的ID啊!
我也帮忙搜索了,看起来是《普瑞文献 | 河北医科大学》合作RNA测序,杂志是 American Journal of Translational Research,作者单位:河北医科大学,影响因子:3.266,这个研究的介绍如下:
研究内容:白藜芦醇(RSV)作为糖尿病治疗领域的重要角色,近年来受到广泛关注。但是目前还尚不清楚它是否可以通过调节长链非编码RNA(lncRNA)来改善胰岛素抗性。这项研究的通过lncRNA测序确定目标lncRNA NONMMUT008655.2,探究RSV是否可以通过在体内和体外调节NONMMUT008655.2来改善小鼠高脂饮食诱导的胰岛素抗性。实验采用动物模型及细胞模型进行。C57BL / 6J小鼠喂食高脂饮食(HFD),并给予RSV八周。棕榈酸处理小鼠Hepa细胞,用siRNA NONMMUT008655.2转染,并用RSV处理。然后将处理的小鼠和细胞与未暴露于RSV的正常对照进行比较。在动物模型中,发现RSV可以降低空腹血糖、甘油三酸酯低密度脂蛋白胆固醇的水平、胰岛素指数,同时增加胰岛素敏感性指数。
仔细看了看文章,确实是Illumina NovaSeq 6000 (Mus musculus) ,是lncRNA测序,既然是测序,那么就会涉及到lncRNA组装流程,就可以自己对拿到的不同转录本进行ID命名。
而且,就算是粉丝自己无法搜索到,也不能代表人家就有问题,因为有可能是粉丝自己的知识水平不够。我看了看文章写得是:lncRNA and mRNA were obtained from authoritative databases, lncRNA included RefSeq, Ensembls and Genebank, and mRNA included Noncode and Ensembls. (确实有点怪异哦,其实lncRNA 才应该是来源于Noncode 数据库哈)
测序数据公开可以下载
https://www.ncbi.nlm.nih.gov/geo/query/acc.cgi?acc=GSe137840 https://www.ncbi.nlm.nih.gov/sra?term=SRP222955 https://www.ncbi.nlm.nih.gov/bioproject/PRJNA573644
一个测序数据,发两个文章,还是非常的经济实惠哦!
Shu L, Hou G, Zhao H, Huang W et al. Resveratrol improves high-fat diet-induced insulin resistance in mice by downregulating the lncRNA NONMMUT008655.2. Am J Transl Res 2020;12(1):1-18. PMID: 32051733 Shu L, Hou G, Zhao H, Huang W et al. Long non-coding RNA expression profiling following treatment with resveratrol to improve insulin resistance. Mol Med Rep 2020 Aug;22(2):1303-1316. PMID: 32627012
学徒任务
拿到这个文章的测序数据,走我授课的lncRNA组装流程,跟文章对比看看差异情况是否在可接受范围内:
LncRNA教学视频免费在B站:https://www.bilibili.com/video/BV1Zg4y187ff 思维导图:https://mubu.com/doc/ISk-Ev1tg 配套资源合辑:https://share.weiyun.com/5hWYL1b
另外,阅读这个测序数据的两个文献,写文献汇报PPT给我!
如果时间足够,顺便做一下差异分析也是极好的:
蛮有意思的哦!
完成我的100个学徒作业
我先列出来前面的71个题目,目录如下:
生信编程直播课程优秀学员作业展示1 生信编程直播课程优秀学员学习心得及作业展示3 生信编程直播课程优秀学员作业展示2 给学徒的GEO作业 这个WGCNA作业终于有学徒完成了! 上次说的gmt函数(学徒作业) 拖后腿学徒居然也完成作业,理解RNA-seq数据分析结果 肿瘤外显子视频课程小作业 ChIPseq视频课程小作业 Agilent芯片表达矩阵处理(学徒作业) 学徒作业:TCGA数据库单基因gsea之COAD-READ 学徒作业-在CCLE数据库里面根据指定基因在指定细胞系里面提取表达矩阵 学徒作业-指定基因在指定组织里面的表达量热图 学徒作业-我想看为什么这几个基因的表达量相关性非常高 学徒作业:给你8个甲基化探针, 你在tcga数据库进行任意探索 学徒作业-根据我的甲基化视频教程来完成2015-NPC-methy-GSE52068研究 RNA芯片和测序技术的比较(学徒作业) 学徒作业-单基因的tcga数据挖掘分析 ATCC终于出来了organoids资源 拿到7个DDR通路的基因集-学徒作业 绘图本身很简单但是获取数据很难 都说lncRNA只有部分具有polyA尾结构,请证明 学徒作业-hisat2+stringtie+ballgown流程 学徒任务-探索DNA甲基化的组织特异性 用WES和RNA-Seq数据提取到的somatic SNVs不一致 《GEO数据挖掘课程》配套练习题 一个甲基化芯片数据被挖掘好几次(学徒作业) 二十年前做科研你只需要检测一些基因在一些癌症细胞系表达量情况即可 仅提供bam文件的RNA-seq项目重新分析 乳腺癌和结直肠癌的基因分型居然可以应用于前列腺癌 我教程的第一个外国读者 10个细胞系仅1个表达你的基因 根据CNV信号对细胞系分组后看表达量差异(这就是多组学的一种方式) 狗也有乳腺癌(也有人研究) 怎么样成功看到影响病人生存的隐藏因素呢 把基因数量搞小的数据挖掘想法是好的但可能不现实 《GEO数据挖掘课程》配套练习题粗浅的答案 RNA-seq的3的差异分析R包你选择哪个 不同样本的WES数据分析时多比对区域是否有差异 能重复出来图表,却不知自己正确与否? 10X的单细胞转录组原始数据也可以在EBI下载 文章的最高境界-让人无法重复出来??? 单细胞RT-PCR表达量数据也可以差异分析 10X单细胞转录组的测序数据量这么少是为什么 什么,ENA和SRA数据库存放的单细胞转录组测序数据并不一致啊? SNV和INDEL仅仅是比较数量吗?(学徒作业) 哦别做梦了! BRCA1和BRCA2基因敲除小鼠的单细胞转录组 凭什么定位到UBR5基因 为何要劳民伤财做同样的数据 张泽民团队的单细胞研究把T细胞分的如此清楚 最适合ChIP-seq实战的文献推荐 常规转录差异建议都加上一个转录因子数据 并不一定要单细胞转录组才能看肿瘤免疫微环境个细胞亚群比例 为什么这个研究不使用inferCNV来判定细胞恶性与否呢 什么时候细胞周期的分类作用大于细胞类型呢 小RNA建库测序后的数据分析-实例讲解 新的ngs流程该如何学习(以CUT&Tag 数据处理为例子) 人人都能学会的单细胞聚类分群注释 新的ngs流程该如何学习之m6A学习大纲 看看这45篇文章有啥规律 把tcga大计划的CNS级别文章标题画一个词云 如今的测序和八年前的芯片差异大吗 circRNA芯片也是同样的差异分析 拷贝数全景图聚类分群找差异 人鼠基因转换之首字母大写 带着文件夹结构的拷贝 谁说单细胞工具一定要应用于单细胞数据呢 10x单细胞表达矩阵你也敢用Excel打开 多个gsea数据集整合为什么一定要纠结批次效应 基于小鼠的基因集数据库资源
完成学徒作业,以markdown笔记的形式发到我邮箱,我会抽时间集中检查,挖掘其中足够优秀的小伙伴进行重点培养,给与更高级的学习资料或者个性化的学习指引,并且提供一定量的项目兼职测试一下你成为“数字游民”的潜力。
加油哦,我的邮箱是 jmzeng1314@163.com