愿所有的基因都有一个正式的名字
最近连续看到了两个单基因研究文章,它们的落脚点都是敲减过表达具体的某个基因看它的效果。但是我仔细看了文章里面提到的基因名字,和其上传到geo数据库的居然是不一致的!
首先是Mth938 domain containing (AAMDC) 这个基因
它有另外一个名字是:C11ORF16
文章是:《The oncogene AAMDC links PI3K-AKT-mTOR signaling with metabolic reprograming in estrogen receptor-positive breast cancer》, 整个研究都是围绕 Adipogenesis associated Mth938 domain containing (AAMDC) 这个基因 ,发表在 Nat Commun 2021 Mar 26;12(1):1920. PMID: 33772001
有两个数据集:
https://www.ncbi.nlm.nih.gov/geo/query/acc.cgi?acc=GSE92893 https://www.ncbi.nlm.nih.gov/geo/query/acc.cgi?acc=GSE123740
前面一直提到的是(AAMDC) 这个基因 ,但是 GSE92893 给出来的9个样品里面又提到了 C11ORF16 :
GSM2439412 Wild Type, biological rep01
GSM2439413 Wild Type, biological rep02
GSM2439414 Wild Type, biological rep03
GSM2439415 Empty vector, biological rep01
GSM2439416 Empty vector, biological rep02
GSM2439417 Empty vector, biological rep03
GSM2439418 shC11ORF16, biological rep01
GSM2439419 shC11ORF16, biological rep02
GSM2439420 shC11ORF16, biological rep03
然后是AC009283.1 基因
也是有另外一个名字是: linc-PPP1R1B
文章是《 A lncRNA landscape in breast cancer reveals a potential role for AC009283.1 in proliferation and apoptosis in HER2-enriched subtype. Sci Rep 2020 》,最后也是定位到了一个基因,AC009283.1 ,有两个数据集:
https://www.ncbi.nlm.nih.gov/geo/query/acc.cgi?acc=GSE134254 https://www.ncbi.nlm.nih.gov/geo/query/acc.cgi?acc=GSE134359
但是, 作者干扰这个基因的时候,又给出来了 linc-PPP1R1B 的名字 ,如下的:
GSM3940480 Negative Control shRNA_A
GSM3940481 Negative Control shRNA_B
GSM3940482 Negative Control shRNA_C
GSM3940483 shRNA for linc-PPP1R1B_A
GSM3940484 shRNA for linc-PPP1R1B_B
GSM3940485 shRNA for linc-PPP1R1B_C
这样的基因真的很讨厌
大家可以自行去查看gtf文件里面的全部的基因名字,比较奇怪的基因还有:
C12orf44; Chromosome 12 Open Reading Frame 44; 这个是Corf系列基因的意思 MIR系列基因应该是 miRNA相关的基因 LINC系列基因应该就是long intergenic non-protein coding RNA OC系列基因,是非正式的,推定的,日后可能被更合适的名字替代 还有一些RNA基因,根本就没有symbol,比如:CTA/B/C/D-系列的 Aliases for ENSG00000271971 Gene CTD-2006H14.2 5 External Ids for ENSG00000271971 Gene Ensembl: ENSG00000271971
一个思考题
有一些基因的名字里面有短横线,你可以去探索一下吗?
反正都是看起来就很奇怪的:
文末友情宣传
强烈建议你推荐咱们《生信技能树》给身边的小伙伴!