人工智能,如何 “拯救” 不堪重负的天文学家?

人工智能在天文学中正发挥着实实在在、不可取代的作用 | 图源:pixabay.com

- 导 读 -

“天文数字” 量级的观测数据,对于天文学家来说既是欢喜,也是烦恼。如何处理分析这些巨量数据,是一个令人头疼的问题。如今,科学家们从越来越强大的人工智能身上找到了解决办法。

●  ●  ●

一周之内,独自对5万个星系进行手动分类后,牛津大学的天体物理学家 Kevin Schawinski 有点受不了。怎么办呢?他和同行们想到,不如发动群众。

星系动物园(Galaxy Zoo)项目由此诞生,科学家希望找到3万人,对90万个星系分类,比如一个星系到底是属于漩涡星系还是椭圆星系。90万的工作量,即使让一位业务熟练的研究生来做,一周7天,每天24小时,也得花个三到五年。

没想到,公众热烈响应,10万志愿者花了175天就完成了4000万个星系分类,一个星系平均分类了38次。

这是在2007年。“斯隆数字巡天” 项目七年时间内拍摄的百万张照片,其检测和分类已经让天文学家不堪重负,不得不借助群众的力量。

今天,大型巡天项目的数据规模更是大到惊人。

比如,明年即将发射的欧洲的空间望远镜项目 “欧几里德”,预计将观察100亿的星系,数据量达到几十PB(1PB = 100万GB);再比如正在智利建设的维拉 · 鲁宾天文台一旦运行,每晚将产生多达20TB(1TB = 1000GB)的原始数据,差不多是斯隆数字巡天十年的数据规模,预计总共处理的数据量将达到几百PB。粗略理解,100PB如果用来播放高清视频,可以一直放700年。

如此庞大的数据,即使找大众帮忙,也不容易做到了,天文学家转而向人工智能求助。

“河图” 问世

Artificial Intelligence

最近,上海天文台安涛研究员为天文学中雄心勃勃的项目——平方公里阵列射电望远镜(SKA),设计了一套名为 “河图” 的人工智能系统,采用了深度学习的方法,能自动实现对海量天体的快速识别和准确分类。

位于上海天文台SKA中国数据中心的运行人工智能系统“河图”的原型机 | 受访者供图

今年的2月4日,SKA天文台正式宣布成立,中国是成员国之一。SKA的第一阶段(占总规模的10%)会在南非的Karoo地区建设197个碟形天线,在西澳建造131072根天线,预计将以每秒几个TB的速度产生原始数据,每年产生的预校准科学数据达到700多PB,也就是7亿GB。

可以说,在天文大数据上,SKA到达了新的高度。

为了完整地处理这些海量的数据,方便全球的科学家使用,也为了控制预算,SKA在2019年就开始筹划由成员国在各国或地区建设SKA区域数据中心。中国SKA区域中心的建设由安涛所在的上海天文台负责。2019年8月,该数据中心原型机的部署和测试在该台的佘山科技园区完成。人工智能系统 “河图” 也是在这台机器上进行开发和各种实验。

这台原型机的一个特点,是针对SKA不同的科学任务的需求,设计了不同的架构,同时也要适应SKA巨量数据的存储与提取。

“像SKA这样的,处理的都是大数据。一般的计算机,一个CPU对应的内存也就几个GB,无法满足SKA数据密集型的运算需求。而我们差不多得几百个GB,就是几十倍的差距。为了实现这个技术要求,硬件架构、软件系统都要做相应的优化。” 安涛告诉《知识分子》。

“河图” 人工智能系统的主创,上海天文台研究员安涛 | 受访者供图

软硬一体化的设计让原型机性能得到充分发挥。不过,仅仅这些还不够,数据处理的智能化也必不可少。说起来,安涛研究员带领的团队设计人工智能系统的想法比原型机的建造还要更早些。

2018年11月,SKA组织发布了第一期的科学数据挑战赛,参与者可以自行下载9张4GB的高清图片,用各自的软件和方法来对图片中的天体进行识别和分类。在不同的噪音水平、曝光时间和波段下,这些模拟的图片中预计可探测到的天体数目也不同,如在1000小时的曝光下,高频段可以达到10万的量级。

一张图片10万个天体,听起来很多,但其实也只是完整SKA数据的 “冰山一角”,使得这样的挑战也变成了热身赛。实际上,位于澳大利亚西部的SKA探路者(ASKAP)巡天项目预计将探测到7000万个射电星系。

在这次挑战赛中,安涛团队设计了三种传统的方法,虽然当时也用了人工智能,但效果却一般。同时,安涛也注意到有其他团队用到了当时最新的人工智能的技术,比如残差网络。残差网络最初是由微软亚洲研究院于2015年开发,属于卷积神经网络的一种。

在安涛看来,以卷积神经网络为代表的新一代人工智能技术在天体识别和分类方面具有巨大的潜能,一时的落后可能是由于网络的设计等方面还没有达到最佳。在分析了深度学习网络设计的优缺点后,在 “河图” 的设计中,安涛团队一方面将残差网络的深度提高,这样有助于提高精度;同时引入金字塔网络,可以在一张图片中同时检测多个不同形态的天体。

实验结果表明,河图的检测和分类速度,比传统的软件快20倍,达到了一张图万分之一秒

自动和准确的天体普查工具,对于大型巡天项目的图像分析尤为重要。

“ '河图’ 不仅具有更高的识别精度,而且在识别延展源和弱源方面也有卓越的能力。” 安涛告诉《知识分子》,他们未来将进一步提高 “河图” 的识别性能和速度以支持更大规模的图像处理,并更多地关注特殊形态天体,预计在SKA先导(ASKAP)巡天中将发挥重要作用。

“神经网络对数据的理解比预期的要深,但它需要大量的数据集进行训练(学习),浩瀚的宇宙为神经网络提供了天然的巨大数据量,人工智能的发展无疑将对天文学产生深远的影响。” 安涛说。

越来越大的影响

Artificial Intelligence

在天文学中,对天体进行识别分类是基础性的工作。在这方面,如 “河图” 所展现的,人工智能的表现令人惊艳。事实上,在天文学的其它领域,人工智能也正发挥巨大的作用。

“AI、机器学习、深度学习等在天文学中应用是不可避免的,在大型巡天中海量天体自动分类、稀有特殊天体识别证认等研究中发挥了越来越重要的作用。我自己也已参加利用机器学习对天体分类的研究。” 北京大学物理学院天文学系教授、系主任吴学兵告诉《知识分子》。

在论文预印本arxiv网站上,用关键词 “卷积神经网络” 搜索天体物理领域,可以得到400多个结果,最早的文献从2014年开始;而同样搜索条件下,过去12个月的文献达到了193条。从题目看,涉及到的问题也多种多样——

● “用CNNs在GeV级冰立方事件中重建中微子能量”

● “暗能量巡天项目第三年数据用卷积神经网络处理生成的星系形态分类目录”

● “DPNNet-2.0第I部分:从原行星盘间隙的模拟图像中寻找隐藏的行星”

……

确实,系外行星的搜索也已经处在了大数据的时代,人工智能的上场也顺理成章。

美国航空航天局(NASA)的开普勒空间望远镜,通过测量17万颗恒星的亮度变弱(由绕行而过的行星短暂遮挡造成)特征来发现系外行星,这中间就用到了人工智能技术。来自伦敦大学学院的研究人员,也已经开发了深度学习网络RobERt,“投喂” 模拟的85000条5种类别的系外行星光变曲线,训练完成后,能以99.7%的准确度确定真实系外行星光变曲线中的大气层分子成分。

除了系外行星,人工智能还能帮忙找新的恒星。

2017年6月,欧洲空间局(European Space Agency, ESA)的Gaia卫星,在人工智能网络的协助下,发现了6颗极速运行的恒星,这种新型恒星是因为与一颗巨型黑洞的相互作用所推动。

天体之外,人工智能还能检测天文现象,比如引力透镜。

这个又大又蓝,可以环绕整个星系的是什么?是引力透镜造成的海市蜃楼。如上图所示,一个明亮的红色星系(LRG)的引力使来自更远的蓝色星系的光发生引力扭曲。更典型的是,这种光线弯曲会导致遥远星系的两个可辨别图像,但这里的镜头对准非常精确,以至于背景星系被扭曲成马蹄形——一个几乎完整的环。

引力透镜是由极大质量引起的时空变形,比如星系团就可以看作是一面宇宙的放大镜,可用来观察其身后更遥远的天体。2017年10月,荷兰的格罗宁根大学、意大利的那不勒斯大学和波恩大学的研究者,就开发了检测引力透镜的方法,用的也是人工智能中的卷积神经网络。

尚需改进

Artificial Intelligence

当然,现在的人工智能还不能称得上完美,一些普遍性的缺点在天文应用中也有出现。

首先在训练人工智能模型中,需要准备很多带标签的数据,这还得有经验的天文学家手动完成,工作量不少。

此外,还有业界诟病的 “可解释” 难题——深度学习网络就像是一个黑匣子,无论是奇迹发生还是智障在线,你都无法知道,它到底是如何做出这个决策的。

第三,如果预训练的数据存在某种 “偏差”,等人工智能模型训练完成后,也会影响到结果的准确性。

不过,有些缺陷也许会随着人工智能的进一步发展得到解决。

“未来的人工智能也许可以直接学习望远镜产生的真实数据,而不需要用预先打了标签的数据进行训练。这样既省下了工作量,也避免了数据偏差。” 安涛说。

尽管如此,安涛对未来人工智能的发展仍抱有信心,毕竟它在天文学中正发挥实实在在、不可取代的作用。如果哪天人工智能首先发现了适宜人类生存的系外行星,或者揭开暗能量、暗物质等宇宙最深邃的奥秘,天文学家应该会感到庆幸而不是嫉妒。

参考资料:

1. Baoqiang Lao, Tao An, Ailing Wang, Zhijun Xu, Shaoguang Guo, Weijia Lv, Xiaocong Wu, Yingkang Zhang. Artificial intelligence for celestial object census: the latest technology meets the oldest science, https://doi.org/10.1016/j.scib.2021.07.015

2. Scientists seek galaxy hunt help, http://news.bbc.co.uk/2/hi/science/nature/6289474.stm

3. Wu, C., Wong, O. I., Rudnick, L., et al. "Radio Galaxy Zoo: CLARAN - a deep learning classifier for radio morphologies". Monthly Notices of the Royal Astronomical Society, 2019, 482: 1211

4. https://www.skatelescope.org/news/china-ratifies-skao-convention/

5. https://www.skatelescope.org/news/ska-launches-science-data-challenge/

6. A Bonaldi, T An, M Brüggen,et al. Square Kilometre Array Science Data Challenge 1: analysis and results, https://doi.org/10.1093/mnras/staa3023

7. He, Kaiming; Zhang, Xiangyu; Ren, Shaoqing; Sun, Jian (2016). "Deep Residual Learning for Image Recognition". Proc. Computer Vision and Pattern Recognition (CVPR), IEEE. Retrieved 2020-04-23.

8. https://theconversation.com/four-ways-artificial-intelligence-is-helping-us-learn-about-the-universe-163740

来源:知识分子

(0)

相关推荐

  • 中外科学家联合发布20亿天体巨幅宇宙二维天图

    发布科研成果,普及天文知识01-14 16:58 北京时间2021年1月14日,国家天文台北京-亚利桑那巡天(BASS)团队和暗能量光谱巡天(DESI)国际合作项目团队联合发布了最新巨幅宇宙二维天图, ...

  • 100万个星系被发现,仅仅用了不到10天,最新设备大显神威

    根据最新的数据,科学家认为宇宙中大约有20000亿个星系.在直径940亿光年的宇宙中,这些数万光年的星系就像是大海中的沙子一样,微不足道,而又无处不在. 即便如此,我们也只是看到了其中极少数的一部分星 ...

  • 面部识别人工智能帮助拯救数十亿美元的葡萄产量

    生物学家和工程师之间的激进合作正在加强保护葡萄作物的努力.他们开发的技术,使用机器人和人工智能来识别感染了毁灭性真菌的葡萄植物,很快将可供全国范围内从事各种植物和动物研究的研究人员使用. 综合植物科学 ...

  • 担心汪星人一不小心就走丢,让这个「人工智能」来拯救它

    地球上总有一部分内心柔软的人,不喜欢养宝宝,就喜欢养狗狗 有数据统计,世界上每3只宠物狗中,就有1只走失. 一位瑞典的小哥和她女朋友养的爱犬走失之后,经过调查研究,发现了每年走失宠物狗的惊人数据. 为 ...

  • 浅析人工智能的发展方向

    众所周知人工智能现如今正在高速发展,并且深入人们的生活和工作中,这不仅对人工的生活和工作提供了便利,同时也对人们未来的生活产生了影响.那么未来人工智能的发展方向主要在哪些方面? 一是在治疗方面,开发出 ...

  • 人工智能主要技术及细分领域

    目前在提起人工智能的时候,很多人都会想起人工智能的分支有很多,并且深入应用到人们的生活和工作当中,但是如果要问人工智能的主要技术及细分领域,其实并没有多少人清楚. 人工智能主要技术及细分领域如下: 智 ...

  • 百度出品:人工智能 数字水务报告(全文)

    本报告书由国际水协会和百度共同撰写,以人工智能赋能水务行业的国内外案例分析为重点,从水务行业数字化转型的重要趋势和使命着笔,深入探讨人工智能在水务行业价值链上发挥的重要作用.百度凭借其在专业领域的深厚 ...

  • 13岁男孩,用一台中国牌自行车,拯救了一个国家

    日出而作,日落而息,靠天吃饭- 这样的生活,如果碰到天公不作美,该怎么办? 在还没有科技的年代,祈祷,是人们常用的方式. 今天要介绍的这部电影,发生在一个非洲小国,讲述一个13岁小男孩,利用知识,改变 ...

  • UNI-T推出运动版,只是为了自我拯救? | 汽智

    在一片质疑声中,UNI-T运动版于5月8日上市,官方指导价13.89万元. 之所以说是质疑,倒不是因为UNI-T的产品不行,而是UNI-T的销量并没有达到预期,包括市场和长安自己.回想去年一整年,长安 ...

  • 四个健脾化湿食疗方,拯救湿哒胖舌头、神疲乏力倦

    天气一热,雨水一多,湿热就很明显: 头发.皮肤黏腻腻,容易长痘和生疮: 整个人懒洋洋的,干啥都提不起劲: 大便臭且不成形,小便黄浊偶尔带泡沫: 舌头胖嘟嘟.湿哒哒,舌苔厚腻: -- 随便挑一个,都是身 ...

  • 人工智能最可能取代的十大职业

    早在1956 年的Dartmouth学会上,"人工智能"这个概念就被研究者们所提出.经过了六十年的发展进化,人工智能早已与人们的生活息息相关.而今,人工智能又进军到人类的职业领域, ...