“从5亿只狗里,把混入的几只猫挑出来”,怎么做到的?
本文转自【科技日报】;
◎ 科技日报记者 金凤
在天文领域,近年最引人关注的发现之一,是一种瞬时亮度超过太阳上亿倍的未知天体。这类天体在射电频段上的超常爆发,被称为“快速射电暴”。它们能在你眨眼的百分之一的瞬间,甚至更短时间内,完成一次极高的能量释放。这种前所未有的爆发,究竟是在怎样极端的环境下产生,成为近年来天文学领域的研究热点。
自2007年有学者发现了第一个快速射电暴,目前已经有100多个快速射电暴被探测到了。常用的筛选方法无法甄别全部的快速射电暴疑似信号,只能进一步缩小疑似信号的数目,再在较少的样本中通过人工挑选可信的信号,费时费力。
如何高效而精准地捕捉这些神秘的信号?中国科学院紫金山天文台与中国科学技术大学、上海交通大学、贵州师范学院,以及澳大利亚联邦科学与工业研究组织、西悉尼大学、西澳大学等机构的学者,引入机器学习算法,从5亿个疑似信号中找到81个快速射电暴候选体, 该成果近日发表于英国《皇家天文学会月刊》。
银道坐标系下帕克斯望远镜观测天区的空间分布图,橙色星号展示了81个快速射电暴候选体的分布,受访者供图
依靠传统方法,单人要花50年才能甄别完5.6亿个疑似信号
研究快速射电暴的手段有很多。2007年,美国西弗吉尼亚大学的Duncan Lorimer等人利用澳大利亚的帕克斯射电望远镜,发现第一个快速射电暴。
但仅有观测还不够。“快速射电暴距离遥远,它们传播到地球上的能量,比蓝牙耳机的信号都要差很多。要想从仪器的背景噪声,和人类制造的电磁干扰中把它们找出来,非常困难。这也是为什么射电天文观测那么多年了,直到2007年才首次发现它。”本篇论文的通讯作者、中澳天文联合研究中心ACAMAR博士后张松波还在读博士期间,就决心对帕克斯望远镜观测的历史数据进行一遍“查户口”式的搜寻,看看里面是否还有新的快速射电暴。
中国科学院紫金山天文台高能时域天文研究团组最近几年开展快速射电暴研究,已经利用帕克斯望远镜的观测数据构建了一个完整的单脉冲数据库。该数据库内包含了快速射电暴标准搜寻方法所寻找出的5.6亿个信噪比大于7的单脉冲疑似信号。
张松波说,传统的搜寻程序,无法准确识区分噪声信号、人造信号和快速射电暴信号。所以这5亿多个结果,只能被称为疑似信号。假设工作人员每天能看三万张图,那么这5.6亿个疑似信号需要不眠不休地看50年才能看完。
残差神经网络筛选出81个新的快速射电暴候选体
机器学习中的残差神经网络是人工神经网络的一个变种,它模拟最基本的生物神经元,将接收到的信号进行分析,并判别信号的种类,从识别准确度到识别速度都有很大的提升。
虽然这是一个很成熟的机器学习算法,但快速射电暴不管从形态上,还是训练样本的收集上都很困难。
“这相当于训练机器从5亿只狗里,把混入的几只猫挑出来。” 论文的第一作者、中科院紫金山天文台高能时域天文团组博士研究生杨轩说。
经过摸索,杨轩发现通过降采样率的方式缩小图片尺寸,能够明显改善识别结果。同时通过对候选体信号的到达时间与色散量进行分析,可以大大降低需要检查的图片数量。
运用训练好的模型,最终,研究团队从数据库里找出了81个新的快速射电暴候选体。
其中一个证据来自这些候选体的色散量。“我们从外太空收集的色散量越大,说明天体距离我们越远。这些候选体的色散量已经超出了银河系色散量贡献的估计值,证明它们很可能是来自银河系外的。”张松波说。
另一个佐证来自候选体所在的波束。张松波介绍,在帕克斯望远镜的多波束观测中,快速射电暴的候选体只被其中一个波束探测到,说明信号的来源指向性非常明确,而来自地面的射电信号则不可能只出现在如此小的区域内。这表明它们来自地面射电干扰的可能性很小。
科研团队进一步研究分析,将这81个候选体和当前已发表的快速射电暴样本的辐射能量、脉冲宽度的累积分布进行对比,结果发现二者在统计行为上是一致的。杨轩介绍,这说明两者对应的信号,其物理起源和辐射机制很可能是相似的,进一步验证了81个候选体信号的真实性。
正用“天眼”FAST收集的数据训练算法
在张波松看来,此次研究也对从观测角度严格判定射电信号是否为快速射电暴提出了挑战。“研究中的辐射能量分布表明,新候选体在低能端的事件数目高于已知快速射电暴,这说明以往的搜寻方法还存在不足,可能有非常多信号稍暗弱的快速射电暴被遗漏。”他表示,这些新发现的候选体也将为搜索更大样本的重复暴提供了比较有价值的预选目标。
天文学正在迎来大数据时代,射电观测采集的数据量日益巨大,中国500米口径球面射电望远镜(FAST)、澳大利亚平方公里阵探路者望远镜,以及正在建设中的平方公里阵列望远镜都正在或即将展现更高的灵敏度,同时也将带来更为惊人的数据量,这也对信号的筛选方法提出极高的要求。
“目前,我们正在用FAST收集的数据来训练AI算法,希望能训练出适用性更广的AI模型。同时,也正在尝试在现有模型中增加更新的机器学习方法,如深度卷积生成对抗网络、显著图等,来提高现有模型的准确性,降低误报率。”张松波说。
来源:科技日报