凝视着农村的夜空,您可能会看到闪亮的月亮被星星包围。如果幸运的话,您可能会发现用肉眼可见的最远的东西-仙女座星系。它是我们银河系最近的邻居。但这只是其中所占比例最小的部分。当美国国家科学基金会维拉鲁宾天文台的能源部(DOE)时空传统照相机(LSST)在2022年启动时,它将在十年的时间内拍摄370亿个星系和恒星的照片。
这个巨大的望远镜的输出将使研究人员充满数据。在这10年中,LSST相机将为其覆盖的每片Southern Sky拍摄2,000张照片。每个图像中最多可以包含一百万个对象。
卡内基梅隆大学和LSST Dark教授Rachel Mandelbaum说:“就数据的规模,数据量,数据的复杂性而言,它们远远超出了我们现有的任何数据集。”能源科学合作组织发言人。“这打开了巨大的发现空间。”
科学家们并不是在建造LSST相机来拍摄漂亮的照片。他们想要识别,分类和测量可以揭示有关宇宙本身结构信息的天体。了解暗能量和其他宇宙学奥秘需要有关超新星和星系的数据。研究人员甚至可能找到全新的对象类别。
与LSST暗能量科学合作组织合作的多伦多大学天体物理学助理教授RenéeHložek说:“将有一些我们从未见过的物体,因为那是新发现的重点。”“我们会发现一堆叫做怪胎或异常现象的东西。”
庞大的数据量和陌生的数据将使其难以分析。尽管可能会与当地专家一起在该地区发现一个新的观星者,但科学家们对这种新的宇宙并没有这样的指导。因此,他们正在自己做。更准确地说,他们正在制作许多不同的指南,可以帮助他们识别和分类这些对象。在美国能源部科学办公室的支持下,天体物理学家正在以计算机模型的形式开发这些指南,这些模型依靠机器学习来检查LSST数据。机器学习是一个过程,其中计算机程序会随着时间的推移了解一组数据中的关系。
学习的计算机程序
黑暗能源科学合作组织的科学家必须快速处理数据。科学家需要知道相机正好对准正确的位置,并且每次都正确地获取数据。这种快速处理还可以帮助他们知道自从上次拍照以来,天空中是否有任何变化。减去以前的显示他们当前的照片,如果有一个有趣的天体的迹象对象或现象。
他们还需要以准确且可用的方式将大量照片组合在一起。这个项目正在调查宇宙的深处,以捕获一些最微弱的恒星和星系的图像。它还将在不理想的大气条件下拍照。作为补偿,科学家需要可以将图像组合在一起以提高清晰度的程序。
机器学习除了处理大量数据外,还可以解决这些挑战。随着这些程序分析更多的数据,它们变得越准确。就像一个学会识别星座的人一样,他们会随着时间的推移获得更好的判断力。
美国能源部阿贡国家实验室的物理学家夏娃·科瓦克斯说:“许多科学家认为机器学习是基于光度测量(光强度的测量)对源进行分类的最有前途的选择。”
但是机器学习程序需要先自学,然后才能处理大量新数据。有两种主要的方法来“训练”机器学习程序:无监督和有监督。
无监督机器学习就像有人从每晚的观测中学习有关恒星的知识。该程序会在未标记的数据上进行自我训练。尽管无监督机器学习可以对图像进行分组并识别异常值,但是如果没有某种指导手册,就无法对它们进行分类。
有监督的机器学习就像是依赖于指南的新手。研究人员向其提供了大量数据,并标有每个对象的类别。通过一遍又一遍地检查数据,程序将了解观测值和标签之间的关系。此技术对于将对象分类到已知组中特别有用。
在某些情况下,研究人员还为程序提供了一组特定的功能,例如亮度,形状或颜色。它们提供了每个功能与其他功能相比的重要性的指导。在其他程序中,机器学习程序会自行找出相关功能。
但是,监督式机器学习的准确性取决于拥有良好训练集的能力,以及真实训练集的所有多样性和可变性。对于来自LSST相机的照片,该可变性可能包括来自在天空中移动的卫星的条纹。标签也必须非常准确。
曼德尔鲍姆说:“我们必须将尽可能多的物理学纳入训练集。”“它并没有减轻理解物理学的负担。它只是将其转移到问题的另一部分。”
太空高速公路上的英里标记
宇宙中一些最有趣的物体不会停留很长时间。瞬态对象看起来很亮,在特定时间段内逐渐消失,然后变暗。超新星-大量爆炸的恒星-是一种瞬态物体。可变对象的亮度会随着时间以一致的方式变化。两者都可以使用某些类型的“标准蜡烛”,科学家可以用它们来测量与地球的距离,例如州际公路上的英里标记。这些标准蜡烛可提供有关宇宙大小和历史的信息。
科瓦克斯说:“如果在给定的夜晚观察到足够多的星系,几乎可以肯定会发现超新星。”
要知道超新星是否可以用作标准蜡烛,科学家需要知道它的类型。Ia型超新星可以是标准蜡烛。就像借鉴经验可以告诉观星者正在看火星还是金星一样,计算机程序可以利用其训练对图像中的超新星进行分类。
“所有这些美中不足之处是Ia型超新星并不是完全标准的蜡烛。它们有一定程度的变异,”科瓦奇说。“理解这种变化……实际上是完成所有这些工作的核心。”
Kovacs和她的合作者创建了一个程序,该程序使用超新星的颜色将它们分类。以前,科学家通过让机器学习算法将特定超新星的亮度随时间与基于Ia型超新星的模型进行比较来训练机器学习算法。但是这些程序很可能将太多的超新星归类为Ia型。她的团队采取了不同的方法。他们确定了一组17个特征,这些特征表征了超新星的光曲线(光强的时间变化)。使用数千个模拟超新星的训练集,他们能够实现具有极高准确性的分类。
弄清楚宇宙物体离地球有多远是机器学习的另一个有希望的领域。以前,科学家依靠光谱望远镜使用光纤来精确测量这些物体的距离。但是LSST相机每晚会发现1000多个瞬态物体。使用此技术的后续操作太多了。Mandelbaum和她的团队开发了一种机器学习程序,可以仅从照片中准确估算出该距离。如果可用,它也可以适应和合并光谱数据。
但是超新星并不是唯一可以用作标准蜡烛的物体。实际上,天体物理学家经常使用其他物体来校准其距离。Mandelbaum和她的团队使用机器学习来发现其他潜在的标准蜡烛。通过提供有关许多可变恒星的程序数据,他们发现可以提出该数据并应用识别良好标准蜡烛的功能,而无需先对恒星进行分类。跳过这一步骤-需要大量带标签的分类数据-简化了流程。它还有助于避免分类产生偏差或错误。该程序产生的恒星样本与造父变星(一种有用但稀有的变星)一样,都是标准蜡烛。还有另一个好处-他们的样本中的星星通常比造父变星更明亮,更容易测量。
Kovacs说:“机器学习可以帮助您发现这些复杂的空间,因为人类很难在三个以上的维度上进行思考。”
在银河级别上进行选择
尽管个别恒星可以揭示大量信息,但有时您需要一个完整的星系。单独使用照片,比起超新星本身,更容易算出超新星的主星系的距离。但是科学家必须选择正确的宿主星系。过去,他们是手动完成匹配的。但是LSST相机将创建过多的数据供人类处理。
在Kovac的一个项目中,科学团队开发了一种算法,可在90%到92%的时间内将宿主星系与超新星正确匹配。不够准确。但是机器学习救了我。该团队开发了一个机器学习程序,以告诉他们任何分类正确与错误的可能性。它确定原始输出的百分之七到百分之八是最有可能的错误。从数据中删除这些项目可以提高准确性,并可以更轻松地手动处理棘手的照片。
挖掘集体意识
为了进一步探索机器学习的力量,LSST相机的两个科学小组找到了一种独特的方式来利用科学家的才智-他们进行了比赛。通过与面向数据科学家的网站Kaggle合作,他们瞄准了专门研究机器学习的非天文学家,以开发程序来对LSST Camera的未来数据进行分类。
参加比赛的赫洛泽克说:“如果只与认识的人讲话,就会失去更大社区的那种想法。”“我们希望人们实际上一起工作以汇总他们的模型并汇总他们的数据。”
他们特别希望该程序选择天体物理学家以前可能从未见过的物体类型。他们给了该小组300万个对象,将它们分为15类,第15种是“我以前从未见过”。
赫洛泽克说:“我们希望自己愿意接受这类工作。”“怪异表现出来的方式是什么?”
截止到2018年12月,共有1000个团队的1300多名竞争者参加了这项挑战。现在,LSST摄像机的研究人员正在对代码进行分类,以将其组合为最佳的程序集。
所有这些活动都是在LSST相机开启之前发生的。一旦数据开始流入,机器学习程序肯定会揭示更多信息。尽管计算机无法凝视奇异的星星,但它们将为激发我们敬畏精神的天体提供更多的洞察力。