AI 可能真的比人更懂这个宇宙

标签:AI
分享到:

宇宙 " 创造 " 了人类,人类创造了 AI。但似乎,AI 比人类更 " 懂 " 这个宇宙。

用 AI 来帮助有 " 中国天眼 " 之称的世界最大单口径射电望远镜 FAST 更好寻找星星的 " 探星计划 " 启动已过一年,FAST 找到了 22 颗脉冲星候选体。在没有 AI 帮助时,这很难做到。

去年的世界人工智能大会上,腾讯与国家天文台合作的 " 探星计划 " 宣布正式启动。腾讯优图实验室的计算机视觉技术能力、腾讯云计算及存储能力,将会帮助中国天眼 FAST 提升脉冲星搜索效率,并辅助快速射电暴和近密双星系统中脉冲星的搜索。

在今年世界人工智能大会的腾讯论坛上," 探星计划 " 到目前为止的最新进展首次披露。

腾讯云副总裁、腾讯优图实验室总经理吴运声表示,截至目前,优图 AI 天体探索方案已从巡天观测数据中找到 22 颗脉冲星候选体。其中包括在天体物理中具有较高观测研究价值的高速自转的毫秒脉冲星 7 颗,具有间歇辐射现象的年老脉冲星 6 颗。

此外,优图实验室的动态谱 AI 模型还首次探测到了某磁陀星射电脉冲。

这是 FAST 与腾讯优图实验室连续第二年一同出现在世界人工智能大会上,背后是天文探索与 AI 的结合愈发紧密。

AI 在几十亿张图片中找 10 颗星星

2017 年 10 月 10 日,中国科学院国家天文台公布世界最大单口径射电望远镜,也就是被称为 " 中国天眼 " 的 FAST 所取得的首批成果。其中最重要的一项是我国射电望远镜首次发现脉冲星。而最新的公开资料显示,FAST 已经捕获了超过 660 颗脉冲星。

但 FAST 的观测只是发现脉冲星的第一步,这个 500 米口径的庞然巨物带来的是峰值每秒接近 40G 的数据量,以多模态的数据形式传输回来。于是一个天文问题被转化成了数据标注问题。如何在海量而极其相似的数据中判断出目标星体的信号,是 FAST 团队最核心的工作。

图源:贵阳网

" 这份 22 颗脉冲星的候选名单中,短周期的脉冲星发现大概是在 10 颗左右,我们是在几十亿张图片中找到这 10 颗脉冲星的 ",复旦大学教授池明旻做了个粗略的比方,她也是 " 探星计划 " 中一位同时拥有计算机和天文领域背景的研究成员。

通过大数据训练,机器学习能为天体探索标注处理掉其中很大一部分 " 一眼假 " 的数据信息,这种能力通过 " 半监督学习 " 来实现。

半监督学习属于无监督学习(没有任何标记的训练数据)和监督学习(完全标记的训练数据)的中间地带。以少量标记数据结合大量未标记数据,在机器学习领域中被认为可以明显提高机器学习的准确性,在对于脉冲星信号数据的辨识中,这些 " 标识数据 " 可以被理解为天文工作者抽取了某些图片预先做了标注,这些标注形成一个初筛的判断标准后会对接收到的所有图片做第一次的过滤。

" 比如色散值,色散有一个曲线,这个曲线如果没有峰值的话,我们就可以排除掉它是脉冲星的可能 ",池明旻表示," 因此我们在机器学习面有一个色散值的判定标注就非常重要。当捕获的天体信号精度足够高,色散值就可以起到过滤的作用 ",池明旻说。

色散值是 FAST 接收到天体数据的其中一个纬度。天体研究中的数据信息往往是跨模态的,这有利于对天体是否是脉冲星的综合判断。腾讯优图实验室提供的 AI 解决方案中加入了包括频率、色散以及相位的多模态融合的技术,这是腾讯优图实验室为天体探索提供的另一项关键能力。

天体研究非常独特和艰难的地方在于,这是一个统计学几乎无从下手的领域。

根据哈勃太空望远镜 2019 年以前的观测结果建立的假设是,宇宙共有 2 万亿个星系,其中小型星系有几十亿颗恒星,大的星系可以包含近 4000 亿颗恒星,如果以每个星系平均 2000 亿颗恒星在估计。 全宇宙总共有 4 千万亿亿颗恒星,而这仅仅是恒星。

除了我们所居住的地球以及已知极其有限的天体外,宇宙中几乎所有空间都藏在未知里,人类对于宇宙的理性认知长期处在极其贫乏的数据基础上。

AI、机器学习当下的应用普遍总与大数据联系在一起,但在天文探索的语境下,这个已知数据的仓库家徒四壁,于是 " 小样本学习(Few-shot Learning)" 被更加重视起来。

小样本学习不是某项技术,而是一种综合的研究方式,指在有限的信息中建立完整的分类模型,并且以这个模型去对未知的信息完成分类。简单来说,一个孩子在看了几张绵羊的照片之后就可以在动物园里认出其他品种的羊,这就是某种通过少量图像识别某个视觉对象的小样本学习概念。

图源:源于网络

这对人类大脑来说轻而易举,但对于机器学习来说却非常困难,但由于天体研究的特殊性,小样本学习又是必不可少的。

腾讯优图实验室总监汪铖杰表示,虽然整体上优图需要处理处理百亿 TB(1TB=1024GB)的数据量,但实际上其中有效样本很少。" 现在为止我们用于学习的也就是 100TB 左右的脉冲星样本 ",而 FAST 每天产生的数据量就高于 500TB。

半监督学习是小样本学习的一个思路,在统计学概念缺乏实际土壤时,以脉冲星样本搭配更多非脉冲星样本来构建训练模型,可以使得机器学习整体在特征提取上更加充分。

除此之外,在这个脉冲心探索的项目中有另外两种小样本学习的具体思路。

一种是数据扩增,即在常规的脉冲星上面做位移的偏移,或加一些宇宙仿真的噪音叠加,通过把观测数据的误差人为地加进去,AI 可以将那些 " 疑似 " 脉冲星的图片数据标注出来。

另一种方式是对抗生成式的学习方法,让 AI 在学习过程中从已有样本中生成新的样本,然后继续用于未来的计算。优图实验室里与 FAST 合作的算法团队在今年新引进了一位国家天文台的博士后来做小样本学习的模型设计,也是为了在样本数量有限的情况下让模型能进一步契合对脉冲星特性的预测。

" 以 M31(仙女座星系)做个例子,到目前为止 M31 还没有找到任何一个脉冲星,我们可以预测一下它可能的样子,然后大量模拟出数据放到模型里学习,然后用 FAST 对 M31 观测到的大量数据去比对,因为只要找到一颗,这就是一个从 0 到 1 的突破 ",汪铖杰说。

宇宙也在 " 培养 "AI

" 探星计划 " 一年之后,汪铖杰提到了优图实验室与 FAST 最初结缘的细节。

2019 年腾讯宣布企业文化升级,科技向善被提到了显眼位置,那之后优图实验室团队在部门内部做了一次讨论,关于 AI 在普适化过程,除了一些常规应用外还能做哪些事情。" 探星计划 " 并不产生任何经济效益,动力在于优图实验室对于 AI 普世化的愿景。

那场头脑风暴之后排出了一个序列,优先级最高的就是 FAST。

彼时的优图实验室副总经理黄飞跃带着项目去见 FAST 团队,两个小时后双方就签订了项目合同。" 我从来没有见过一个项目这么快就定下来的情况,可见大家对这个项目认可度非常高 ",池明旻表示。

AI 为天文探索带来了效益,天文反过来对 AI 带去了什么?

汪铖杰总结成三点,技术上 " 探星计划 " 中相当多的数据对于优图实验室本身在研究无监督学习或者异常检测算法等技术上都带来了珍贵的实践经验。并且随着探索脉冲星的积极影响,优图实验室与更多天文领域相关的的合作也已经提上日程。

图源:新发现

最主要的则是探索出了一个 AI 和天文结合的模式,与基础科学建立联系是 AI 普适化的一个重要维度。

优图实验室下一个即将开启的探索领域是甲骨文的破译,用 AI 技术来尝试对甲骨文进行缀合和摹本,为专家提供破译线索,其中视觉 AI 将试图对甲骨文进行 3D 建模,以进一步帮助甲骨文的识别与考释。

汪铖杰表示,甲骨文的难度可能会比脉冲星会更高,甚至可能要高出一两个数量级。因为 AI 对脉冲星探索的帮助更多在效率层面,但在甲骨文这个领域里面已经有好多年没有任何新发现了。

" 探寻自己能力的边界,这可能是每个人、每个团队或者每家公司都在探究的东西,FAST 这个项目实际上是我们朝着自己未知的能力边界迈出的一步。"

继续阅读
AI时代可能来的有点早,这些职业危险了!

《流浪地球2》中的550系列量子计算机给人印象深刻,能在极短的时间内以人类无法比拟的效率完成巨大的行星发动机的3D打印工作。甚至,还进化出了人工智能:MOSS。

“裁掉人工,雇佣AI”,ChatGPT开始替代人类

只要在ChatGPT的聊天框里把自己的写作需求告诉AI,等上几十秒后,一篇整合大数据、纯原创、观点鲜明的文章就新鲜出炉了。

AI时代下,设计行业的未来

AI人工智能正在越来越多领域中被应用,那么除了AI绘画,在设计领域里,AI人工智能还能在哪些领域发挥功能?在本篇文章里,作者便发表了他的看法,对AI未来在设计领域可发挥的作用进行了总结,一起来看一看吧。

生成式AI已掀起浪潮,但还没走出伦理困境

近来,AIGC(生成式人工智能)火了、而且是爆红。在《Science》此前发布的2022年度科学十大突破中,AIGC就赫然在列,并且在诸多大厂、相关机构的2023年科技趋势预测中,AIGC也成为了继NFT、元宇宙、Web3之后,俨然又一个“出圈”的风口。

当AI不再是人工智障,人工智能会取代人类吗?

无论是“小破球”中的Moss,还是最近爆火的ChatGPT,既让人对人工智能的前景充满浪漫想象,同时也令人对其细思极恐。

精彩活动