ResNets 王者回归;全球最大的公开人脸数据集;AI 制药里程碑 | AI 周报

导读:近日,清华大学计算机系与智能产业研究院的机器翻译研究团队发表了一篇关于神经机器翻译技术的最新综述论文,文章对神经机器翻译方法进行回顾,并重点介绍与体系结构、解码和数据增强有关的方法,总结了对研究人员有用的资源和工具。最后,还讨论了该领域未来可能的研究方向。

以下为本周 AI 领域热点事件一览:
一、前沿理论更新
ResNets 王者回归!谷歌、伯克利联合发文:它当初输给 EfficientNets 不是架构问题
谷歌大脑和 UC 伯克利近期联合发表了一篇论文,这篇论文对何恺明等人 2015 年发表的 ResNet 为骨干的 ResNets 系列网络做了重新的回顾和研究。
在本篇论文中,研究人员提供了两种新策略:1、如果可能过拟合,则缩放模型深度;否则,缩放模型宽度;2、增加图像分辨率的速度比以往的论文中推荐的速度更慢。基于这些想法,研究人员开发了新的架构 ResNet-RS。在 GPU 上训练的结果比较得出,它比 EfficientNets 快 2.1-3.3 倍,同时在 ImageNet 上达到类似的准确率。在半监督学习中,ResNet-RS 达到了 86.2%的 ImageNet Top-1 准确率,同时比 EfficientNet-NoisyStudent 快了 4.7 倍。
同时,ResNet-RS 在下游任务的迁移学习上也提高了性能。最后,研究人员建议使用这些 ResNet-RS 作为进一步研究的基准。
内容来源:
https://mp.weixin.qq.com/s/DUNrJCeim7SLzZcsEWPdAg
https://andlukyane.com/blog/paper-review-resnetsr
全球最大的公开人脸数据集 | 清华大学 & 芯翌科技联合发布
人脸识别领域,中国队再次传来捷报。全球最大规模人脸数据集发布,首次包含数百万 ID 和数亿图片。由芯翌科技与清华大学自动化系智能视觉实验室合作,所推出的 WebFace 260M,相关研究已被 CVPR 2021 接收。并且,基于其所清洗的数据集 WebFace42M,在最具挑战 IJBC 测试集上,也已经达到了 SOTA 水平。
而它所带来的 “全球之最” 还不止于此。以这项数据集为基础,芯翌科技在最新一期的 NIST-FRVT 榜单上,戴口罩人脸识别评测中斩获世界第一。
WebFace260M 这个数据集,是完全基于全球互联网公开人脸数据。它的问世,一举打破了此前人脸数据集的规模:
不仅规模最大,也是首次在人脸 ID 数目和图片数,分别达到了 400 万和 2.6 亿的规模。
此外,研究人员还提出了基于自训练全自动迭代的清洗流程 (Cleaning Automatically by Self-Training, CAST)。这种方法的灵感来自于对互联网人脸数据的观察和分析。
同时,针对目前人脸识别的评测问题,研究人员发布了更贴近实际应用的 “时间受限人脸识别评测准则”-FRUITS (Face Recognition Under Inference Time conStraint),和分布更广泛、更具挑战性、分类更细致的人脸测试集,这将推动人脸识别评测更靠近真实场景。
内容来源:
https://mp.weixin.qq.com/s/HE6lbM-ljtq_aU8aLiqSZw
https://www.face-benchmark.org (https://www.face-benchmark.org/)
https://arxiv.org/abs/2103.04098
如何解决神经机器翻译三大关键性问题?清华团队发表 NMT 最新技术综述
近日,清华大学计算机系与智能产业研究院的机器翻译研究团队发表了一篇关于神经机器翻译技术的最新综述论文,文章对神经机器翻译方法进行回顾,并重点介绍与体系结构、解码和数据增强有关的方法,总结了对研究人员有用的资源和工具。最后,还讨论了该领域未来可能的研究方向。
清华大学计算机系教授、欧洲科学院外籍院士孙茂松与清华智能产业研究院副院长、国家杰青刘洋是该论文的两位教师作者。该论文以 “Neural machine translation: A review of methods, resources, and tools” 为题发表在专注 AI 开放获取的新期刊 AI OPEN 上。
综述中,论文作者阐释了 NMT 系统的三个关键性问题:建模(modeling),即如何设计神经网络来对条件分布建模。推理(inference),即给定源输入,如何从 NMT 模型生成翻译句。学习(learning),即如何有效地从数据中学习 NMT 所需的参数。
最后,文中还总结了当前流行的开源 NMT 工具,均可在 GitHub 直接获取。
内容来源:
https://mp.weixin.qq.com/s/Ykx9qmRtYUN4DlFIBiN1MA
https://www.sciencedirect.com/science/article/pii/S2666651020300024
https://www.sciencedirect.com/journal/ai-open
Nature 封面:AI 与人类斗嘴谁更强?IBM 团队发布 “AI 辩论家” 最新研究进展
自 AI 概念诞生以来,如何让计算机对自然语言的理解和处理能力接近人类,一直是科学家们的终极愿景。经过数十年的发展,目前业界已经开发出能够执行语言理解任务的 AI 模型。然而,在更复杂的任务中,例如自动翻译、自动摘要和多轮随机对话考验下,AI 系统仍然不能很好地满足人类需要,而比这些单一任务更具综合性的考验是:辩论。
来自 IBM 的 AI 研究团队报告了一项最新的研究进展:Project Debater(意为 “辩手项目”),经评估,该系统已可以与人类专家选手进行体面且有意义的现场辩论,它能通过储存了 4 亿篇新闻报道和维基百科页面的知识库,自行组织开场白和反驳论点。
图|Project Debater 与人类选手辩论(来源:IBM)
相关论文以 “An autonomous debating system”(一个自主辩论系统)为题,于 3 月 18 日以封面文章的形式发表在顶级科学期刊《自然》(Nature)上。
据了解,Project Debater 最早于 2011 年被提出,堪称 “十年磨一剑”,研究人员的目标是让 AI 与人类进行现场辩论时应对自如。另外,他们还强调了 AI 与人类进行辩论和在游戏竞赛中挑战人类之间有着根本区别,这有助于让 AI 走出 “舒适区”,因为在辩论领域,人类仍然占优势,AI 需要新的范式才能取得实质性进展。
内容来源:
https://mp.weixin.qq.com/s/d1AJlxlNMptZxYUwuBd9aQ
https://www.nature.com/articles/s41586-021-03215-w
https://www.nature.com/articles/d41586-021-00539-5https://www.research.ibm.com/artificial-intelligence/project-debater/https://www.mercurynews.com/2019/02/11/ibms-ai-loses-debate-to-human-but-has-strong-showing/
https://www.mercurynews.com/2019/02/11/ibms-ai-loses-debate-to-human-but-has-strong-showing/
逻辑推理新高度:微软 AI 模型在这张榜单上刷新了人类纪录
2020 年,人工智能模型 GPT-3 带着一种 “暴力美学” 横空出世,业界在惊叹其绘画、写作以及玩游戏技能的时候,也着实为它的智商 “捏一把汗”。
经常出现 “智商” 问题的原因,从技术方面追根溯源,有一个可能的解释是:当前大多数自然语言处理技术使用的是 “预训练 + 微调” 的范式,这种范式在需要文本浅层语义匹配和理解的任务上能取得优越的性能,但是预训练的语言模型是否真的具备了推理能力,是否能应对需要复杂推理能力的任务,还是目前研究亟待解决的问题。
为了解决机器的逻辑推理问题,微软亚洲研究院自然语言计算组提出了 LReasoner 系统,通过识别文本中的逻辑符号和表达式,来辅助模型找到问题的答案。
当研究员们把 LReasoner 系统放到面向美国司法学院入学考试(LSAT)逻辑推理部分的数据集 ReClor 中进行测试后,该系统在数据集的官方评测排行榜中取得了目前 SOTA(最前沿水平)的结果,并且大幅超过了 ReClor 论文中汇报的人类准确率。
LReasoner 系统是研究员们将机器推理应用在真实场景中的首次尝试。未来,微软亚洲研究院自然语言计算组将持续探索机器推理领域的新任务、新方法,推动懂知识、可解释的人工智能的研究。
内容来源:
https://mp.weixin.qq.com/s/dZJvDTGxiIyz_kTmXAjeaw
二、技术产业升级
AI 制药里程碑:仅耗时 18 个月,花费 200 万美元,AI 成功开发出新药并推进到临床前
目前,人工智能已经在手机 AI、人脸语音识别、围棋等领域大显身手,并且在不断扩大其应用领域。值得注意的是,一直以来 “AI + 医疗” 被人们寄予厚望,它可以在减轻医疗负担的同时,减少误诊漏诊的的发生。
新型药物的推出,需要经过药物发现、临床前研究、临床研究和审批上市等多阶段,这往往需要耗费十几年乃至数十年的时间,以及数十亿美元的成本,然而其失败率却高达 90% 以上。
近年来,人工智能被应用于制药领域,并被寄予厚望,使用人工智能在海量的数据中筛选新的治疗靶点和新药物,有望减少药物发现所需的时间和高昂成本。
近日,总部位于中国香港的国际知名 AI 制药公司 Insilico Medicine(英矽智能)宣布,他们通过人工智能发现了治疗肺纤维化的新靶点,然后从无到有设计了一个新的药物分子来靶向这个靶点。这也是全球首次利用人工智能发现新机制特发性肺纤维化药物。
通过多次人体细胞和动物模型实验,证明人工智能研发的新药物靶点和药物分子的有效性和安全性,这一突破标志着业界首次对人工智能发现的药物进行科学验证,并将其用于新药研发,直至候选化合物的临床前研究。
而且,整个研发过程只花了不到 18 个月的时间和大约 200 万美元,刷新了速度和最低成本记录,在大大加快和推进临床前开发的同时,节约了大量药物发现成本。
内容来源:
https://mp.weixin.qq.com/s/by8Gn_et5wKA4msEWVM2KA
https://www.nature.com/articles/s41587-019-0224-x
https://insilico.com/main_cn
史上首个功能齐全的形态自适应机器人问世!与 AI 完美结合,可根据地形自动变化形态
形态自适应机器人是一项很有前途的技术,它可以在工作状态下适应大量不可预测的环境和任务,而不需要在机器人每次遇到意外情况时再重新设计。
近日,来自奥斯陆大学(University of Oslo)信息学院的研究团队成功研制出了一种新型四足机器人,它不仅能够感知地形变换,同时还能根据地形变换自动改变形态。这也是人类历史上第一个功能齐全的形态自适应机器人。
相关论文以 “Real-world embodied AI through a morphologically adaptive quadruped robot” 为题,于 3 月 16 日发表在科学期刊 Nature 子刊《自然 - 机器智能》(Nature Machine Intelligence)上。
新型四足机器人基于一种嵌入式的人工智能,由一个允许可以变换形态的四足机器人和一个适应算法组成。其中基于人工智能的适应算法,可以在当前感知地形的基础上,使机器人在最节能的形态中不断变化。利用这种基于人工智能算法的四足机器人,训练它在不同形态配置之间的有效过渡,结果表现出了大幅度的性能提升。这种人工智能与机器人结合的方式,展现了一种将形态学适应性融入未来机器人设计的潜力。
内容来源:
https://mp.weixin.qq.com/s/qNMuh8ybbLxMTjOujCipBA
https://www.nature.com/articles/s42256-021-00320-3
飞桨刷新分子性质预测榜单,助力 AI 药物研发
化合物的生物活性筛选是现代药物研发中关键的一环,其主要目的是在大量候选化合物中发现针对某种药物靶点具有活性的分子。传统的活性筛选方法需要合成大量化合物用以进行生物实验,整个流程的成本高、周期长、成功率低。而通过 AI 技术进行药物的虚拟筛选有望代替传统的活性筛选方法,加速中间步骤从而大幅度降低研发成本。
近日,飞桨在 OGB 该两项分子性质预测榜单登上榜首,在 AI 药物发现领域取得了新的技术突破。
飞桨基于图学习框架 PGL,使用深度图神经网络(GNN),配合生物计算平台螺旋桨 PaddleHelix 对药物发现领域的理解,设计自监督学习任务学习化合物分子表示,并应用到分子性质预测中。
内容来源:
https://mp.weixin.qq.com/s/ghrmWvT7M2R2vPod9wevZQ
http://github.com/PaddlePaddle/PGL
三、观点评论解读
一个都不能用?62 个 AI 算法被指存在重大问题,剑桥团队:都不具有新冠临床诊断价值
2020 年,新冠肺炎肆虐全球。为了能协助医生快速而精确地筛查潜在患者,各国的计算机科学家们发布了上千种机器学习算法,并声称这些算法能根据胸部 X 光片、CT 图像诊断或预测新冠肺炎。
然而,近日由剑桥大学领衔的一项最新研究却发现,这些算法存在着算法偏见和不可重复性等重大问题,并不具有临床价值。当地时间 3 月 15 日,这篇名为 “Common pitfalls and recommendations for using machine learning to detect and prognosticate for COVID-19 using chest radiographs and CT scans” 的论文发表于自然子刊《自然机器智能》(Nature Machine Intelligence)上。
这项由剑桥大学科学家们领导完成的研究,涵盖了从 2020 年 1 月 1 日到同年 10 月 3 日内所有科学论文和预印本提到的相关机器学习算法。同一时间段内,在 BioRxiv、medRxiv 和 arxiv 上刊登的所有手稿以及 EMBASE 和 MEDLINE 的所有条目也被纳入了研究范围。在 2212 篇用机器算法诊断新冠肺炎的论文中,研究人员最终确定了 62 篇质量相对较高的论文进行讨论,其中 37 篇论文为深度学习算法,23 篇论文为传统的机器学习算法,2 篇为混合算法。
但遗憾的是,由于算法偏见和不可重复性等问题,没有一个具有潜在的临床应用价值。
图 | 用于模型测试的图像数量
论文第一作者、剑桥大学应用数学和理论物理系博士迈克尔(Michael Roberts)在接受采访时表示:“任何机器学习算法(的应用价值)都取决于训练它所使用的数据,特别是对于像新冠肺炎这样的新流行病来说,数据的多样性是至关重要的。”
内容来源:
https://mp.weixin.qq.com/s/KCItApYRUNTkMMSFUL5BoA
https://www.nature.com/articles/s42256-021-00307-0
AI 制药行业专题报告 —— 打开 AI 制药黑匣子,CB Insights 深度剖析 AI 制药领域商业机会
近年来各方对 AI 制药领域的关注度明显上升,资本持续注入,药企研发力度逐步增强,AI 制药相关技术的迭代速度也明显加快。可以预见人工智能技术正逐步从多方面渗透到生物制药领域,并有机会为行业带来重大变革。针对这些趋势,CB Insights 中国对 AI 制药领域进行了全面梳理。
2020 年,AI 制药领域在资本市场获得了很高的关注度,对于 AI 技术在药物研发中的真正作用也引发了一系列讨论。来自供需两端的驱动力也真正助推了这场资本热潮。* 在生命大健康领域,与 AI 技术相关的应用融资逐步上升。在融资轮次上,AI 在医疗领域各阶段的融资轮次比例正在发生改变,种子轮企业占比逐年降低。*
AI 制药行业是人工智能技术和生物制药领域的深度交叉。在技术层面,如何理解 AI 制药结果的确定性正成为判断 AI 制药公司成长潜力的关键部分。
内容来源:
https://mp.weixin.qq.com/s/IH32Rmg0U2xkZOQKXBMBLA
四、其他
两会 AI 全盘点:科技大佬提案受瞩目,AI “神器” 接连亮相!
今年的两会,人工智能依然是个抢眼的焦点,不仅有各界人大代表提出详细的提案与建议,现场还有各种各样让人眼花缭乱的 AI “神器” 对大会进展进行实时传播。两会上都有哪些 AI 元素?
两会上最让人振奋的消息是,在会上发布的 “十四五” 规划纲要草案将 “加快数字发展” 作为独立篇章,勾画了未来五年数字中国建设新图景,把云计算、大数据、物联网、工业互联网、区块链、人工智能、虚拟现实和增强现实等列为七大数字经济重点产业,目标是在 2025 年,数字经济核心产业增加值占 GDP 比重达 10%。人工智能赫然在列,相信接下来在 “十四五” 规划的推动下将迎来进一步发展。
此外两会上,科技界大佬们针对人工智能的发言和提案也备受关注,据统计已经有六位代表为 AI 发声。
大会报道的现场也充斥着浓浓的黑科技感,AI “神器” 在新闻传播方式上的创新让人耳目一新。
比如科大讯飞联合央视网、新华社分联合推出的 H5《遇见 2025》中,玮玲、一峰、爱加等多位 AI 虚拟主播担任起 “两会 AI 助手” 的角色,帮助观众更好更快速地了解两会内容及十四五规划纲要。这些主播不仅支持中、英、日、韩、俄、法、德等几十个国家的语言,还能以普通话、河南话、陕西话、四川话、东北话、粤语等多种乡音进行解读,让用户得到不同的音频体验效果。
内容来源:
https://mp.weixin.qq.com/s/ly76FJ3IkS2W9BcPQdTbDw

今日科普:为什么熬夜会致癌?

做简单、真实的科普

(0)

相关推荐