不能兼顾速度与精度，利物浦大学、牛津大学揭示梯度下降复杂度理论，获STOC 2021最佳论文

2024-06-13 21:51:52

机器之心报道

机器之心编辑部

梯度下降算法具有广泛的用途，但是关于它的计算复杂度的理论研究却非常少。最近，来自利物浦大学、牛津大学的研究者从数学的角度证明了梯度下降的计算复杂度，这项研究也入选 STOC 2021 的最佳论文奖。

当前应用研究的很多方面都依赖于一种名为梯度下降的算法。这是一个求解某个数学函数最大 / 最小值的过程（函数优化），从计算产品的最佳生产方式，到工人轮班的最佳安排方法，这一算法都能派上用场。

尽管梯度下降算法具有广泛的用途，但是关于它计算复杂度的理论研究却非常少。现在，来自利物浦大学、牛津大学等机构的研究者在论文《 The Complexity of Gradient Descent: CLS = PPAD ∩ PLS 》中给出了答案，梯度下降从本质上解决了一个非常困难的计算问题。这篇文章也入选了 STOC 2021 的最佳论文。

论文地址：https://arxiv.org/pdf/2011.01929.pdf

本文作者由牛津大学的 Paul Goldberg 、Alexandros Hollender 与利物浦大学的 John Fearnley 、 Rahul Savani 共同撰写。

梯度下降计算复杂性

梯度下降是现代应用研究的重要工具，但它在许多常见问题上效果不佳。在这项研究之前，并没有学者进行全面研究究竟是什么让梯度下降陷入困境，现在计算复杂性理论有助于回答这个问题。

「梯度下降的很多工作都没有涉及复杂性理论，」麻省理工学院的副教授 Costis Daskalakis 说。

计算复杂性是对解决或验证不同计算问题的解决方案所需资源（通常是计算时间）的研究。研究人员将问题分为不同的类别，同一类别中的所有问题共享一些基本的计算特征。

举例来说，想象一个城镇，人多于房子，每个人都住在房子里。给你一本电话簿，上面写着镇上每个人的姓名和地址，你需要找到住在同一所房子里的两个人。你可以完成这个任务，不过因为人多于房子，这可能需要一些时间进行查找（特别是如果他们不共享姓氏）。

上述问题属于 TFNP（total function nondeterministic polynomial）复杂类问题。它是所有计算问题的集合，能够保证存在解决方案，并且可以快速检查解决方案的正确性。

研究人员专注于 TFNP 中两个子集问题的交集：

第一个子集称为 PLS（polynomial local search）。这是一系列问题的集合，涉及在特定区域中寻找函数的最小值或最大值，这些问题的答案必须确保可以通过相对直接的推理找到。

PLS 类别中的一个典型问题是路径规划：假如要求你以尽可能短的旅行距离访问固定数量的城市，且只能通过切换相邻城市对的顺序来改变行程。要计算所有设想路线的长度并不难，并且由于可以调整行程的方式受到限制，因此很容易看出哪些更改会缩短行程。

也就是说，最终你会找到一条路线，这条路线不能再进一步缩短路程了，那么这条路线就是你要找到的最小值，就是所谓的局部极小值。

TFNP 问题的第二个子集是 PPAD。这些问题的解来自更复杂的过程，称为布劳威尔不动点定理，即对于任何连续函数，存在一个点保持不变。在日常生活中也是如此，比如你搅拌一杯水，该定理保证一定有一个水分子最终会回到它开始的地方。

PLS 和 PPAD 类的交集本身形成了一类称为「 PLS ∩ PPAD」的问题。这类问题包含许多复杂性研究人员所关注的自然问题。然而，直到现在，研究人员都无法找到一个对「 PLS ∩ PPAD」来说是完全的自然问题，所谓「完全」意味着它可能是这类问题中最难的问题。

而 PLS 与 PPAD 的交集，被他们证明等价于 CLS （连续局域搜索问题）。

在这篇论文之前，唯一已知的「 PLS ∩ PPAD 」完全问题可以说是一个人工构造的问题，这个问题有时被称为「Either-Solution」。它将来自 PLS 的一个完全问题和来自 PPAD 的一个完全问题联合，形成了研究人员极少在「 PLS ∩ PPAD 」之外遇到的问题。在这篇论文中，研究人员证明了梯度下降与「Either-Solution」一样难，梯度下降本身就是「 PLS ∩ PPAD 」完全问题。

速度与精度不能平衡

哥伦比亚大学数据科学中心教授 Tim Roughgarden 说道：「我们人类本来就应该努力去深入了解计算本质的各个方面。所以我对这项研究结果的发现感到十分兴奋。」

这一发现并不意味着梯度下降会一直表现不佳。事实上，对于大多数任务来说，梯度下降与以往一样快速和高效。

「关于计算复杂性有一种略带幽默的刻板印象，即我们经常会拿以前在实践中已经被解决的问题出来，然后在证明它是非常难的，」论文二作 Goldberg 说。

但这一结果确实意味着，应用研究人员不应该期望梯度下降法为一些精度很重要的问题提供精确的解决方案。

精度问题涉及计算复杂性的核心——资源需求的评估。在许多复杂问题中，精度和速度之间存在基本联系。要使算法被认为是有效的，你必须有能够提高解决方案的精度，而无需为找到该解决方案所花费的时间付出相应的高昂代价。新的结果也显示了，对于那些需要非常精确的解决方案的应用，梯度下降也许不是一种可行的方法。

例如，梯度下降在机器学习中经常以不需要极端精确的方式使用。但机器学习研究人员想要将实验的精度提高一倍。在这种情况下，新的结果意味着他们可能需要将梯度下降算法的运行时间增加四倍。这种做法并不理想，但梯度下降还能起作用。

但对于其他应用，比如在数值分析中，研究人员可能需要将精度进行成倍提升，为了实现这样的改进，他们可能必须将梯度下降的运行时间进行更多倍的提升，这样一来，计算更加难以处理。

如果想要使用梯度下降，研究者必须做出妥协，要么接受精度较低的解，做一些比较简单的问题，要么找到管理冗长运行时间的方法。

但这并意味着快速梯度下降算法不存在，相反，快速算法有可能存在。但这一结果暗示着「 PLS ∩ PPAD 」的所有问题都存在快速算法，这比仅仅为梯度下降找到快速算法的难度要高得多。

「数学上的进步可以解决许多现有问题，这也是为什么我们希望得到一个非常自然的问题，比如梯度下降，能够捕捉整个交叉领域的复杂性。」Daskalakis 说道。

参考链接：

https://www.quantamagazine.org/computer-scientists-discover-limits-of-major-research-algorithm-20210817/

https://www.youtube.com/watch?v=as720_SRpY0

与吴恩达共话ML未来发展，2021亚马逊云科技中国峰会可「玩」可「学」

2021亚马逊云科技中国峰会「第二站」将于9月9日-9月14日全程在线上举办。对于AI开发者来说，9月14日举办的「人工智能和机器学习峰会」最值得关注。

当天上午，亚马逊云科技人工智能与机器学习副总裁Swami Sivasubramanian 博士与 AI 领域著名学者、Landing AI 创始人吴恩达（Andrew Ng ）博士展开一场「炉边谈话」。

不仅如此，「人工智能和机器学习峰会」还设置了四大分论坛，分别为「机器学习科学」、「机器学习的影响」、「无需依赖专业知识的机器学习实践」和「机器学习如何落地」，从技术原理、实际场景中的应用落地以及对行业领域的影响等多个方面详细阐述了机器学习的发展。

深度学习与电力智能化的思考

摘要国网福建省电力有限公司检修分公司的研究人员黄旭超,在2018年第11期<电气技术>杂志上撰文,回顾了深度学习的发展历程,详细介绍了深度学习的主流基础网络--深度神经网络结构和特点,在 ...
矩阵乘法无需相乘，速度提升100倍：MIT大佬的新研究引发热议

机器之心报道机器之心编辑部在一篇被 ICML 2021 接收的论文中,MIT 的一位计算机科学博士生及其业界大佬导师为矩阵乘法引入了一种基于学习的算法,该算法具有一个有趣的特性--需要的乘加运算为 ...
亚马逊云如何重塑世界？

作者:董指导出品:远川研究所科技组美国有两个大会,格外受国内从业人士关注,一个是伯克希尔哈撒韦的股东大会,投资人士踊跃前往聆听股神巴菲特的经验智慧:另一个则是亚马逊云服务(AWS)的re:Inve ...
用上Pytorch Lightning的这六招，深度学习pipeline提速10倍！

磐创AI推荐搜索关键词列表:AI学习路线资源PyTorch 磐创AI分享来源 | 量子位(QbitAI) 编辑 | 金磊.发自.凹非寺面对数以亿计的图片数据,到底该用什么样的方法才能快速搞 ...
零点有数带你一文读懂算法的成长历程 | BPAA峰会播报

[编者按] 由世界人工智能大会组委会办公室主办的首届应用算法实践典范BPAA(赛事运营:零点有数)以"推动算法产业化"为核心目标,旨在"汇集国际算法资源,传播算法实践标杆 ...
梯度下降法数学家澄清了现代应用中最重要的算法的本质

majer @ 2021.08.24 , 16:39 现代应用研究的许多方面都依赖于一种叫做梯度下降的关键算法.这是一个通常用于寻找特定数学函数的最大或最小值的程序--过程被称为优化函数.它可以用来计 ...
打破线性方程求解速度极限，华人学者新算法获顶会最佳论文奖

还记得小时候被"鸡兔同笼"支配的恐惧吗? 其实,当我们学习了二元一次方程,就知道这个问题并不复杂: 不过,可别小看了这样的线性方程,试想一下,如果动物的种类不止2种,特征也不只头和 ...
步子太快容易牺牲精度，梯度下降复杂度这一简单道理，获严格数学证明

本文经AI新媒体量子位(ID:QbitAI)授权转载晓查发自凹非寺梯度下降是机器学习中求最小值最常用的一种算法.尽管这种算法应用广泛,但是人们关于它计算复杂度的理论研究却寥寥无几. 在今年AC ...
英国牛津大学馆藏高古瓷器

艺术品代拍艺术品收藏,投资 8篇原创内容公众号半壁楼关注<半壁楼>,带你赏万物! 8篇原创内容公众号成器之道每天看<成器之道>,轻松玩玉器 339篇原创内容公众 ...
英国牛津大学阿什莫林博物馆藏高古瓷器（2）

古玉吧在这都是朋友
英国牛津大学阿什莫林博物馆藏高古瓷器（3）

古玉吧在这都是朋友
重磅！牛津大学最新研究：新冠病毒长期全球“蛰伏” 病毒可能并非源自中国！

英国<每日电讯报>2020年7月5日报道,牛津大学专家认为新冠病毒可能并非源自中国. △英国<每日电讯报>5日报道:牛津大学专家认为新冠病毒可能并非源自中国牛津大学循证医学中 ...
牛津大学镇社之宝！三小时读懂辉煌一时的失落文明！

大家还记得畅销全球的<牛津通识课>系列吗? 它在国外出版20多年,畅销了1000万册! 自从引进之后,很多人纷纷表示不愧是牛津社的实力! 直呼疯狂期待!出一本买一本! 也有人一直催更:下一 ...
世界上年龄最小的大学生，年仅9岁|沈诗钧|大学生|香港浸会大学|英国牛津大学

你们知道世界上年龄最小的大学生是谁吗? 他就是9岁神童沈诗钧,沈诗钧是香港有史以来年龄最小的大学生,当时被该校数学系录取. 打开腾讯新闻,查看更多图片 > 这名被香港媒体形容为"数学神 ...
牛津大学阿什莫林博物馆 (Ashmolean Museum)藏珍

牛津大学阿什莫林博物馆 (Ashmolean Museum) 集考古学与艺术于一身,全称为"阿什莫林博物馆艺术与考古博物馆".阿什莫林博物馆位于英国牛津市中心的博蒙特街上,是牛津大 ...

不能兼顾速度与精度，利物浦大学、牛津大学揭示梯度下降复杂度理论，获STOC 2021最佳论文

相关推荐