OpenAI雄心勃勃的机器人计划失败了:强化学习没法用?
不是谁都能像波士顿动力一样能不断找到下家。
Wojciech Zaremba:我们曾在机器人技术上研究了几年,直到最近我们改变了 OpenAI 的关注点,实际上,我解散了机器人团队。 主持人:你为什么这样做? Wojciech Zaremba:事实证明,只要能够访问数据,以及借助机器学习、无监督和强化学习,我们就可以取得巨大的进步…… 实际上有很多领域的数据非常丰富。而数据问题阻碍了我们在机器人技术方面的发展。
如果我们是一家机器人公司,或者公司的使命与现在有所不同,我认为我们会继续下去。事实上,我非常相信机器人所采取的方法和方向,但是从我们想要实现的目标——也就是构建 AGI 来看,目前还有所欠缺。当创造机器人时,我们以为可以凭借自主生成数据和强化学习走得很远。
好多留言说明了「没法用」反映出大家的心声。实际上强化学习这个古老的研究领域 2016 前在国内一直比较冷的根源就是没法用。研究领域大家也都清楚强化学习算法样本利用率低,然后做出了很多改进,但是要改进到什么程度才能有用呢,其实根据我们的经验有一个标准:
零试错:一次试错不能有,上线即能发挥效果,还要明显优于基线。 offline RL 是个正确的方向,但是目前的主流研究也有很多明显的弯路,可能发论文与做落地本身就是不同的事,大家的关心点不可能完全一致吧。 另外就是我们的落地越来越多,不再想着去说服别人 RL 可以用了。
惠普工作站人工智能合作伙伴招募
赞 (0)