读博选择强化学习方向，有前途吗？

2024-06-28 22:59| 来源: 网络整理| 查看: 265

提问：一方面是，感觉rl对数学要求较高，本科在AI相关的数学上积累并不是很深厚，怕自己入坑后搞不出来

另一方面，就是我目前还没确定以后想进厂打工还是搞研究，听说rl落地比较困难，如果以后想进厂的话不知道rll会不会以后不好找工作（即使是博士毕业）。在此想请教各位大佬，rl真的如很多研究者说的那样处处瓶颈吗？

朱哲清Bill（Facebook应用强化学习负责人，工程经理）回答：

我感觉题主的核心问题是不论要进工业界还是学术界，担心RL在工业界的应用很有限，并且学术界很难出结果。我先说一下结论吧，在目前情况下，在工业界和学术界出结果的难度确实都比常规ML的算法的难度可能要高出不止一两个数量级，这也是我的团队目前正在努力攻克的方向，但我们目前认为这个方向可能会是下一个会迸发的方向。（灌水paper不算啊哈哈。。）找工作我觉得不会太难，最差情况也可以去常规ML的组，因为就像你说的，RL研究者所需要的数学背景要高不少，正常的DL，ML，CV，NLP各方面的知识都得懂一些，所以其实是有利的。

我分三个方向说一下。RL搞不出结果，找工作以及瓶颈。

RL搞不出结果：我觉得题主可能对RL还是有一些了解的。真的要做好RL确实是要有比较好的数学背景，而且要把RL的核心算法都给理解透了，否则你平时做研究做实验的时候会痛苦到爆炸。特别是RL的算法实验，总体来说要比supervised learning的实验要难debug太多了，而且所需要的算力也大很多。所以，功底扎实确实相当重要。但是答主如果能想清楚在博士期间要完成的目标，并且基础扎实，其实RL也可能没有那么痛苦。比如如果答主在博士期间可以找一个目前感兴趣的细分应用领域做好RL应用，其实也就是一个很舒服的博士生涯了。当然，如果答主想要成为下一个Sergey Levine或者Chelsea Finn，那确实这5-6年不太好熬。

找工作：像我上面说的，RL研究者的背景一般其实都更广，数学背景也更扎实，其实找工作是有优势的。像比如说我在招人的时候，即便是在硅谷西雅图这样的地方，我还是招不到特别好的RL人才，说明这个方向还是紧缺的。我其实觉得未来对这个方向的需求会慢慢变大的。当然啦，如果你指望成为下一个区块链或者元宇宙那样的宇宙大爆炸，那RL方向还是相对比较脚踏实地的哈哈。

瓶颈：大环境上我觉得有几个大问题。一个是业界对RL还是抱有将信将疑的态度，能够真正花大力气做RL的公司真的是占少数，Google跟我们可能真的已经是为数不多的专攻的尖兵了。即便如此，我们内部真正能把RL做好的人还是占少数。二是太多的论文和算法了，而且对于每一个算法是否真的有用，没有一个定论，这样就导致不像CV，NLP之类的领域大家至少知道现在情况下transformer是基本肯定有戏的方向，RL不是这样。三是没法线下对线上有靠谱的预估。supervised learning至少可以看看Loss，AUC，PR之类的，RL做OPE，但是这个variance不是人能看的。。。所以大多数实际场景别人不会特别放心用你的东西。以上还只是大环境上的问题，算法上和理论上也一大堆问题，这个就另说了。

总体来说，方向是好方向，但是做好努力耕耘的准备，不用太担心找工作的问题。

疯子1025（新加坡科技研究局）回答：

我不是大佬。但是在死磕强化学习。在NUS读博就只做强化学习。现在在ETH访问也只做强化学习，只因为喜欢这个课题。说一点自己的思考，提供一些也许主观的意见，仅供参考。

关于第一方面，我觉得不应该因为所谓的"数学门槛高"就放弃你感兴趣的课题。本身读博就是不断让自己跨过各种"门槛"的过程。一个残酷的事实是，读博的人太多了。在博士生一抓一大把的情况下，如果我们都选择"要求低"的课题和方向，how do you differentiate yourself from your peers? 而一个幸运的事实上，也许你在本科看RL觉得要求很高的数学，等到你真正开始一个相关工作后再回头看，其实也就还好。举个例子，初中的时候去看高中的课程以及高中的时候去看大学的课程。

关于第二个方面，是的，RL落地还很远。就算所谓游戏，常规玩家能拿捏的也还停留在Atari。这是因为RL过去的研究确实都停留在simulation里。这确实很让从业者感到沮丧，也很劝退。但是怎么说呢，如果积极一点看待这个问题，这也算机遇？因为问题还很多，落地还很远，才有养活博士的空间？否则RL彻底成熟了，公司只需要招聘本科生/硕士生进行对应的产品研发就可以了，为什么要花大价钱请我们博士来做ppt写report呢？

基本上翻开任何ML的textbook，上来都会告诉你，ML分为SL，UL，和RL。占据ML 1/3地位的RL肯定是寄不了的。一个折中(又保持兴趣，又考虑结果产出)，可以结合专业背景，尝试做些RL应用的工作。比如不少EE背景的，就在做用RL优化的能源问题，信号处理问题，资源分配协调等。虽然也都比较难落地，但起码是个good starting point。这种做法有个好听的名字，叫交叉学科。

交叉学科的下限(门槛)很低。简单粗暴一点就是C=A+B。但是交叉学科的上限可以很高。比较现在大家疯狂搞AI，已经没有多少人能静下心来学习传统学科的知识了。

补充个自己的例子：我目前博三，卷得不太行，目前只有一个被接受的工作，即我们（NUS，A*STAR，阿里达摩院）NeurIPS2021的论文（论文链接，GitHub）。我们这个工作就是结合了我们近期在联邦学习的一些理论经验，提出的第一个具有理论支持的联邦强化学习框架。然后幸运的是，因为这个工作，我收到了苏黎世联邦理工学院ETH做分布式系统的Roger Wattenhofer教授的邀请，于是我现在正在ETH做访问博士。体验非常棒。

赵鉴（中科大博士生，研究方向强化学习）回答：

怎么说呢，一般当你提出这个问题的时候，我就不太建议你读强化学习了。就向下面有人问的，读博永远是兴趣导向的，而不是前途导向的，否则就会非常痛苦。但我也是那个年纪过来的，可能就是对啥方向都没兴趣，那你就不太适合深造。。。

我负责了实验室近几年的宣讲，强化学习的ppt就是非常酷，都是各种游戏AI在操作，对年轻人吸引很大，导致一时间想来做强化学习的人都超过了其他方向的。但是你也要明白这些ppt只是华丽的表面，我看到一个数据说去年RLchina报名课程的人已经超过了5万人，而我今年找工作，强化方向工作的需求可能是百级的（导致我现在也没有offer）。

我经常跟师弟说一句话，谁如果给你预测3年后人工智能方向火，他绝对是刷流氓，我们刚开始读博的时候，也不知道强化学习是现在这个样子啊。所以博士选方向，你看现在的就业情景没意义，就跟你投资股票一样，而这种投资你要有自己的主见，不要上网去查，否则你就跟100w随便买一个股票差不多。他的股东肯定会说这股票好好好，刚卖掉的肯定说这股票不好不好。

最后是我的个人建议啊，不要在乎数学不数学的，强化学习现在缺的是给你任意一个环境，你就可以用强化学习做出他AI的人才，这一点的编程基础远比所谓的数学理论难得多。

回答转载自知乎，仅表个人观点，著作权归属原作者

在看

【本文地址】

公司简介

联系我们