喝下几口水后,尚斌感觉思路清晰了很多,继续补充道: 【在职业学院工作,每周大概要上二十节课,不过大多数课程为实操实验,在机房进行,只需要讲头二十分钟,后面学生们自己练习就可以了。】 尚斌琢磨着是不是该拉回正题,没想到对方又发来一条消息。 匿名用户:【好的老师,职业学院会有科研考核和评职称方面的压力吗?】 尚斌:【部分职业学院甚至不要求坐班,只有上课和开会的时候去就可以,大部分职业学院没有科研方面的考核,或者说形同虚设,因此与网文职业完美契合呢。 至于收入嘛,与你的职称挂钩,现在职称不好评,不过,就算是中级职称,也比帝国境内大部分大学的高级职称收入高。】 尚斌至今记得,自己刚评上正教授之后,曾在一次会议中与本地一位职业学院的讲师交流过,对方听到尚斌的工资之后,笑眯眯地问了一句尚老师你们学校是不是扣得特别多啊。 匿名用户:【哦哦,那将来确实可以考虑一下……莫老师,我还有一个问题,我在懂乎上看到您是做强化学习的,如果读研做这个方向,将来找工作容易吗?】 尚斌:【在帝国境内,除了几家头部IT企业,很少有人会专门招强化学习的硕士生,总体而言,这方面的需求是很少的,就业岗位十分有限。 另外,CV领域早已是一片红海,也不推荐。 NLP领域倒是不错,尤其是大规模语言模型,现在仍处于迅猛发展阶段,企业需求十分旺盛。 另外还得补充一下,开发岗永远是刚需,虽然这两年收入水平下降了一些,但招聘机会比算法工程师和算法岗多得多。】 匿名用户:【好的老师。我还是对强化学习挺感兴趣的,本科阶段也曾经尝试用这种方法实现了几款游戏AI,如果说做这个方向,能给一些建议吗?】 尚斌:【如果你真的想找强化学习相关的工作岗位,我建议你报考与头部IT企业有合作关系的课题组,因为这些课题组的毕业生很容易获得合作企业的offer。 至于其他课题组,我觉得就没什么意思了,就算你能力再强,没有好的学校和课题组背书,也很难找到强化学习对口的工作。 说直白一点,除了我说的这一类学校,去其他地方读研,哪怕是帝国一流大学,拿着强化学习找工作只能死路一条。】 匿名用户:【哦哦,难怪懂乎上有人说强化学习不好找工作,原来是这样。 那我明白了。 对了老师,您能不能推荐几个强化学习的研究方向和应用方向,我想提前准备一下,面试和联系导师的时候或许用得上。】 尚斌:【研究方向的话有这么几个,先说几个热门的。 首先是离线强化学习,研究使用固定数据集的情况下如何进行强化学习,目的是得到比产生数据集的行为策略更好的策略。目前要解决的主要问题是外推误差问题和多智能体引入的多模态问题。 由于这种方法不需要与真实环境交互,因此比较适合在采样成本较为高昂的场合。 其次是迁移强化学习,研究如何使用源任务的知识提高强化学习方法的泛化性能,目的是减少优化算法的启动时间,同时提高优化能力。 目前这个方向要解决的主要问题是如何对队友指导和先验知识进行融合,以及多智能体设定下智能体之间的知识形式不一致的问题。 强化学习的时间比较长,如果每次遇到新的环境就完全重新开始学习,那么耗费的时间太多了。因此这种方法一定会广泛应用在场景变化较为频繁的场合。 以上两个方向没有什么像样的理论成果,事实上,也没有太多理论可以深挖。 最后介绍一个方向,可能对数学知识要求略高,高等概率论和高等随机过程是必须要掌握的,当然,前置数学课程也必须要掌握。 多智能体强化学习有限时间分析,研究算法在收敛性得以保证的前提下,学习策略和最优策略之间的误差与学习时间之间的关系。】 尚斌之前就整理过这些方向的资料,并且在懂乎写过相关回答,因此他闭着眼睛都可以讲得出来。 喝完剩下的半杯普洱茶之后,他继续说道: 【至于应用方面,需求量较小的我就不说了,机器人调度系统一直处于供不应求的状态,目前已经发展到第二代,也就是基于规划模型和启发式的方法. 很多公司已经开始研发第三代调度系统,所用的方法将会以强化学习等智能优化方法为主,你可以查一下这方面的资料。】 说完,尚斌随手将一些文献综述和经典算法论文打包发给对方。 匿名用户:【非常感谢老师,我暂时没有其他问题了。】 尚斌:【好的,之后有什么问题直接私信我就好,不必再付费了。】 匿名用户:【好的,谢谢老师!】 尚斌看看时间,已经过去接近一个小时,换做是去其他学校作学术报告,一小时少说也要1000第纳尔。 不过在懂乎,大多数向他咨询的人都是大学生,手头并不宽裕,按照学术报告的标准定价估计没人会发起咨询。 现在的学生真不容易啊,无论是考研还是就业,都比自己那时候困难得多。 唉,自己刚参加工作两个月不也是被裁掉了嘛。 回想起之前在掌掴大赛上搏脸厮杀,而今坐在高档座椅中的自己,尚斌顿时觉得普沃大学也没什么不好了。 他稍微歇了歇,打开自己的邮箱。
第八十四章 强化学习(1 / 2)