强化学习是机器学习的一个分支,之前又叫做Approximate Dynamic Programming,不过现在一般都叫做RL了。
强化学习创建交易机器人
人工智能也好,机器学习也好,最本质的问题是面对不确定性时如何做出好的决策。
比如具体到量化交易领域,我们要做的决策可以说是每个时刻,要买什么股票,卖什么股票;买多少,卖多少;是用限价单还是市价单等等,这些都是决策。
所谓不确定性,可以包括未来股票价格的变化是不确定的,另外我们的单子进入到市场之后,对市场的影响也是不确定的。
另外,强化学习涉及到几个方面:优化(Optimization)、延迟结果(Delayed Consequence)、探索(Exploration)、泛化(Generalization)
刚刚说的4个方面。所谓优化,目标就是找到做决策的优解方法,使得可以获得更好或比较好的结果。
学姐可以把当时上岸的备考规划给你。少走1个月的弯路,同时我把备考的资料分享给大家,都是课程的内部资料,大家需要的可以戳下面卡片领取↓↓↓
对于延迟结果,指的是我们现在做的决策会对未来一段时间都会有所影响。比如下单会造成冲击成本,会有暂时的冲击,以及长期的冲击。
探索指的尝试不同的决策,来获得不同的结果,不断学习改进。比如下围棋,每一步棋都要想着未来几步,模拟未来的棋局,探索哪一个位置最好,这就是探索的过程。
最后就是泛化。比如下棋,不可能每一种情况过去都模拟过,未来肯定会遇到没见过的棋局,因此过去的模型必须要有泛化的能力,这样遇到了没见过的棋局也可以应付。
相比监督学习和无监督学习,它们并没有做决策的过程,所以并没有上述说的“优化”的步骤;当然,监督学习要最小化误差,这可以理解为优化的一种方式;但两个优化不是一个意思,强化学习里说到优化一般指找到一个最有策略,从这个角度监督学习和无监督学习都没有优化。另外,监督/无监督学习也没有所谓探索试错的过程,也没有延迟结果这个东西;但监督/无监督学习都有泛化的特征。这是它们与强化学习的区别。
高顿教育
精彩内容已结束,欲知更多CQF考试相关内容,请移步【报考指南】栏目!一键轻松GET最新CQF报名流程、考试内容、证书获取等全面信息!CQF(量化金融分析师)考证新征程,高顿教育CQF陪您一起走过!