机器学习包括三个要素:输入变量、输出变量,以及连接它们的模型。一般人会分成训练集、验证集和测试集。传统上机器学习担心的是过度拟合,但也有一些机器学习方法不大害怕过度拟合。
比如有理论是谁如果模型复杂度(包括变量、数目、变量结构等)远超数据量,反而不会出现过度拟合的问题,因为冗余的变量或结构的权重会逐渐降低,导致测试误差先升后降(double descent)。这也是很多深度学习敢于大力出奇迹的原因,因为有这个双下降作为保证。否则,传统那种验证集的方法,中间找一个最优,之前欠拟合,之后过度拟合,这个过于玄学。如果你说大胆加,越多越好,那么人们反而放心。
机器学习的要素
如果是强化学习那一套,本质上也不怕什么过度拟合,因为样本基本上采用一定的机制蒙特卡洛生成,不存在什么太离谱的噪音;而且没有什么训练集、测试集这些概念,更多是打游戏,越高分越好,每次的场景都是固定模式生成的。
有了以上的这些基本概念,回到金融,回答一些基本问题:

1、样本分布改变的问题

之前说双下降不怕过度拟合,那前提是默认了测试集和训练集是同分布的,如果这个分布改变了,那么双下降也没用。至于判断样本分布是否改变,这是一个玄学。
当然,这也取决于你对样本的定义。如果你把样本定义为一条路径,那么历史上只有一个样本;或者你把一年的路径定义为一个样本,那你一年也只有一个样本;但如果你是把1分钟的价格变化定义为一个样本,那么你的样本可以多得多;或者你把一次交易定义为一个样本,那么你也可以有非常多的样本。
一般情况下,样本越多,一般来说拟合模型越好;另外,在越短的时间内,样本稳定性越高;所以做高频交易不需要太多天的数据来训练也可以有比较好的效果,而且样本分布变化不大,策略失效风险不大。
还有就是,如果品种多,每个品种的交易都是独立样本,也可以增加样本数目,但拟合出来的是各个品种的共性,未必每个都能做好,因为评价标准是整体不错。不同品种的分布可能也会有所差异,或许需要调整,使得分布更为接近。

2、时间序列与横截面的问题

这本质上是高频和低频的思路,时间序列本质上是高频思路,横截面其实是低频思路。所谓横截面就是固定时间做决策,比如每5分钟、10分钟固定时刻做决策,这个可以方便各个品种对齐,因此可以方便调用其它品种的数据,方便做对冲,都是同一个时间决策;而且可以把决策和交易执行独立开开,有人专门负责算法交易。
但如果是高频交易则不能,时机稍瞬即逝,一定要一出信号就买。另外不大适合做对冲,因为每个品种的价格序列是独立的,难以对齐,因此更适合单品种,比如期货类的高频策略。
机器学习对这两种都可以,横截面或许可以采用更大量的数据,多品种混合建模。
CQF量化的发展前景

3、个人发展的问题

确实有人工智能界业界顶级的大牛做量化投资失败了,而且是几乎全美国最牛的公司最好的资源,原因很难说清楚,不去臆测了。
有的人虽然厉害,但需要找工作;有的人看起来不怎么厉害,但其实不需要找工作。比如经常说什么人工智能大神,离开业界AI lab回归高校,其实这些人就是反复横跳,但让他自己出来,离开体制(学校、公司都叫体制),他们其实是不敢的,或者说离开之后压根是赚不到钱的,甚至没法生存的。这就属于看起来厉害,但还是需要找工作,离开了体制,或许就真的什么都不是。
有的人其实更洒脱一些,不会依赖体制、公司、单位,进退自如,自己可以独立赚钱的,包括各种方式,比如炒股、炒期货、炒数字货币,量化也好主观也好,或者搞讲座也好,反正就是不依赖体制也能活的。
公司打工的问题在于你只能靠增量存活,没有增量,你就拜拜了;你不能说我之前积累了这么多策略这么多客户这么多资源,这些也能继续赚钱;但问题是没有你公司也能用这些赚钱,那要你何用?但自己干的话自己是可以利用存量赚钱的,这是最大的区别,但很多人没想过这点。一些大券商考核甚至用今年比去年多赚多少钱,或者今年新增了多少客户,存量客户交易佣金降低权重。这样对个人会很坑,因为这些钱公司还是赚的,不管存量还是增量公司都是赚的,只是没有给个人。
公司的压力来自于股东,因为如果收益没有增长,股民抛售,股价下降,公司会有压力。或者说公司估值很大一部分来自于未来潜在增值的折现,如果人们发现未来无法增值,那么可能会造成股价雪崩。但个人做没有这方面的压力。
所以,对于做量化这种最最不需要公司平台的(我指的是法律规定的牌照类资质),应该是最适合个人做的。或者说得更直接一些,如果量化交易都没法个人做,那么全世界几乎不存在可以个人创业的领域。
以上就是资讯的全部内容,更多最新的CQF资讯,请关注高顿教育CQF频道