算法交易实战日记（九）—— 再次探索HMM在价格状态预测上的应用

显示全部楼层 · 2023-11-14 21:32:45

大嘎好！时隔两月我又回来了！
好久没写文章了，刚好最近做隐马尔可夫的二次探索有了新的发现和理解，和大家分享一下。本文含有大量分析源码，感兴趣的朋友也可以自己用其它模型尝试分析～

大家都知道西蒙斯就是靠HMM做择时一炮打红的，隐马尔可夫模型作为一个经典的概率模型可解释性很强，可探索性也很强，它不需要复杂的特征工程，直接从价格波动本身出发就可以做分析。
有关隐马尔可夫模型的原理本文不详述，简单来说就是你能看到的每一个状态（显性状态）其实背后都有一个对应的隐性状态，而隐形状态之间是依据马尔可夫过程进行状态转移的，比如显性状态是今天你喜欢的姑娘没出门，隐性状态是因为今天下雨了，那么你通过天气预告知道明天不下雨的概率（隐性状态转移概率），那你就可以大概估摸着到底哪天去约你喜欢的姑娘出去吃饭了。
HMM的假设是比较理想的，也就是隐性状态是可枚举而且独立的，在金融序列中，人们已经人为地确定过一些价格状态，比如拉盘/砸盘/横盘等，那么在这个基础上，我们是否可以假定知道价格的所有状态，然后对应的去寻找隐性状态的转移概率呢？
<hr/>1. 准备工作
那么首先导入需要的库和数据提取，我使用的数据集为ETH/USDT永续合约5min级bar级数据，数据的时间范围为2020-09-26 08:00:00 到 2021-08-11 20:25:00，共计数据条数为92022条。
此外，本文中使用的隐马尔可夫模型开源库为hmmlearn。
import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
import warnings
warnings.filterwarnings('ignore')
from tqdm import tqdm
import random
import datetime
from hmmlearn.hmm import GaussianHMM,GMMHMM,MultinomialHMM
from sklearn.model_selection import train_test_split
import itertools

df = pd.read_csv('5m.csv')2. 特征提取
虽然不需要做复杂的特征工程，但是简单的特征工程还是要做滴！毕竟要做价格状态的判断，单纯依据价格本身是很不合理的，而bar级数据中包含了OHLC四维特征，从价格本身和波动率来判断的话，可以做以下三种不同特征：
bar级价格变化率: (close-open)/open
bar级上涨随机波动: (high-open)/open
bar级下跌随机波动: (low-open)/open
那么就可以定义一个提取特征的函数了：
def _extract_features(data):
open_price = np.array(data['开盘价'])
close_price = np.array(data['收盘价'])
high_price = np.array(data['最高价'])
low_price = np.array(data['最低价'])

# 计算收盘价、高价和低价的分数变化
frac_change = (close_price - open_price) / open_price
frac_high = (high_price - open_price) / open_price
frac_low = (low_price - open_price) / open_price

return np.column_stack((frac_change, frac_high, frac_low)),frac_change, frac_high, frac_low3. 模型建立与状态解释
我们假设每个隐性状态对应的显性状态都是正态分布的，再初步估计市场一共有5个状态：
_states = 5
train_data, test_data = train_test_split(df, test_size=0.1, shuffle=False)
features, frac_change, frac_high, frac_low = _extract_features(train_data)
model = GaussianHMM(n_components=_states)

model.fit(features)

## GaussianHMM
print("隐藏状态的个数:", model.n_components)
print("状态转移矩阵")
print(model.transmat_)
print("均值矩阵")
print(model.means_)
print("方差矩阵")
print(model.covars_)

trans_mat = model.transmat_
means_mat = model.means_
covar_mat = model.covars_其中trans_mat为隐性状态转移概率矩阵，means_mat为每个隐性状态对应均值矩阵，cover_mat为每个隐性状态对应方差矩阵。
结果如下：
隐藏状态的个数: 5

状态转移矩阵
[[4.92841919e-01 3.94296981e-02 4.88723685e-02 4.18168766e-01
  6.87248292e-04]
[1.22888498e-01 3.54667807e-01 4.04748939e-01 7.50435445e-02
  4.26512115e-02]
[1.20944857e-01 3.16391469e-01 3.37760871e-01 1.97331090e-01
  2.75717137e-02]
[5.02057408e-01 6.09745059e-02 5.49501647e-02 3.80524622e-01
  1.49329942e-03]
[5.46560440e-07 1.66771635e-01 2.20357886e-01 1.45143404e-06
  6.12868481e-01]]

均值矩阵
[[ 0.00100483  0.00200838 -0.00069315]
[-0.0042892 0.00139075 -0.00662071]
[ 0.00430167  0.00626541 -0.00129704]
[-0.00127088  0.00068099 -0.0023776 ]
[-0.0002794 0.01021583 -0.01188547]]

方差矩阵
[[[1.78831746e-06 0.00000000e+00 0.00000000e+00]
  [0.00000000e+00 1.79026813e-06 0.00000000e+00]
  [0.00000000e+00 0.00000000e+00 7.92414902e-07]]

[[9.22402278e-06 0.00000000e+00 0.00000000e+00]
  [0.00000000e+00 3.06631445e-06 0.00000000e+00]
  [0.00000000e+00 0.00000000e+00 8.07040990e-06]]

[[8.66631732e-06 0.00000000e+00 0.00000000e+00]
  [0.00000000e+00 6.85396774e-06 0.00000000e+00]
  [0.00000000e+00 0.00000000e+00 3.04307130e-06]]

[[1.90478192e-06 0.00000000e+00 0.00000000e+00]
  [0.00000000e+00 8.76364129e-07 0.00000000e+00]
  [0.00000000e+00 0.00000000e+00 1.96545207e-06]]

[[2.98827765e-04 0.00000000e+00 0.00000000e+00]
  [0.00000000e+00 2.25462090e-04 0.00000000e+00]
  [0.00000000e+00 0.00000000e+00 2.71001164e-04]]]通过均值矩阵可以大概判断分别是怎么样的五个状态：

通过均值矩阵可以大致将以上几种状态分别归类为（对应状态0-4）：震荡向上、跌得飞起、涨得飞起、震荡向下、上下乱抖。
为了证明上述分类准确性，查看一下训练集分类的价格波动分布：
plt.figure(figsize=(15,10))
for i in tqdm(range(_states)):
idx = (decode == i)
plt.plot_date(train_data['开盘时间_'].apply(lambda x:datetime.datetime.strptime(x, "%Y-%m-%d %H:%M:%S"))[idx],frac_change[idx],'.',label='%dth hidden state'%i,lw=0.5)
plt.legend()
plt.grid(1)

（中间颜色看起来好像汉堡王啊 =_= 饿了）

通过波动分布感觉分类较为准确，下面观察一下各个状态的转移概率矩阵：

显性分布也较为符合认知。
4. 显性状态分布
知道了隐性状态的转移概率后，下面可以分别观察每个隐性状态对应的显性状态（每个bar的价格变化比例）的分布：

涨得飞起

震荡向上

震荡向下

跌得飞起

上下乱抖

观察到涨得飞起和跌得飞起都是高峰度的正态分布，而震荡向上和震荡向下都是明显有偏的偏态分布，上下乱抖则有两个尖峰，且非常薄尾。
通过以上几个显性状态的分布可以更精确的进行抽样。
5. 蒙特卡洛模拟
最后使用测试集来进行隐性状态转移模拟和对比，我们对接下来的100个时间戳进行蒙特卡洛模拟，以训练集的最后一个时间戳的状态为起始状态，模拟10000次，再从训练集的显性分布中进行对应抽样（这里我的抽样逻辑不太严谨，是假设的正态分布进行的抽样，实际上可以进行分布拟合再进行抽样或者直接从原数据中进行抽样都会更好一些），观察上下三个sigma之间的模拟结果：
def simulation(init_state,_states,num_simulations,periods,trans_mat,means_mat,covar_mat):
states = [i for i in range(_states)]
mean_arr = [means_mat[j][0] for j in range(_states)]
sd_arr = [np.sqrt(covar_mat[0][0]) for i in range(_states)]
3 \" w* D: e/ d: O! C
9 o4 Q0 T$ Z( _% Q' ] midline_trend = []3 e$ W/ K1 q' C' B: u5 p) r
up_one_sigma_trend = []
0 f! Y6 z$ T: ?# Z9 P up_two_sigma_trend = []
& I. e8 L& `2 R% `; x up_three_sigma_trend = []$ D, i+ U, Y- Z: R  Y/ P7 V
down_one_sigma_trend = []
7 ?& [) p2 d. o1 [ down_two_sigma_trend = []
  [2 c  ~  I0 A: ~% X- ?5 s, T! m down_three_sigma_trend = []6 c8 D  ]3 y2 @) d& I' @& o5 j
sims = []. I/ X3 k6 n- [$ m" @6 M
for j in tqdm(range(num_simulations)):
8 r' H  f. |! T       sim = [0]*(periods+1)
$ n& v1 T5 D1 B" B3 [: f       sim[0] = init_state3 {0 k& X0 g$ V( t( S
      #sim[0] = model.decode(features)[1][-1]
, z. v! ~, U1 q6 d       trans_df = pd.DataFrame(trans_mat)" p; v% t3 m% \$ B
      for i in np.arange(1,periods+1):
2 C) }* R! s. h          sim = np.random.choice(states, 1, p = trans_df.loc[sim[i-1],:])[0]$ o# ?( k) g4 c# z
      sim = sim[1:]. n6 R  y* _, }  N  A4 @
      sims.append(sim)
  _8 J' e4 m. @5 S' Y' w, m8 w. e3 F* v! ]
      midline_trend.append([mean_arr[sim] for i in range(periods)])
* r$ P, {' U2 ~4 x+ C! b4 e       up_one_sigma_trend.append([mean_arr[sim]+1*sd_arr[sim] for i in range(periods)])( U) ^. i& K( x' _* y  M1 ~
      up_two_sigma_trend.append([mean_arr[sim]+2*sd_arr[sim] for i in range(periods)])* b3 f6 v( G5 D/ w
      up_three_sigma_trend.append([mean_arr[sim]+3*sd_arr[sim] for i in range(periods)])6 R1 R$ p% l4 n8 i9 o# K
      down_one_sigma_trend.append([mean_arr[sim]-1*sd_arr[sim] for i in range(periods)])( K* Y' n1 k* X$ W1 W
      down_two_sigma_trend.append([mean_arr[sim]-2*sd_arr[sim] for i in range(periods)])4 [! Z% ~4 a+ Z! U! s8 ]( l3 Z
      down_three_sigma_trend.append([mean_arr[sim]-3*sd_arr[sim] for i in range(periods)])
. ?. }7 H8 i/ R2 Y* ]9 {2 ^       " P/ }# h' V& C) E2 m7 b. y/ O
sims = pd.DataFrame(sims).mode()
0 Y8 I7 Z5 p9 p/ [* A+ d6 F7 I4 B midline_trend = pd.DataFrame(midline_trend).mean()- j6 Q0 ~9 \2 l& K" T
up_one_sigma_trend = pd.DataFrame(up_one_sigma_trend).mean()/ v+ u) E* ?$ S, y; P5 G3 q
up_two_sigma_trend = pd.DataFrame(up_two_sigma_trend).mean()
  ?! u5 s2 G0 m4 M7 z up_three_sigma_trend = pd.DataFrame(up_three_sigma_trend).mean(), X* r/ A( O/ s0 T9 b& f$ o
down_one_sigma_trend = pd.DataFrame(down_one_sigma_trend).mean()( d( R# H! j) S3 }" _/ A* E. m
down_two_sigma_trend = pd.DataFrame(down_two_sigma_trend).mean()( I2 k+ I" U, g4 T2 u' E
down_three_sigma_trend = pd.DataFrame(down_three_sigma_trend).mean(): x7 z# z, M$ s0 K, E: ]# k1 L5 U* K

4 Z- N, x8 g. K! ]9 J; b return sims,midline_trend,up_one_sigma_trend,up_two_sigma_trend,up_three_sigma_trend,down_one_sigma_trend,down_two_sigma_trend,down_three_sigma_trendsims,midline_trend,up_one_sigma_trend,up_two_sigma_trend,up_three_sigma_trend,down_one_sigma_trend,down_two_sigma_trend,down_three_sigma_trend = simulation(model.decode(features)[1][-1],_states,10000,100,trans_mat,means_mat,covar_mat)! v! `1 M$ }" B6 ~( \
test_data = test_data.reset_index(drop=True)  P: R& s2 H# ?4 R3 i! U
frac_change_test = _extract_features(test_data)[1][:100]7 V  Z" w) ]" R) C5 C
frac_high_test = _extract_features(test_data)[2][:100]- T8 G, D9 V" N; y& }) }7 v
frac_low_test = _extract_features(test_data)[3][:100]/ t& c1 D4 R. f7 F" y
: g& J9 P. D/ A; r
def get_values(arr):" W9 U$ s  y+ N0 Z5 R
result = []
0 M3 y8 x* x0 K8 A  b% `# w for i in range(len(arr)):
  U$ V; u; }! f" h       if i == 0:
8 I7 V% s$ L. @# H          result.append(1*(1+arr[0]))
4 T2 R; n; P7 `       else:/ x. u) F; k% D8 ?) e
         result.append(result[i-1]*(1+arr))! ~) z9 |) i4 I' Z# m
return result
9 ~) B9 p# B3 L
( p% l8 t* L8 q( oplt.figure(figsize=(15,10))! w0 P7 E  _  y4 w
plt.plot_date(test_data['开盘时间_'][:100].apply(lambda x:datetime.datetime.strptime(x, "%Y-%m-%d %H:%M:%S")),frac_change_test,'-',label='close',lw=1)1 Y7 L& d+ k+ ^# b/ g1 C
plt.plot_date(test_data['开盘时间_'][:100].apply(lambda x:datetime.datetime.strptime(x, "%Y-%m-%d %H:%M:%S")),frac_high_test,'-',label='high',lw=1)
5 V; {0 j- H  h& ^- I$ X  ^5 pplt.plot_date(test_data['开盘时间_'][:100].apply(lambda x:datetime.datetime.strptime(x, "%Y-%m-%d %H:%M:%S")),frac_low_test,'-',label='low',lw=1)
/ G& m' j7 ~" ]1 `plt.plot_date(test_data['开盘时间_'][:100].apply(lambda x:datetime.datetime.strptime(x, "%Y-%m-%d %H:%M:%S")),midline_trend,'-',label='midline',lw=0.5)3 l! Y2 S' A* G
plt.plot_date(test_data['开盘时间_'][:100].apply(lambda x:datetime.datetime.strptime(x, "%Y-%m-%d %H:%M:%S")),up_one_sigma_trend,'-',label='up-1-sigma',lw=0.5)
5 ?6 j. x: b! E  z% xplt.plot_date(test_data['开盘时间_'][:100].apply(lambda x:datetime.datetime.strptime(x, "%Y-%m-%d %H:%M:%S")),up_two_sigma_trend,'-',label='up-2-sigma',lw=0.5)0 k( F( D  a) N  o  [9 Q. {7 ]" G
plt.plot_date(test_data['开盘时间_'][:100].apply(lambda x:datetime.datetime.strptime(x, "%Y-%m-%d %H:%M:%S")),up_three_sigma_trend,'-',label='up-3-sigma',lw=0.5)
) N0 W. B" A% ^plt.plot_date(test_data['开盘时间_'][:100].apply(lambda x:datetime.datetime.strptime(x, "%Y-%m-%d %H:%M:%S")),down_one_sigma_trend,'-',label='down-1-sigma',lw=0.5)
' M) I1 L4 J  N  Vplt.plot_date(test_data['开盘时间_'][:100].apply(lambda x:datetime.datetime.strptime(x, "%Y-%m-%d %H:%M:%S")),down_two_sigma_trend,'-',label='down-2-sigma',lw=0.5)
) [% y; X/ o3 L7 e$ Kplt.plot_date(test_data['开盘时间_'][:100].apply(lambda x:datetime.datetime.strptime(x, "%Y-%m-%d %H:%M:%S")),down_three_sigma_trend,'-',label='down-3-sigma',lw=0.5)* o( J0 p: {# ~, w  X
plt.legend()结果如下：
& R& l: \& E2 F5 X# y3 p
; \7 O; i7 q3 l0 Q* b$ Q, ]0 t/ ?
可以看出来大部分5min波动都在两个sigma之内，不过关于实际应用还没有想到有什么可以比较好利用这个点的方式，可以作为未来探索方向。  . n6 O* j: c1 s; U" O% N4 n
<hr/>6. 小结和Future Works+ k, c, i- w- o  R, r; v

, ]! o5 @: b3 \8 j0 ~0 m
虽然通过这种方式可以从另一个角度解读价格走势的变化，但是实际应用上还有所欠缺，目前做的这些研究工作还是比较碎片化，下次再做HMM的探索时希望可以沉淀一些策略层面上的东西。
. t: u% ]- N: C. F  |3 n7 K一些Future Works：
6 d- Z* Y3 P% E% |: W2 c
2 o- r1 Z4 I* F* Q

使用价格的对数变化率替代绝对变化率；2 `* U9 s% n* L

显性状态抽样优化，可以使用拟合后的分布进行抽样；
( u0 s) ~& _) m2 {8 f
使用更丰富的隐性状态来解释价格走势状态；
; ]! @# l, N- a) m; a
探索隐性状态转移在策略层面上的应用。/ f9 U2 p& Z7 n' k6 [

此外，对于HMM的应用层面如果有任何想法欢迎留言交流～
: B1 S; C7 [. Y+ o# t2 @0 Q谢谢大嘎！# t! y6 o8 h+ B4 C2 A
附：前几次的文章
2 }' |1 Y" p# W) ~& u. l" C加密货币衍生品实战日记（八）—— 币本位溢价与资费套利策略详解 ( L! C5 a" ~- K# r0 E" l
加密货币衍生品实战日记（七）——蒙特卡洛在价格走势范围预测上的应用(译)
4 e( T6 K* z7 k$ f; D$ L4 k5 q加密货币衍生品实战日记（六）——隐马尔科夫链对于状态的预测 ; l- _: W6 p3 Q3 R  S+ ~& k4 i
<hr/>
8 T' ]! G$ Q  F7 p

算法交易实战日记（九）—— 再次探索HMM在价格状态预测上的应用

浏览过的版块