贝叶斯定理厉害在哪里?

[复制链接]
查看8103 | 回复0 | 2021-11-1 11:58:39 | 显示全部楼层 |阅读模式
贝叶斯定理太有用了,不管是在投资领域,还是机器学习,或是日常生活中几乎都在用到它。1 n" _1 B( Q2 x
例如,生命科学家用贝叶斯定理研究基因是如何被控制的;教育学家意识到,学生的学习过程其实就是贝叶斯法则的运用;基金经理用贝叶斯法则找到投资策略;谷歌用贝叶斯定理改进搜索功能,帮助用户过滤垃圾邮件;无人驾驶汽车接收车顶传感器收集到的路况和交通数据,运用贝叶斯定理更新从地图上获得的信息;人工智能、机器翻译中大量用到贝叶斯定理...5 J8 F$ G4 O+ B! `  }1 o! l, p+ k
& z& E+ D* Q$ o1 @8 x: p- s
我将从以下4个角度来科普贝叶斯定理及其背后的思维:
  v; U! H" ]; ~% ]% E( u1.贝叶斯定理有什么用?/ x% F* t( {5 C2 M/ H- V+ q
2.什么是贝叶斯定理?
3 M7 \0 \9 \5 I, W, R0 H3.贝叶斯定理的应用案例
& _/ o8 z# x) A) X/ I+ I4.生活中的贝叶斯思维
# U: ~1 ?1 A- p! m0 L' J+ {6 }
! L0 E/ Q" o% K6 {. n
1.贝叶斯定理有什么用?
英国数学家托马斯·贝叶斯(Thomas Bayes)在1763年发表的一篇论文中,首先提出了这个定理。而这篇论文是在他死后才由他的一位朋友发表出来的。
- k( @# h8 p- d' g7 Y(ps:贝叶斯定理其实就是下面图片中的概率公式,这里先不讲这个公式,而是重点关注它的使用价值,因为只有理解了它的应用意义,你才会更有兴趣去学习它。)
) E& J! B0 \2 `, s
0 {( Z3 `/ _! P; |& L5 w) m
9 ?  B+ S! U3 `1 e5 X* @' i# G# ^在这篇论文中,他为了解决一个“逆概率”问题,而提出了贝叶斯定理。
7 R* _3 _5 f  h* ~/ \) A% \1 D: D/ g. _在贝叶斯写这篇文章之前,人们已经能够计算“正向概率”。什么是正向概率呢?举个例子,杜蕾斯举办了一个抽奖,抽奖桶里有10个球,其中2个白球,8个黑球,抽到白球就算你中奖。你伸手进去随便摸出1颗球,摸出是中奖球的概率是多大。
0 ]. ^' V  y5 e. D" v" r" f, T/ L7 W$ f% g% Y& t# w; w

  O  ]6 [2 k% P8 I根据频率概率的计算公式,你可以轻松的知道中奖的概率=中奖球数(2个白球)/球总数(2个白球+8个黑球)=2/10
7 o( _8 u- r( `1 b4 x5 k* _如果还不懂怎么算出来的,可以看我之前写的科普概率的回答:猴子:如何理解条件概率?
1 z' W/ S: V) ~; `& G+ F/ I  Q" T9 o
而贝叶斯在他的文章中是为了解决一个“逆概率”的问题。比如上面的例子我们并不知道抽奖桶里有什么,而是摸出一个球,通过观察这个球的颜色,来预测这个桶里里白色球和黑色球的比例。
" k/ b" e. j$ \4 q: A' G, J! m& q9 ?: R9 I; ]& |/ p% K

' M+ L" ]6 {) w; E8 L( C这个预测其实就可以用贝叶斯定理来做。贝叶斯当时的论文只是对“逆概率”这个问题的求解尝试,这哥们当时并不清楚这里面这里面包含着的深刻思想。" T7 @# m# Z/ ?6 x  F
3 S6 r, A! X! M( Q7 Q  Z
然而后来,贝叶斯定理席卷了概率论,并将应用延伸到各个领域。可以说,所有需要作出概率预测的地方都可以见到贝叶斯定理的影子,特别地,贝叶斯是机器学习的核心方法之一。8 W5 _7 v" V( {3 O" L
/ o1 p6 u& x5 Y
为什么贝叶斯定理在现实生活中这么有用呢?9 \. k1 }# o- s5 r+ P
这是因为现实生活中的问题,大部分都是像上面的“逆概率”问题。因为生活中绝大多数决策面临的信息都是不全的,我们手中只有有限的信息。既然无法得到全面的信息,我们就只能在信息有限的情况下,尽可能做出一个好的预测。9 H  `& y3 s. X( `+ H% i* C& `
比如天气预报说,明天降雨的概率是30%,这是什么意思呢?
+ ^: I* @6 t  K" c9 b3 E& y我们无法像计算频率概率那样,重复地把明天过上100次,然后计算出大约有30次会下雨(下雨的天数/总天数)
; I# I* B: Y; a- I而是只能利用有限的信息(过去天气的测量数据),用贝叶斯定理来预测出明天下雨的概率是多少。: q/ h6 t% i* z5 U! ?6 R  d

" f( Z/ _' }7 c9 V2 O同样的,在现实世界中,我们每个人都需要预测。想要深入分析未来、思考是否买股票、政策给自己带来哪些机遇、提出新产品构想,或者只是计划一周的饭菜。4 Z5 _4 r6 q$ y0 K7 T/ G; ]

: d0 x. B4 v; _$ g. G贝叶斯定理就是为了解决这些问题而诞生的,它可以根据过去的数据来预测出未来事情发生概率。' |% T; s( e9 R

  Q6 S4 M: r3 U; ?  I贝叶斯定理的思考方式为我们提供了有效的方法来帮助我们做决策,以便更好地预测未来的商业、金融、以及日常生活。* I2 T  }- `6 x' f) @2 c

  u: s: {1 W1 h总结下第1部分:贝叶斯定理有什么用?- c( X( S7 ^* m
在有限的信息下,能够帮助我们预测出概率。+ j% W8 R- Y% ^5 D' r  S
所有需要作出概率预测的地方都可以见到贝叶斯定理的影子,特别地,贝叶斯是机器学习的核心方法之一。例如垃圾邮件过滤,中文分词,艾滋病检查,肝癌检查等。
) Z6 m7 e/ |5 L; T; \" b9 t: d- x6 z1 \) l) p7 ^! `0 V% A! B
2.什么是贝叶斯定理?
贝叶斯定理长这样:* Y% N0 ~6 P  u) y/ w
% ^7 o1 B. o8 T
8 r% w4 p, ^1 \4 q/ C7 _& m; P
到这来,你可能会说:猴子,说人话,我一看到公式就头大啊。/ m( I' X2 F8 Q% `& h) h* R
其实,我和你一样,不喜欢公式。我们还是从一个例子开始聊起。
- m, b0 h& l  n  ]2 v6 v# C
' f1 R+ T! e. K3 r/ `# H我的朋友小鹿说,他的女神每次看到他的时候都冲他笑,他现在想知道女神是不是喜欢他呢?
. h" C" q* i% n谁让我学过统计概率知识呢,下面我们一起用贝叶斯帮小鹿预测下女神喜欢他的概率有多大,这样小鹿就可以根据概率的大小来决定是否要表白女神。
& S9 h7 C7 J! \9 j# l% o* L% M2 n( v首先,我分析了给定的已知信息和未知信息:
% C6 d) [/ y1 P1 Y& O7 Q1)要求解的问题:女神喜欢你,记为A事件: t5 o: w1 s+ ^& A4 V  t# `. J# w) Y
2)已知条件:女神经常冲你笑,记为B事件
4 c) r" ^( D* A
" x0 Z; y) `! S, ^所以,P(A|B)表示女神经常冲你笑这个事件(B)发生后,女神喜欢你(A)的概率。
' h" V) r2 f0 X# z0 E/ ]4 h. J
; P, Z6 I/ P9 P3 y& l. H" y/ [7 u+ q1 i  i: r
从公式来看,我们需要知道这么3个事情:9 Z) ~/ i, A4 g6 H( s- ]3 @" u
1)先验概率% W' B0 h; J; s# t+ S- k% w% J
我们把P(A)称为"先验概率"(Prior probability),也就是在不知道B事件的前提下,我们对A事件概率的一个主观判断。
4 [% A8 }( v# z5 _. u5 `对应这个例子里就是在不知道女神经常对你笑的前提下,来主观判断出女神喜欢一个人的概率。这里我们假设是50%,也就是不喜欢你,可能不喜欢你的概率都是一半。
; W$ n9 L' D1 u
# z) f% X" l$ l# Q2)可能性函数
0 `! U& s! a) J2 f/ O+ t- _$ GP(B|A)/P(B)称为"可能性函数"(Likelyhood),这是一个调整因子,也就是新信息B带来的调整,作用是将先验概率(之前的主观判断)调整到更接近真实概率。0 u+ l  P# t# i/ L3 O7 c

  K* R+ Z# Z7 \. @, h可能性函数你可以理解为新信息过来后,对先验概率的一个调整。比如我们刚开始看到“人工智能”这个信息,你有自己的理解(先验概率-主观判断),但是当你学习了一些数据分析,或者看了些这方面的书后(新的信息),然后你根据掌握的最新信息优化了自己之前的理解(可能性函数-调整因子),最后重新理解了“人工智能”这个信息(后验概率)
" T! y9 g) S5 k" v) g2 n1 j; ?: o8 X. R
如果"可能性函数"P(B|A)/P(B)>1,意味着"先验概率"被增强,事件A的发生的可能性变大;1 _' \3 L1 z& I, l5 \# ~" q
如果"可能性函数"=1,意味着B事件无助于判断事件A的可能性;
& z0 }( I! `* p8 u* K& ~. Y7 A如果"可能性函数"<1,意味着"先验概率"被削弱,事件A的可能性变小。. w0 Y* I) j. A2 |- }6 X
7 \; t  G+ d% }# }+ |* t
还是刚才的例子,根据女神经常冲你笑这个新的信息,我调查走访了女神的闺蜜,最后发现女神平日比较高冷,很少对人笑,也就是对你有好感的可能性比较大(可能性函数>1)。所以我估计出"可能性函数"P(B|A)/P(B)=1.5(具体如何估计,省去1万字,后面会有更详细科学的例子), D5 k' d4 W7 Q- ]2 m* v

7 S2 Z. z) d, }- t9 m# }0 M3)后验概率
5 K3 Z2 I+ O8 ]  y  dP(A|B)称为"后验概率"(Posterior probability),即在B事件发生之后,我们对A事件概率的重新评估。这个例子里就是在女神冲你笑后,对女神喜欢你的概率重新预测。
9 Q* R1 E) E9 z带入贝叶斯公式计算出P(A|B)=P(A)* P(B|A)/P(B)=50% *1.5=75%
7 M1 ~( ~% c2 K6 n. M9 Z  S
" M8 I$ u6 b) X" k; p: J  k: `因此,女神经常冲你笑,喜欢上你的概率是75%。这说明,女神经常冲你笑这个新信息的推断能力很强,将50%的"先验概率"一下子提高到了75%的"后验概率"。
& g7 l  h; \! \7 h3 p
1 o* D# p1 ~. a3 M" o' S1 J* q7 u. ]3 |& F! S
在得到概率值后,小鹿自信满满的发了下面的表白微博:
- d4 X# y! K( c$ U% o: ?& W+ A. `' J/ C( |$ S6 p6 w
: B# S9 U6 X0 V- M
稍后,果然收到了女神的回复。预测成功。$ N: g! W4 g, z; m, j

$ i, ]+ o0 g+ Z1 A, c" p& q' J& }- r5 c  M
现在我们再看一遍贝叶斯公式,你现在就能明白这个公式背后的关键思想了:8 P  \/ F9 ^( B- g+ \' H
我们先根据以往的经验预估一个"先验概率"P(A),然后加入新的信息(实验结果B),这样有了新的信息后,我们对事件A的预测就更加准确。
* s0 p: ^) a% k/ O9 X; \/ H2 R6 R) H; _, v  c
& z# R# Z, F3 g0 O
因此,贝叶斯定理可以理解成下面的式子:, p3 M6 K$ o3 Y0 c2 `' v8 e% K
后验概率(新信息出现后的A概率) = 先验概率(A概率) x 可能性函数(新信息带来的调整)
' ^! A* E' R+ _' k贝叶斯的底层思想就是:
% S2 k6 }0 I9 l  ^' ^% s5 E如果我能掌握一个事情的全部信息,我当然能计算出一个客观概率(古典概率)。
4 c& s5 B9 E8 ^# |/ ]可是生活中绝大多数决策面临的信息都是不全的,我们手中只有有限的信息。既然无法得到全面的信息,我们就在信息有限的情况下,尽可能做出一个好的预测。也就是,在主观判断的基础上,你可以先估计一个值(先验概率),然后根据观察的新信息不断修正(可能性函数)。
  J7 Y+ K; n) @3 k/ e3 `- |如果用图形表示就是这样的:
; x% j, A0 D$ w& d/ \0 l! f2 b7 i! U0 c% w9 G  \
) f  i! l; j/ n! q
其实阿尔法狗也是这么战胜人类的,简单来说,阿尔法狗会在下每一步棋的时候,都可以计算自己赢棋的最大概率,就是说在每走一步之后,他都可以完全客观冷静的更新自己的概率值,完全不受其他环境影响。
2 W3 _! D; g! M: E" q3 {& f4 D: Y% w8 P& {
3.贝叶斯定理的应用案例
前面我们介绍了贝叶斯定理公式,及其背后的思想。现在我们来举个应用案例,你会更加熟悉这个牛瓣的工具。8 `" p( }, F6 A
为了后面的案例计算,我们需要先补充下面这个知识。( H' ]" u/ y, l5 t
1.全概率公式
5 q; r: [3 I4 B# S* q$ i% h2 t4 L这个公式的作用是计算贝叶斯定理中的P(B)。
% r1 _* ^  o; Q5 C' c! g5 l1 I假定样本空间S,由两个事件A与A'组成的和。例如下图中,红色部分是事件A,绿色部分是事件A',它们共同构成了样本空间S。
# j+ A# B6 s# d! @* V$ Y
( e" F2 ~7 b8 R( K" x$ I8 Z& a2 h1 Y9 M6 S! l
这时候来了个事件B,如下图:# q( C3 g2 p9 d: z' B
7 ^: X% C* K- c5 N9 G0 i- X- {
! I7 D) A) E. ~) ]5 |
全概率公式:
& \0 r$ G: U. B* y5 O! r  M8 a* U7 @2 b) Q
4 }+ m' ^+ ^" `$ b* _5 M
它的含义是,如果A和A'构成一个问题的全部(全部的样本空间),那么事件B的概率,就等于A和A'的概率分别乘以B对这两个事件的条件概率之和。
4 L& u6 C, K( Z3 k) O
& V; @' h; _& P& m: q5 G7 Q9 \看到这么复杂的公式,记不住没关系,因为我也记不住,下面用的时候翻到这里来看下就可以了。- i% M$ C2 q: x- M3 X
, i! O0 O, Y5 F+ I! b- X% {
案例1:贝叶斯定理在做判断上的应用- r2 g4 e- U. s5 r3 a2 ]
有两个一模一样的碗,1号碗里有30个巧克力和10个水果糖,2号碗里有20个巧克力和20个水果糖。
4 c( G! a- H- g  i/ F% ~- O5 z) S& U7 ~$ u: M2 p
- J3 [4 y! p9 S8 O0 c) U
然后把碗盖住。随机选择一个碗,从里面摸出一个巧克力。4 E4 h! Y5 T. h
问题:这颗巧克力来自1号碗的概率是多少?0 A, D3 G! ]' Z+ s

5 k4 }! E9 f. C& ^( x9 {好了,下面我就用套路来解决这个问题,到最后我会给出这个套路。
- {! X0 R' e: \3 B' ^# i  k/ u$ k9 t% m6 i, m& s& v" m' E1 Q0 c# v: V8 T
第1步,分解问题
# r1 @8 I7 k3 m1)要求解的问题:取出的巧克力,来自1号碗的概率是多少?
1 U1 ~- ^& H3 o% T8 P来自1号碗记为事件A1,来自2号碗记为事件A2
6 q1 |, v4 |6 _9 e7 Y$ N取出的是巧克力,记为事件B,
9 k" N8 l4 V. @" ?5 M9 S5 |那么要求的问题就是P(A1|B),也就是取出的是巧克力(B),来自1号碗(A1)的概率! e3 h6 _9 n2 Y
2)已知信息:) Z) b8 R" F5 p, r: r2 @; w. I, e
1号碗里有30个巧克力和10个水果糖
6 I, |4 {+ L# u; {4 y2号碗里有20个巧克力和20个水果糖' _4 x. P9 K+ ?' I3 @
取出的是巧克力% H% v* i* J; R5 A  I$ r
0 l7 d0 d  y0 }: k) k+ D. c
第2步,应用贝叶斯定理
8 ]) N' Z! F& \6 j) h7 V3 Z9 B; O+ N" \& h: n

, k/ P7 q, [# u4 w  }: F1 q3 ]8 R1)求先验概率6 I! E3 }' c, M9 `, I# v' _3 [, i
由于两个碗是一样的,所以在得到新信息(取出是巧克力之前),这两个碗被选中的概率相同,因此P(A1)=P(A2)=0.5,(其中A1表示来自1号碗,A2表示来自2号碗)1 L4 s# N+ Q: K' b
这个概率就是"先验概率",即没有做实验之前,来自一号碗、二号碗的概率都是0.5。1 |- G! T# v# A1 o' B0 f! j
# W, p  {) w9 j
2)求可能性函数
6 L0 j, p& q# Y7 y: r7 k3 DP(B|A1)/P(B)2 [( V2 G. s, X) z. V
其中,P(B|A1)表示从1号碗中(A1)取出是巧克力(B)的概率。
1 T% s( }% Z0 H因为1号碗里有30个巧克力和10个水果糖,所以P(B|A1)=巧克力数(30)/(糖果总数30+10)=75%
$ z6 V0 T6 y3 Y) q) L现在贝叶斯公式里只剩P(B)了,只有求出P(B)就可以得到答案。
( X# [: y5 F. B! u根据全概率公式,可以用下图求得P(B):
) R. A4 @& ^3 r  z; x  c$ ~* z! A5 O# ]7 ?8 U
( c3 w8 V3 N! |  S/ ~
图中P(B|A1)是1号碗中巧克力的概率,我们根据前面的已知条件,很容易求出。
8 Z6 n. V- R7 C1 A! J' {7 |同样的,P(B|A2)是2号碗中巧克力的概率,也很容易求出(图中已给出)。( d6 M; H# d  @+ ~9 Z# `. Y1 G  C% |
而P(A1)=P(A2)=0.5
% l' K) T% ~; I) b  G/ ^将这些数值带入公式中就是小学生也可以算出来的事情了。最后P(B)=62.5%  h# v' V- Z: \) @, U
( b& T3 `* ^- j5 M1 Y) P
所以,可能性函数P(B|A1)/P(B)=75%/62.5%=1.2。. t1 p/ L, U- H# J0 _7 ^
可能性函数>1.表示新信息B对事情A1的可能性增强了。
3 j2 M2 ?( v, G+ k" n0 `. E# m  f: d/ J% {+ o. `: }# T3 @
3)带入贝叶斯公式求后验概率
8 w8 {! m5 g  c) K, Y将上述计算结果,带入贝叶斯定理,即可算出P(A1|B)=60%
5 s6 S3 ]8 m- @8 F4 @
) D& ~) U4 q% O5 U9 D  y4 ^- Z1 O0 x$ H9 R+ F/ J0 w% n% }9 @
这个例子中我们需要关注的是约束条件:抓出的是巧克力。如果没有这个约束条件在,来自一号碗这件事的概率就是50%了,因为巧克力的分布不均把概率从50%提升到60%。) O* `* f' e6 w9 t" P

0 c( B" ^' `9 v' W" |现在,我总结下刚才的贝叶斯定理应用的套路,你就更清楚了,会发现像小学生做应用题一样简单:8 M5 E/ |- z3 Y9 T: P8 {0 ]8 e
第1步. 分解问题* q- R. v0 i% \0 ~
简单来说就像做应用题的感觉,先列出解决这个问题所需要的一些条件,然后记清楚哪些是已知的,哪些是未知的。# j! V; n* j- h+ p6 r: M9 x' y
1)要求解的问题是什么?
$ e: k# c7 d+ k2 n6 h: }识别出哪个是贝叶斯中的事件A(一般是想要知道的问题),哪个是事件B(一般是新的信息,或者实验结果)
1 n; {4 x7 \2 |% Z2)已知条件是什么?
9 q* l. C9 C& n, l# Z, n0 B; l2 t- C6 r" p+ k
第2步.应用贝叶斯定理
& v* {; `( j; E! D0 D% e) H( d" Q. ~8 k第3步,求贝叶斯公式中的2个指标& {* M; E: e( p5 B& p% k
1)求先验概率
# N" G3 S5 j7 [/ @2)求可能性函数2 E2 P9 r2 T, @
3)带入贝叶斯公式求后验概率1 H& j6 F7 [+ C; ?, |$ A
  z" R) W. q8 l. T0 S+ k- u
4 P1 b+ E; |; V$ R4 M

2 M2 J3 F8 k" v0 i案例2:贝叶斯定理在医疗行业的应用: T  r0 p" h$ @# L) ^
每一个医学检测,都存在假阳性率和假阴性率。假阳性,就是没病,但是检测结果显示有病。假阴性正好相反,有病但是检测结果正常。
  q' Q* k3 `# u+ i- B即使检测准确率是99%,如果医生完全依赖检测结果,也会误诊。也就是说假阳性的情况,根据检测结果显示有病,但是你实际并没有得病。. |2 `! k2 F0 ?2 U1 \9 S3 F- f
举个更具体的例子,因为艾滋病潜伏期很长,所以即便感染了也可能在很长的一段时间,身体没有任何感觉,所以艾滋病检测的假阳性会导致被测人非常大的心理压力。
* N  t' J0 X3 r3 J% u
4 [0 p3 b5 L; d, c* ]; \你可能会觉得,检测准确率都99%了,误测几乎可以忽略不计了吧?所以你觉得这人肯定没有患艾滋病了对不对?
6 [  L& W2 c0 ^$ s让我们用贝叶斯定理算一下,就会发现你的直觉是错误的。
0 |+ f3 E' ^* H6 V
! U' [# {7 l# e- R  x假设某种疾病的发病率是0.001,即1000人中会有1个人得病。现在有一种试剂可以检验患者是否得病,它的准确率是0.99,即在患者确实得病的情况下,它有99%的可能呈现阳性。它的误报率是5%,即在患者没有得病的情况下,它有5%的可能呈现阳性。
& r6 p. ?! n4 J" S6 b1 Z1 N* [现在有一个病人的检验结果为阳性,请问他确实得病的可能性有多大?
* R( a. }1 Q1 Q3 o7 q5 G0 h* u4 b. v- I) v# L: Y' W3 c
好了,我知道你面对这一大推信息又头大了,我也是。但是我们不是有贝叶斯模板套路嘛,下面开始。
# k' n2 q/ s! M- L7 \/ k: m2 d# J  |4 p, J
第1步,分解问题
; w* k3 s6 \# i! i: j5 o1)要求解的问题:病人的检验结果为阳性,他确实得病的概率有多大?
& y, b7 M# _- U+ I: t4 k病人的检验结果为阳性(新的信息)记为事件B,他得病记为事件A,
8 |" f4 Y; `/ E6 L* a+ M) G那么要求的问题就是P(A|B),也就是病人的检验结果为阳性(B),他确实得病的概率(A)* ?& }& w+ a+ I8 P, a9 ]
2)已知信息
2 f3 ]5 r% T6 m. R% d这种疾病的发病率是0.001,即P(A)=0.001. z/ I1 [) D6 c1 Q7 r
试剂可以检验患者是否得病,准确率是0.99,也就是在患者确实得病的情况下(A),它有99%的可能呈现阳性(B),所以P(B|A)=0.99
( Q1 `: Z  A6 x# T5 l% W9 ~试剂的误报率是5%,即在患者没有得病的情况下,它有5%的可能呈现阳性。得病我们记为事件A,那么没有得病就是事件A的反面,记为A',所以这句话就可以表示为P(B|A')=5%$ |3 M+ L9 G- N* S" s' k  H

# u: b) R4 |0 i1 f2 j2.应用贝叶斯定理
; o! y4 O! q8 E: a6 m* G; t: s/ _

8 |+ i9 i4 E4 F, V3 R1)求先验概率
4 w% H( F/ e0 H, A疾病的发病率是0.001,即P(A)=0.001
9 J& C6 `. v/ S8 B2 c, x8 t% ?# M2)求可能性函数
+ s/ f& Z+ p9 |) P9 O: ~+ N0 x/ `2 I0 JP(B|A)/P(B)
% W0 A& F: G: Q& q) _其中,P(B|A)表示在患者确实得病的情况下(A),试剂呈现阳性的概率,从前面的已知条件中我们已经知道P(B|A)=0.99
8 K# f% `6 E/ \7 b; K现在只有求出P(B)就可以得到答案。根据全概率公式,可以用下图求得P(B)=0.05094% N/ s/ w' X8 p8 \, t+ X4 v

+ i; @& g# T* S  i6 c' H! u6 g5 q( u8 n# X. [
所以可能性函数P(B|A)/P(B)=0.99/0.05094=19.4346- Y. f1 }" Q  P& N% A2 f) T
3)带入贝叶斯公式求后验概率/ H7 m& U. I* ~, W! k2 S* [
我们得到了一个惊人的结果,P(A|B)等于1.94%。
3 t+ f( t" T& h  Y+ \也就是说,筛查的准确率都到了99%了,通过体检结果有病(阳性)确实得病的概率也只有1.94%  G( N: ]" ^, G/ m. [4 n) d
" A0 v3 `5 p: |* |0 D' D

6 u2 G" h; r1 ?! i( a你可能会说,再也不相信那些吹的天花乱坠的技术了,说好了筛查准确率那么高,结果筛查的结果对于确诊疾病一点用都没有,这还要医学技术干什么?# U6 P6 H) h2 e" |5 [9 ~& |
没错,这就是贝叶斯分析告诉我们的。我们拿艾滋病来说,由于发艾滋病实在是小概率事件,所以当我们对一大群人做艾滋病筛查时,虽说准确率有99%,但仍然会有相当一部分人因为误测而被诊断为艾滋病,这一部分人在人群中的数目甚至比真正艾滋病患者的数目还要高。
0 g  W; X4 |2 X9 v  l( y' }  a1 Y7 I  \) {
你肯定要问了,那该怎样纠正测量带来这么高的误诊呢?, c2 S2 q" T" W
造成这么不靠谱的误诊的原因,是无差别地给一大群人做筛查,而不论测量准确率有多高,因为正常人的数目远大于实际的患者,所以误测造成的干扰就非常大了。5 t0 W6 E. x% R& ]* n) N! E8 R
1 I" U* Z3 x& s. e6 q' v& E* F
根据贝叶斯定理,我们知道提高先验概率,可以有效的提高后验概率。
8 K) T. |3 e- c( S! d. \所以解决的办法倒也很简单,就是先锁定可疑的人群,比如10000人中检查出现问题的那10个人,再独立重复检测一次。因为正常人连续两次体检都出现误测的概率极低,这时筛选出真正患者的准确率就很高了,这也是为什么许多疾病的检测,往往还要送交独立机构多次检查的原因。
, K$ i- U% N" D" X( C这也是为什么艾滋病检测第一次呈阳性的人,还需要做第二次检测,第二次依然是阳性的还需要送交国家实验室做第三次检测。
; z# M4 C5 P! j+ J在《医学的真相》这本书里举了个例子,假设检测艾滋病毒,对于每一个呈阳性的检测结果,只有50%的概率能证明这位患者确实感染了病毒。但是如果医生具备先验知识,先筛选出一些高风险的病人,然后再让这些病人进行艾滋病检查,检查的准确率就能提升到95%。
. r) M1 t3 M8 B3 \% J9 U5 V; I9 E& ?8 x7 R
案例4:贝叶斯垃圾邮件过滤器
: i4 c- N6 a$ k* `, o) f7 N垃圾邮件是一种令人头痛的问题,困扰着所有的互联网用户。全球垃圾邮件的高峰出现在2006年,那时候所有邮件中90%都是垃圾,2015年6月份全球垃圾邮件的比例数字首次降低到50%以下。
' \3 d* m2 P( ?. b* |2 F. z最初的垃圾邮件过滤是靠静态关键词加一些判断条件来过滤,效果不好,漏网之鱼多,冤枉的也不少。2 ]6 y2 ^- {" x. E2 L& W7 O( Y
2002年,Paul Graham提出使用"贝叶斯推断"过滤垃圾邮件。他说,这样做的效果,好得不可思议。1000封垃圾邮件可以过滤掉995封,且没有一个误判。
" |1 R& J6 b/ ~9 w( O+ ~+ a" A# K: D
% y+ G; V* I2 g* A因为典型的垃圾邮件词汇在垃圾邮件中会以更高的频率出现,所以在做贝叶斯公式计算时,肯定会被识别出来。之后用最高频的15个垃圾词汇做联合概率计算,联合概率的结果超过90%将说明它是垃圾邮件。
; R3 j- X: M, Q. t
- n5 G3 [; D* `用贝叶斯过滤器可以识别很多改写过的垃圾邮件,而且错判率非常低。甚至不要求对初始值有多么精确,精度会在随后计算中逐渐逼近真实情况。
' r. B" p; L8 u: ^/ L) s  J0 N(ps:如果留言想详细了解这个知识的很多,我后面会专门写文章来回答大家)- a8 ~6 |0 K% n2 {

: ]2 T. x6 y( E. a
4.生活中的贝叶斯思维
贝叶斯定理与人脑的工作机制很像,这也是为什么它能成为机器学习的基础。
0 Y, G/ @# ], L& e. B* W7 _* P如果你仔细观察小孩学习新东西的这个能力,会发现,很多东西根本就是看一遍就会。比如我3岁的外甥,看了我做俯卧撑的动作,也做了一次这个动作,虽然动作不标准,但也是有模有样。
8 B6 [6 r) o0 [  d同样的,我告诉他一个新单词,他一开始并不知道这个词是什么意思,但是他可以根据当时的情景,先来个猜测(先验概率/主观判断)。一有机会,他就会在不同的场合说出这个词,然后观察你的反应。如果我告诉他用对了,他就会进一步记住这个词的意思,如果我告诉他用错了,他就会进行相应调整。(可能性函数/调整因子)。经过这样反复的猜测、试探、调整主观判断,就是贝叶斯定理思维的过程。7 {$ e2 n9 D& x6 f) r% c1 A7 {, E

. P7 M, Q/ Q# s7 \8 r同样的,我们成人也在用贝叶斯思维来做出决策。比如,你和女神在聊天的时候,如果对方说出“虽然”两个字,你大概就会猜测,对方后面九成的可能性会说出“但是”。我们的大脑看起来就好像是天生在用贝叶斯定理,即根据生活的经历有了主观判断(先验概率),然后根据搜集新的信息来修正(可能性函),最后做出高概率的预测(后验概率)。- D" o. m. _5 f. s5 F

- q# O+ k! L( S' c4 n" n9 ]: e; s其实这个过程,就是下图的大脑决策过程:
( Q& U  K2 e: f: d5 a( Y( R2 S/ E  N, J4 I6 a

8 k$ C4 e6 F% @8 s. s+ z* n所以,在生活中涉及到预测的事情,用贝叶斯的思维可以提高预测的概率。你可以分3个步骤来预测:
* L8 J0 t9 |" T1.分解问题
4 z) F  ^1 a: ~2 k) z+ U! p简单来说就像小学生做应用题的感觉,先列出要解决的问题是什么?已知条件有哪些?
/ S$ q" z: H' U; u2. 给出主观判断
" ^% {1 I2 A$ C3 X9 C; z: D' j不是瞎猜,而是根据自己的经历和学识来给出一个主观判断。8 Q/ _$ e2 \1 G$ N$ t5 s/ p5 |- e
3.搜集新的信息,优化主观判断
' M/ Y' c7 E" `- o, F持续关于你要解决问题相关信息的最新动态,然后用获取到的新信息来不断调整第2步的主观判断。如果新信息符合这个主观判断,你就提高主观判断的可信度,如果不符合,你就降低主观判断的可信度。) T" S; ]" Z& |/ X+ `
  M0 p7 M# `9 U8 }6 V# k
比如我们刚开始看到“人工智能是否造成人类失业”这个信息,你有自己的理解(主观判断),但是当你学习了一些数据分析,或者看了些这方面的最新研究进展(新的信息),然后你根据掌握的最新信息优化了自己之前的理解(调整因子),最后重新理解了“人工智能”这个信息(后验概率)。这也就是胡适说的“大胆假设,小心求证”。
( p) e2 D& ?$ a. S5 v! A, }  K6 d& r/ k% I0 ?( u" j- F
概率的基础知识补充:: F1 {1 f- m% ?0 I2 k

8 L0 X: d" d! }! S2 w* W1 `参考资料:1 `9 E  ^) v& A& @/ B, Q
YouTube英文视频《Thomas Bayes: Probability for Success》
2 z3 x  o; z. e( Z1 u6 ^YouTube英文视频《Everything You Ever Wanted to Know About Bayes' Theorem But Were Afraid To Ask.》/ `, v( a1 p- [7 l! t
贝叶斯垃圾邮件过滤器:http://www.paulgraham.com/spam.html
/ D% o! z4 b* {# F/ J贝叶斯垃圾邮件过滤Wiki:https://en.wikipedia.org/wiki/Naive_Bayes_spam_filtering! [$ S  L; ~% z/ o8 C, a
贝叶斯推断及其互联网应用(一)! Z* w. ]) \$ N) `" Q; {' |
《联邦党人文集》背后的统计学幽灵
您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

213

金钱

0

收听

0

听众
性别

新手上路

金钱
213 元