贝叶斯定理厉害在哪里?

[复制链接]
查看8110 | 回复0 | 2021-11-1 11:58:39 | 显示全部楼层 |阅读模式
贝叶斯定理太有用了,不管是在投资领域,还是机器学习,或是日常生活中几乎都在用到它。$ }4 ~2 V) }4 H3 z1 ~2 q! S7 C
例如,生命科学家用贝叶斯定理研究基因是如何被控制的;教育学家意识到,学生的学习过程其实就是贝叶斯法则的运用;基金经理用贝叶斯法则找到投资策略;谷歌用贝叶斯定理改进搜索功能,帮助用户过滤垃圾邮件;无人驾驶汽车接收车顶传感器收集到的路况和交通数据,运用贝叶斯定理更新从地图上获得的信息;人工智能、机器翻译中大量用到贝叶斯定理..., R: v  r# P! b2 s7 t4 R. o3 x

- ^: G' R+ M2 Y, m2 u我将从以下4个角度来科普贝叶斯定理及其背后的思维:& p4 c" x1 J3 b. b6 z
1.贝叶斯定理有什么用?
: W8 ?1 v3 K' q2.什么是贝叶斯定理?
1 u. l/ k. m2 H3.贝叶斯定理的应用案例, u+ @' i4 B& r9 j7 ]- l# D
4.生活中的贝叶斯思维8 m6 H9 a0 r) J" z% ?

5 B9 q# j' R) o7 B- j2 o: X2 S/ i
1.贝叶斯定理有什么用?
英国数学家托马斯·贝叶斯(Thomas Bayes)在1763年发表的一篇论文中,首先提出了这个定理。而这篇论文是在他死后才由他的一位朋友发表出来的。. |5 K& e2 f: F4 K1 M7 G! I9 v
(ps:贝叶斯定理其实就是下面图片中的概率公式,这里先不讲这个公式,而是重点关注它的使用价值,因为只有理解了它的应用意义,你才会更有兴趣去学习它。)
" j7 U# D1 f! v1 Y1 U( p' J
- r: S, O; p3 T5 ^7 a: F5 g" E; n3 s! k% S9 X. {( N
在这篇论文中,他为了解决一个“逆概率”问题,而提出了贝叶斯定理。0 \) Q9 j7 G# W0 ]" E/ a0 o
在贝叶斯写这篇文章之前,人们已经能够计算“正向概率”。什么是正向概率呢?举个例子,杜蕾斯举办了一个抽奖,抽奖桶里有10个球,其中2个白球,8个黑球,抽到白球就算你中奖。你伸手进去随便摸出1颗球,摸出是中奖球的概率是多大。
7 j* l+ a0 `0 V6 V! @- C) A9 i* G4 [# M! x. w: i

. K$ }& F  M: e根据频率概率的计算公式,你可以轻松的知道中奖的概率=中奖球数(2个白球)/球总数(2个白球+8个黑球)=2/10
0 O, m7 i. R. h) b  U: }0 A1 t如果还不懂怎么算出来的,可以看我之前写的科普概率的回答:猴子:如何理解条件概率?
) B# v  U% O  e: w' U7 l- w1 O; m( O4 G& n% x, ~
而贝叶斯在他的文章中是为了解决一个“逆概率”的问题。比如上面的例子我们并不知道抽奖桶里有什么,而是摸出一个球,通过观察这个球的颜色,来预测这个桶里里白色球和黑色球的比例。
) b/ n2 F  U- Q/ N2 `
. k, f- l' l: j& q. n+ J+ M( Q: e. }% Q4 V$ G# B
这个预测其实就可以用贝叶斯定理来做。贝叶斯当时的论文只是对“逆概率”这个问题的求解尝试,这哥们当时并不清楚这里面这里面包含着的深刻思想。
8 o/ |* P# k+ ^7 t  }
2 M7 W* i: d/ E2 L2 K% D) M然而后来,贝叶斯定理席卷了概率论,并将应用延伸到各个领域。可以说,所有需要作出概率预测的地方都可以见到贝叶斯定理的影子,特别地,贝叶斯是机器学习的核心方法之一。
$ K: a0 H. j- r" i7 y! I8 l/ p) g2 p, j  T; m3 {; i8 \
为什么贝叶斯定理在现实生活中这么有用呢?
' x- x# z) k7 E9 r. m; ^这是因为现实生活中的问题,大部分都是像上面的“逆概率”问题。因为生活中绝大多数决策面临的信息都是不全的,我们手中只有有限的信息。既然无法得到全面的信息,我们就只能在信息有限的情况下,尽可能做出一个好的预测。
3 o3 P5 L2 n/ s  G& |比如天气预报说,明天降雨的概率是30%,这是什么意思呢?8 s' X# I0 h5 T
我们无法像计算频率概率那样,重复地把明天过上100次,然后计算出大约有30次会下雨(下雨的天数/总天数)
. U7 h0 w1 \8 i而是只能利用有限的信息(过去天气的测量数据),用贝叶斯定理来预测出明天下雨的概率是多少。
' X% l: J2 b3 n- i
8 H( L; Q; t  k% X1 x同样的,在现实世界中,我们每个人都需要预测。想要深入分析未来、思考是否买股票、政策给自己带来哪些机遇、提出新产品构想,或者只是计划一周的饭菜。
5 N* S1 `6 P+ M8 c& h; I8 z9 V4 K+ _, F! [. a6 ~, J
贝叶斯定理就是为了解决这些问题而诞生的,它可以根据过去的数据来预测出未来事情发生概率。
7 y$ }7 m8 ^! y7 P% m/ _1 @2 Q5 @- S% ^! l
贝叶斯定理的思考方式为我们提供了有效的方法来帮助我们做决策,以便更好地预测未来的商业、金融、以及日常生活。, i5 O) w3 _# _6 g5 C0 x
- R9 \3 w) I. O+ ?1 E
总结下第1部分:贝叶斯定理有什么用?0 \5 c5 t, X  K' X6 E! ?
在有限的信息下,能够帮助我们预测出概率。
" H; f" j! P: N; k- J" u1 h所有需要作出概率预测的地方都可以见到贝叶斯定理的影子,特别地,贝叶斯是机器学习的核心方法之一。例如垃圾邮件过滤,中文分词,艾滋病检查,肝癌检查等。/ z; c  B. R/ O7 U! w2 l) z

, J: U( F  J% [+ s2 S6 X
2.什么是贝叶斯定理?
贝叶斯定理长这样:5 ~1 R) B% |) c8 g" G) e" l) ~

3 {, F3 D% b) o+ P8 D9 q8 r. o( z/ R
* A8 R! J) h: }6 K* y1 [* V到这来,你可能会说:猴子,说人话,我一看到公式就头大啊。4 _; J" ^; @' r8 h* ^2 X4 y
其实,我和你一样,不喜欢公式。我们还是从一个例子开始聊起。
" \- @+ O# |' B$ `; N) J/ i( M3 W' _6 Q. e) A5 H  Z$ h
我的朋友小鹿说,他的女神每次看到他的时候都冲他笑,他现在想知道女神是不是喜欢他呢?# D6 W7 W+ ~! ~: G
谁让我学过统计概率知识呢,下面我们一起用贝叶斯帮小鹿预测下女神喜欢他的概率有多大,这样小鹿就可以根据概率的大小来决定是否要表白女神。
8 D1 ~& C8 }7 J5 f3 G首先,我分析了给定的已知信息和未知信息:
; l" ?' E) S7 Q0 `1)要求解的问题:女神喜欢你,记为A事件
& ?0 g5 O1 y& n' c% M2)已知条件:女神经常冲你笑,记为B事件
, L0 n$ N( J! s5 r7 u- e
! }, w9 x4 e$ M所以,P(A|B)表示女神经常冲你笑这个事件(B)发生后,女神喜欢你(A)的概率。
/ n5 Q+ {- C1 x7 S% d' C2 m0 Z8 S5 A: B4 U; S) o
9 z! P* P3 V% ^, g2 f
从公式来看,我们需要知道这么3个事情:: A+ r& D3 S4 K6 Y
1)先验概率
( n6 j4 e( W) j我们把P(A)称为"先验概率"(Prior probability),也就是在不知道B事件的前提下,我们对A事件概率的一个主观判断。3 n1 {% Z: P. \* Q) X
对应这个例子里就是在不知道女神经常对你笑的前提下,来主观判断出女神喜欢一个人的概率。这里我们假设是50%,也就是不喜欢你,可能不喜欢你的概率都是一半。. ]4 I2 ~' g  R2 o, b
' b8 p( y2 K$ h9 j: Z. E
2)可能性函数' I* n- o" f! U
P(B|A)/P(B)称为"可能性函数"(Likelyhood),这是一个调整因子,也就是新信息B带来的调整,作用是将先验概率(之前的主观判断)调整到更接近真实概率。" |; M2 m! ^% \, Y# i! w6 b2 ^# H

1 _; ^0 d* _) {7 L# j6 V! o可能性函数你可以理解为新信息过来后,对先验概率的一个调整。比如我们刚开始看到“人工智能”这个信息,你有自己的理解(先验概率-主观判断),但是当你学习了一些数据分析,或者看了些这方面的书后(新的信息),然后你根据掌握的最新信息优化了自己之前的理解(可能性函数-调整因子),最后重新理解了“人工智能”这个信息(后验概率)
# w$ s, e/ v% D# i% u* v- ~; a, m. `+ ~( j: a3 v. l
如果"可能性函数"P(B|A)/P(B)>1,意味着"先验概率"被增强,事件A的发生的可能性变大;
$ N# U# X  H6 a如果"可能性函数"=1,意味着B事件无助于判断事件A的可能性;
' B3 l' Q0 A$ ?% i# a7 O如果"可能性函数"<1,意味着"先验概率"被削弱,事件A的可能性变小。
! K  o# P3 j1 |$ K- o6 X- P# [' Z: E
7 x7 L& \4 v- ^还是刚才的例子,根据女神经常冲你笑这个新的信息,我调查走访了女神的闺蜜,最后发现女神平日比较高冷,很少对人笑,也就是对你有好感的可能性比较大(可能性函数>1)。所以我估计出"可能性函数"P(B|A)/P(B)=1.5(具体如何估计,省去1万字,后面会有更详细科学的例子)# _1 b5 X- W2 {  I& [# p
4 W. u  ~5 g7 o4 J# A% O4 K; i5 R
3)后验概率( n; y7 m8 H: e  s" M, [1 o
P(A|B)称为"后验概率"(Posterior probability),即在B事件发生之后,我们对A事件概率的重新评估。这个例子里就是在女神冲你笑后,对女神喜欢你的概率重新预测。
. R  j# x+ h$ w3 t6 b  f: f带入贝叶斯公式计算出P(A|B)=P(A)* P(B|A)/P(B)=50% *1.5=75%
6 M$ B; B+ Y8 V8 e; b- W+ ~- h. O4 s* z
因此,女神经常冲你笑,喜欢上你的概率是75%。这说明,女神经常冲你笑这个新信息的推断能力很强,将50%的"先验概率"一下子提高到了75%的"后验概率"。
+ f# b; G0 O# @
& f# ?8 }8 J6 I# b  S, f9 E0 v
% {' r  ^6 `% L9 g在得到概率值后,小鹿自信满满的发了下面的表白微博:
: {3 g1 u/ C# ^( h! M
1 u8 Q4 k- \( ?1 g' ]0 c- h& V8 m7 t2 v5 C, L/ q8 w
稍后,果然收到了女神的回复。预测成功。
* ?; o3 Z+ u% \9 \+ O5 Q1 A0 r5 M( I( O0 g' }

0 g, V) ?: w; J# m; @" D& _现在我们再看一遍贝叶斯公式,你现在就能明白这个公式背后的关键思想了:2 `/ u; n4 C" s' q( s8 P0 a# j
我们先根据以往的经验预估一个"先验概率"P(A),然后加入新的信息(实验结果B),这样有了新的信息后,我们对事件A的预测就更加准确。
$ m# D8 d& V+ x
8 Q3 h# m$ e2 O4 i4 E! o1 S
. |7 @" E" A. L& O因此,贝叶斯定理可以理解成下面的式子:; |# R3 ~/ K" t- e5 T! ]: W  N9 y
后验概率(新信息出现后的A概率) = 先验概率(A概率) x 可能性函数(新信息带来的调整)
2 Y) O3 V3 p. s& G% W3 J- B, a贝叶斯的底层思想就是:( {: B  o8 H2 m& A
如果我能掌握一个事情的全部信息,我当然能计算出一个客观概率(古典概率)。0 d- y, J8 Y0 @; K
可是生活中绝大多数决策面临的信息都是不全的,我们手中只有有限的信息。既然无法得到全面的信息,我们就在信息有限的情况下,尽可能做出一个好的预测。也就是,在主观判断的基础上,你可以先估计一个值(先验概率),然后根据观察的新信息不断修正(可能性函数)。
6 K6 s" l$ k4 Y' F如果用图形表示就是这样的:
; t5 G+ Y$ r, `( h$ ]# v3 J
6 Y! u% ]/ F/ |' @6 [, M
% E7 v# r) b0 h  m" c8 H* r1 T其实阿尔法狗也是这么战胜人类的,简单来说,阿尔法狗会在下每一步棋的时候,都可以计算自己赢棋的最大概率,就是说在每走一步之后,他都可以完全客观冷静的更新自己的概率值,完全不受其他环境影响。
- T3 V5 t( X9 \& t7 Q+ o, B8 p+ u& z# M, A& l
3.贝叶斯定理的应用案例
前面我们介绍了贝叶斯定理公式,及其背后的思想。现在我们来举个应用案例,你会更加熟悉这个牛瓣的工具。
! I0 _) Z) E: C% R7 ~* s: z9 l' I为了后面的案例计算,我们需要先补充下面这个知识。
1 V5 e! b% s+ U+ S/ }/ }" v1.全概率公式8 n& k$ m+ O5 n) w% ~+ E) J
这个公式的作用是计算贝叶斯定理中的P(B)。
9 i% w, N3 B, H5 L假定样本空间S,由两个事件A与A'组成的和。例如下图中,红色部分是事件A,绿色部分是事件A',它们共同构成了样本空间S。
( Z1 ?, S9 a" f9 C' _% Q
2 V2 U9 y+ y$ I! G: ?# @7 f' N1 \  Y$ f* S! T- C
这时候来了个事件B,如下图:: I2 Y! U* Q1 {. a) M0 q* B

: F2 @! D3 Z# c3 X  S( X& C) u1 H6 w0 U9 {+ W
全概率公式:
; R" X6 S, q9 f. P5 z, \9 Y0 S/ Y; y$ N% I6 d" l% ]* P5 u9 d

* n+ c% o- z. @; n它的含义是,如果A和A'构成一个问题的全部(全部的样本空间),那么事件B的概率,就等于A和A'的概率分别乘以B对这两个事件的条件概率之和。7 x% y6 I1 L* K9 Y6 Z

, `, m5 l+ H( U看到这么复杂的公式,记不住没关系,因为我也记不住,下面用的时候翻到这里来看下就可以了。
  P/ B  }! u" f8 r) a! @2 {) u& V- s% l. i  |- c
案例1:贝叶斯定理在做判断上的应用$ D4 q; b4 n0 ]8 k& f3 |0 c1 o
有两个一模一样的碗,1号碗里有30个巧克力和10个水果糖,2号碗里有20个巧克力和20个水果糖。
- Z. V% |2 ?' A9 f
* k* T; U1 y$ {9 a' @
( V0 d+ E: @1 ~; r+ O/ m. {然后把碗盖住。随机选择一个碗,从里面摸出一个巧克力。
% P2 j8 K" E! N0 |$ {9 _问题:这颗巧克力来自1号碗的概率是多少?
1 i3 @" U6 A) E5 b7 p4 ^+ R; ~6 g! e! b! o# S
好了,下面我就用套路来解决这个问题,到最后我会给出这个套路。7 y! I' K( v) w  v
6 }- Z% K% \* r& O# {
第1步,分解问题* a1 d' h: a/ `* ~3 {
1)要求解的问题:取出的巧克力,来自1号碗的概率是多少?$ k/ f/ A* J! Z; w
来自1号碗记为事件A1,来自2号碗记为事件A2
/ d8 g/ [  b3 J1 q' D- S- q取出的是巧克力,记为事件B,
2 a; C- K% V: A$ J8 i; ?* h那么要求的问题就是P(A1|B),也就是取出的是巧克力(B),来自1号碗(A1)的概率
  |+ E. Z- k, p  x5 U8 {; T2)已知信息:& f1 `# O/ h* J8 O% U
1号碗里有30个巧克力和10个水果糖- S9 `8 f0 f; Q/ g& e( M, f. f- A
2号碗里有20个巧克力和20个水果糖2 E9 d/ B( B  Z7 I: \; M
取出的是巧克力, d& z0 }4 c+ G

" a& W5 m+ \- B7 ~# |第2步,应用贝叶斯定理
$ L2 M$ r& ?$ E" n' t% n  \$ Q) `# n, P. P5 q
  C$ b/ D. O( X" G
1)求先验概率
6 T/ g$ B' `3 L/ w由于两个碗是一样的,所以在得到新信息(取出是巧克力之前),这两个碗被选中的概率相同,因此P(A1)=P(A2)=0.5,(其中A1表示来自1号碗,A2表示来自2号碗)8 I1 w6 ?7 g6 n" r4 ?, f
这个概率就是"先验概率",即没有做实验之前,来自一号碗、二号碗的概率都是0.5。
4 Z5 W% ^* ^( {8 A+ c
- {. g9 W+ U2 h, |% x2)求可能性函数. F4 i( u5 |7 \9 b  V3 m& Y
P(B|A1)/P(B)
0 c0 C, {% x' f: d1 `" E其中,P(B|A1)表示从1号碗中(A1)取出是巧克力(B)的概率。! G' F8 E% \: w" R7 u% y! J% t. E2 d3 u
因为1号碗里有30个巧克力和10个水果糖,所以P(B|A1)=巧克力数(30)/(糖果总数30+10)=75%
2 J; Q# G+ B* j; W# B2 r  s4 b% L现在贝叶斯公式里只剩P(B)了,只有求出P(B)就可以得到答案。3 H7 ]1 N5 g; b& w2 O1 |4 A5 P
根据全概率公式,可以用下图求得P(B):8 E: k& |. l; ~% r( G8 V

9 J; D7 s0 Y; z% X4 ?1 N  `! {- Q" q. F$ J& ^- B0 f
图中P(B|A1)是1号碗中巧克力的概率,我们根据前面的已知条件,很容易求出。  [9 B3 Z1 q6 W( x' s
同样的,P(B|A2)是2号碗中巧克力的概率,也很容易求出(图中已给出)。; J5 z+ t2 V  |1 q( L
而P(A1)=P(A2)=0.5
3 T! j* G% }* i: R+ k将这些数值带入公式中就是小学生也可以算出来的事情了。最后P(B)=62.5%
' k: }% ^) \5 K: b+ d3 L" o1 A& r, @! O1 {; G9 |
所以,可能性函数P(B|A1)/P(B)=75%/62.5%=1.2。' g- q- @/ B( e% }! ^5 b- l- Y
可能性函数>1.表示新信息B对事情A1的可能性增强了。
5 @  X& l" h" |  m0 r) d
7 t- A: K' ~2 F3)带入贝叶斯公式求后验概率
! m, _7 d( ]. J8 a" N将上述计算结果,带入贝叶斯定理,即可算出P(A1|B)=60%
) m2 x% V1 F* g7 Y! i% f3 S9 D; d0 @+ B4 V, x6 \) s5 m

. S/ `; p( B: e( \- n9 z0 V2 V这个例子中我们需要关注的是约束条件:抓出的是巧克力。如果没有这个约束条件在,来自一号碗这件事的概率就是50%了,因为巧克力的分布不均把概率从50%提升到60%。
) V2 b) j' ~% x
% \5 D2 N4 H6 i8 Y现在,我总结下刚才的贝叶斯定理应用的套路,你就更清楚了,会发现像小学生做应用题一样简单:5 e2 p8 J0 [  w- U4 S
第1步. 分解问题
: t: {" T. |- X* I0 H+ ~简单来说就像做应用题的感觉,先列出解决这个问题所需要的一些条件,然后记清楚哪些是已知的,哪些是未知的。) P8 y9 Q: |6 b2 Y) Z
1)要求解的问题是什么?" q( h, X3 V6 p) S# k
识别出哪个是贝叶斯中的事件A(一般是想要知道的问题),哪个是事件B(一般是新的信息,或者实验结果)8 k3 m9 o1 A, |
2)已知条件是什么?
, }$ H) B! P% g+ f' f. [$ I, I9 ]' s0 ?& h
第2步.应用贝叶斯定理0 V) u7 V! t8 F6 ?6 m9 ^! _9 G
第3步,求贝叶斯公式中的2个指标6 l9 ]$ N7 v- k
1)求先验概率* W+ _! N8 J: n
2)求可能性函数9 r* M0 ^) B" I' b: W
3)带入贝叶斯公式求后验概率- o3 B/ I! [6 ~  Y( ?; p

# ]; y. J, U/ t' p1 y. [+ F+ q4 z* F

6 C/ r: c, ^6 Q案例2:贝叶斯定理在医疗行业的应用* m" @9 j+ D# Q' K
每一个医学检测,都存在假阳性率和假阴性率。假阳性,就是没病,但是检测结果显示有病。假阴性正好相反,有病但是检测结果正常。
+ W3 s: `, q2 o5 Z8 [' }: E( ^即使检测准确率是99%,如果医生完全依赖检测结果,也会误诊。也就是说假阳性的情况,根据检测结果显示有病,但是你实际并没有得病。4 ]- H7 }$ |% L: A. R6 ^: U: N
举个更具体的例子,因为艾滋病潜伏期很长,所以即便感染了也可能在很长的一段时间,身体没有任何感觉,所以艾滋病检测的假阳性会导致被测人非常大的心理压力。) K. C0 N  d* W2 {+ O* s4 \8 K) N

5 @: C2 n- j0 \1 Q' j- V( Z4 l4 M1 G* g你可能会觉得,检测准确率都99%了,误测几乎可以忽略不计了吧?所以你觉得这人肯定没有患艾滋病了对不对?' y8 v2 S" E; L8 Z/ ~
让我们用贝叶斯定理算一下,就会发现你的直觉是错误的。: p& I6 K; Z5 L4 ?1 d$ p

" |* C, l8 f' m' v假设某种疾病的发病率是0.001,即1000人中会有1个人得病。现在有一种试剂可以检验患者是否得病,它的准确率是0.99,即在患者确实得病的情况下,它有99%的可能呈现阳性。它的误报率是5%,即在患者没有得病的情况下,它有5%的可能呈现阳性。6 }$ H" K3 ]) N) z# k, _( d
现在有一个病人的检验结果为阳性,请问他确实得病的可能性有多大?
9 M$ k( W; Q3 D& n' t2 p. j5 O4 z0 i* x  y+ D1 n/ u
好了,我知道你面对这一大推信息又头大了,我也是。但是我们不是有贝叶斯模板套路嘛,下面开始。& c2 A6 i$ U8 |2 B5 z7 ]; I; v

5 T% m2 E. o: `' a' ?第1步,分解问题
9 B7 D9 u- G5 H1)要求解的问题:病人的检验结果为阳性,他确实得病的概率有多大?2 G/ g0 [: Y/ e' A
病人的检验结果为阳性(新的信息)记为事件B,他得病记为事件A,9 u* ]3 V; b. e. r# h  d
那么要求的问题就是P(A|B),也就是病人的检验结果为阳性(B),他确实得病的概率(A)" d* A4 M' L# e+ Z
2)已知信息6 }; a+ h! [" u, M3 n/ o, m6 t" t
这种疾病的发病率是0.001,即P(A)=0.001
  m3 G3 Z9 r6 J# u1 [5 S3 L6 r试剂可以检验患者是否得病,准确率是0.99,也就是在患者确实得病的情况下(A),它有99%的可能呈现阳性(B),所以P(B|A)=0.99
) t& l1 L$ \; w& D& `0 `0 [" g, C试剂的误报率是5%,即在患者没有得病的情况下,它有5%的可能呈现阳性。得病我们记为事件A,那么没有得病就是事件A的反面,记为A',所以这句话就可以表示为P(B|A')=5%
7 c0 F$ d% D8 {: e. e6 i: G" m) @, K1 O, s' {3 K
2.应用贝叶斯定理
' v9 M. ]$ |3 t0 n& R+ O
# I0 P3 a) I: |" P. H. X3 j+ u( P
1)求先验概率
3 U% ?( [3 l1 C+ u疾病的发病率是0.001,即P(A)=0.001
* |! o% `2 b& m8 _/ u2 K( {2)求可能性函数7 I1 y( @+ g  P3 Q+ C( z  I
P(B|A)/P(B)
# x  W5 N3 c3 |) G6 }其中,P(B|A)表示在患者确实得病的情况下(A),试剂呈现阳性的概率,从前面的已知条件中我们已经知道P(B|A)=0.99& N& c. P7 X$ p' {6 Y6 ^
现在只有求出P(B)就可以得到答案。根据全概率公式,可以用下图求得P(B)=0.050942 I1 x5 |5 T! Q4 g( j* z

- n& J  `6 d% L" u! _
1 I  \% N: G5 [% \8 \$ x所以可能性函数P(B|A)/P(B)=0.99/0.05094=19.4346
* w  R' f4 Y! W* f5 J3)带入贝叶斯公式求后验概率
0 x% {6 ]' g; l8 ^2 [我们得到了一个惊人的结果,P(A|B)等于1.94%。0 `! S$ k# S, j$ L9 P
也就是说,筛查的准确率都到了99%了,通过体检结果有病(阳性)确实得病的概率也只有1.94%7 O" M9 y4 ~- K7 B$ Z% t

+ y& ~% ~5 U7 J  H; u' X4 w/ o% D- ~: E' B8 D- z3 h4 u
你可能会说,再也不相信那些吹的天花乱坠的技术了,说好了筛查准确率那么高,结果筛查的结果对于确诊疾病一点用都没有,这还要医学技术干什么?
5 ]# C+ @; a2 R4 a) O2 F/ Z% q没错,这就是贝叶斯分析告诉我们的。我们拿艾滋病来说,由于发艾滋病实在是小概率事件,所以当我们对一大群人做艾滋病筛查时,虽说准确率有99%,但仍然会有相当一部分人因为误测而被诊断为艾滋病,这一部分人在人群中的数目甚至比真正艾滋病患者的数目还要高。
* y- h1 y) T" ~5 Y: L9 m; v# j/ z' D: I9 I  c3 s" E
你肯定要问了,那该怎样纠正测量带来这么高的误诊呢?) E% z" w9 d1 G- T+ L
造成这么不靠谱的误诊的原因,是无差别地给一大群人做筛查,而不论测量准确率有多高,因为正常人的数目远大于实际的患者,所以误测造成的干扰就非常大了。
2 o! ?: l3 N& ^
4 g; M+ O; L+ V/ X根据贝叶斯定理,我们知道提高先验概率,可以有效的提高后验概率。
& ]# h8 K; b% F0 ~) w: u; _所以解决的办法倒也很简单,就是先锁定可疑的人群,比如10000人中检查出现问题的那10个人,再独立重复检测一次。因为正常人连续两次体检都出现误测的概率极低,这时筛选出真正患者的准确率就很高了,这也是为什么许多疾病的检测,往往还要送交独立机构多次检查的原因。. H7 C* d  E5 `# k1 X
这也是为什么艾滋病检测第一次呈阳性的人,还需要做第二次检测,第二次依然是阳性的还需要送交国家实验室做第三次检测。) H! I" b' F) Q) y  u( ?
在《医学的真相》这本书里举了个例子,假设检测艾滋病毒,对于每一个呈阳性的检测结果,只有50%的概率能证明这位患者确实感染了病毒。但是如果医生具备先验知识,先筛选出一些高风险的病人,然后再让这些病人进行艾滋病检查,检查的准确率就能提升到95%。2 T2 V" s4 ]( t8 R7 O
/ y+ ^5 n9 W, B. o
案例4:贝叶斯垃圾邮件过滤器
! Y8 v* _( o$ \/ j8 H垃圾邮件是一种令人头痛的问题,困扰着所有的互联网用户。全球垃圾邮件的高峰出现在2006年,那时候所有邮件中90%都是垃圾,2015年6月份全球垃圾邮件的比例数字首次降低到50%以下。
- F) i8 D+ Z5 g% L9 S' V, T最初的垃圾邮件过滤是靠静态关键词加一些判断条件来过滤,效果不好,漏网之鱼多,冤枉的也不少。
' k) }- i6 C( C9 H9 E7 H2002年,Paul Graham提出使用"贝叶斯推断"过滤垃圾邮件。他说,这样做的效果,好得不可思议。1000封垃圾邮件可以过滤掉995封,且没有一个误判。
) B) v7 O( g3 ~) j4 ]. R
8 z+ z' h$ e' }) Q4 ?, G5 o因为典型的垃圾邮件词汇在垃圾邮件中会以更高的频率出现,所以在做贝叶斯公式计算时,肯定会被识别出来。之后用最高频的15个垃圾词汇做联合概率计算,联合概率的结果超过90%将说明它是垃圾邮件。
8 U/ x2 Q6 }9 L/ K
/ v+ j5 ^" a" F7 _+ _" T用贝叶斯过滤器可以识别很多改写过的垃圾邮件,而且错判率非常低。甚至不要求对初始值有多么精确,精度会在随后计算中逐渐逼近真实情况。
1 N. ]! G& ^8 o(ps:如果留言想详细了解这个知识的很多,我后面会专门写文章来回答大家)) b* Q- O7 M( U: C/ U

" r6 h* N' o/ q" L6 U5 E
4.生活中的贝叶斯思维
贝叶斯定理与人脑的工作机制很像,这也是为什么它能成为机器学习的基础。+ R5 s7 Q( U) A& D* f
如果你仔细观察小孩学习新东西的这个能力,会发现,很多东西根本就是看一遍就会。比如我3岁的外甥,看了我做俯卧撑的动作,也做了一次这个动作,虽然动作不标准,但也是有模有样。
* A* {  s+ @& D# S( C同样的,我告诉他一个新单词,他一开始并不知道这个词是什么意思,但是他可以根据当时的情景,先来个猜测(先验概率/主观判断)。一有机会,他就会在不同的场合说出这个词,然后观察你的反应。如果我告诉他用对了,他就会进一步记住这个词的意思,如果我告诉他用错了,他就会进行相应调整。(可能性函数/调整因子)。经过这样反复的猜测、试探、调整主观判断,就是贝叶斯定理思维的过程。/ r" J  a+ x$ J  C1 ^0 o( ^7 E
; ^, J  }3 `% a
同样的,我们成人也在用贝叶斯思维来做出决策。比如,你和女神在聊天的时候,如果对方说出“虽然”两个字,你大概就会猜测,对方后面九成的可能性会说出“但是”。我们的大脑看起来就好像是天生在用贝叶斯定理,即根据生活的经历有了主观判断(先验概率),然后根据搜集新的信息来修正(可能性函),最后做出高概率的预测(后验概率)。
  m7 H1 |4 M; [& _; B; A$ F! h* ]7 U7 J& h6 v$ u5 _; X5 ^
其实这个过程,就是下图的大脑决策过程:9 v; w& x. t+ l

) w( j$ }2 ]1 C( E" t" w# e) J& K) @& z1 p+ i: z
所以,在生活中涉及到预测的事情,用贝叶斯的思维可以提高预测的概率。你可以分3个步骤来预测:
& v$ i+ y9 q* X( N9 `+ e; y( o  p+ }1.分解问题5 U+ Q+ y+ R4 U4 P+ ^* V) w
简单来说就像小学生做应用题的感觉,先列出要解决的问题是什么?已知条件有哪些?3 S( v& |% Z. }; r5 J. _% G( R
2. 给出主观判断+ o# k6 C8 S2 r0 J0 I! a5 _) `# ]$ i
不是瞎猜,而是根据自己的经历和学识来给出一个主观判断。, `! U, A; D4 {* A/ r
3.搜集新的信息,优化主观判断
% n4 ^9 S' k: C持续关于你要解决问题相关信息的最新动态,然后用获取到的新信息来不断调整第2步的主观判断。如果新信息符合这个主观判断,你就提高主观判断的可信度,如果不符合,你就降低主观判断的可信度。
$ U0 p0 Q' {' g$ r0 e0 O
7 Q' n4 F2 U# g+ \比如我们刚开始看到“人工智能是否造成人类失业”这个信息,你有自己的理解(主观判断),但是当你学习了一些数据分析,或者看了些这方面的最新研究进展(新的信息),然后你根据掌握的最新信息优化了自己之前的理解(调整因子),最后重新理解了“人工智能”这个信息(后验概率)。这也就是胡适说的“大胆假设,小心求证”。
- o% v# b0 ?$ L6 i, z! V2 ]* r0 W# h& d
概率的基础知识补充:
% }2 o) i1 C1 T. p9 w/ N: g! D, b9 K' k7 y& i0 a, g4 N- W, E
参考资料:
' _/ d6 j, i. c' gYouTube英文视频《Thomas Bayes: Probability for Success》6 k  A7 O# T0 |& N0 B
YouTube英文视频《Everything You Ever Wanted to Know About Bayes' Theorem But Were Afraid To Ask.》
: W* [/ l4 ?- Z" k6 l8 \2 f5 t贝叶斯垃圾邮件过滤器:http://www.paulgraham.com/spam.html9 L' n$ T" t# K+ I1 g7 a7 W! f: S8 t
贝叶斯垃圾邮件过滤Wiki:https://en.wikipedia.org/wiki/Naive_Bayes_spam_filtering9 w4 O3 ~% q& F/ s! |# c9 n7 \0 r
贝叶斯推断及其互联网应用(一)( v3 x, t5 ]8 f) i" L& w
《联邦党人文集》背后的统计学幽灵
您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

213

金钱

0

收听

0

听众
性别

新手上路

金钱
213 元