本文从决策者效用最大化,利用 Gumbel 分布的假设,推出各选项的 logit 概率,并分析了其隐含的 IIA 问题。
效用最大化与 Logit
链接到标题
一个决策者 n n n 面临 J J J 个选项,其选择 j j j 选项的效用可以分解为两个部分:
U n j = V n j + ε n j
U_{nj} = V_{nj} + \varepsilon_{nj}
U nj = V nj + ε nj
其中 V n j V_{nj} V nj 是研究者可以观测到因素决定的部分,ε n j \varepsilon_{nj} ε nj 是不可观测到的部分,一般当作随机变化。
决策者选择效用最高的选项,那么决策者 n n n 选择选项 i i i 的概率可以表示为
P n i = P r o b ( V n i + ε n i > V n j + ε n j ∀ j ≠ i ) = P r o b ( ε n j < ε n i + V n i − V n j ∀ j ≠ i ) .
\begin{align*}
P_{ni} & = Prob(V_{ni} + \varepsilon_{ni} > V_{nj} +
\varepsilon_{nj} \quad \forall j \neq i) \newline
& = Prob(\varepsilon_{nj} < \varepsilon_{ni} + V_{ni} - V_{nj} \quad \forall j \neq i).
\end{align*}
P ni = P ro b ( V ni + ε ni > V nj + ε nj ∀ j = i ) = P ro b ( ε nj < ε ni + V ni − V nj ∀ j = i ) .
当每个 ε n j \varepsilon_{nj} ε nj 服从 IID 的 Gumbel 分布 (Type I extreme value) 时,我们可以其用累积分布函数表示上式,即
P n i ∣ ε n i = ∏ j ≠ i e − e − ( ε n i + V n i − V n j ) .
P_{ni} \mid \varepsilon_{ni} = \prod_{j \neq i} e^{-e^{-(\varepsilon_{ni} + V_{ni} - V_{nj})}}.
P ni ∣ ε ni = j = i ∏ e − e − ( ε ni + V ni − V nj ) .
其无条件形式为
P n i = ∫ ( ∏ j ≠ i e − e − ( ε n i + V n i − V n j ) ) e − ε n i e − e − ε n i d ε n i .
P_{ni} = \int \left( \prod_{j \neq i} e^{-e^{-(\varepsilon_{ni} + V_{ni} - V_{nj})}} \right) e^{-\varepsilon_{ni}} e^{-e^{-\varepsilon_{ni}}} d \varepsilon_{ni}.
P ni = ∫ j = i ∏ e − e − ( ε ni + V ni − V nj ) e − ε ni e − e − ε ni d ε ni .
经过一些代数运算可以得到一个简约表达式:
P n i = e V n i ∑ j e V n j ,
P_{ni} = \frac{
e^{V_{ni}}
}{
\sum_j e^{V_{nj}}
},
P ni = ∑ j e V nj e V ni ,
这就是 logit choice probability。这里具体的推导可以参考 CB495-03Drv.tex (berkeley.edu) 第 3.10 小节。
当效用函数是线性形式时,例如 V n j = β ’ x n j V_{nj} = \beta’ x_{nj} V nj = β ’ x nj ,logit probabilites 可以写成
P n i = e β ’ x n j ∑ j e β ’ x n j ,
P_{ni} = \frac{
e^{\beta’ x_{nj}}
}{
\sum_j e^{\beta’ x_{nj}}
},
P ni = ∑ j e β ’ x nj e β ’ x nj , 其中 x n j x_{nj} x nj 是 j j j 选项可观测的特征。
Independence from Irrelevant Alternatives
链接到标题
Logit 模型对选项间的替代模式有特殊限制,对于任意两个选项 i i i 和 k k k ,其概率之比为
P n i P n k = e V n i / ∑ j e V n j e V n k / ∑ j e V n j = e V n i e V n k = e V n i − V n k .
\frac{P_{ni}}{P_{nk}} =
\frac{e^{V_{ni}}/ \sum_j e^{V_{nj}}}
{e^{V_{nk}}/ \sum_j e^{V_{nj}}} =
\frac{e^{V_{ni}}}{e^{V_{nk}}} =
e^{V_{ni} - V_{nk}}.
P nk P ni = e V nk / ∑ j e V nj e V ni / ∑ j e V nj = e V nk e V ni = e V ni − V nk .
可以看到,两者之间的相对概率不受 i i i 和 k k k 之外的选项影响,这种特征一般被称为无关选项的独立性 (independence of irrelevant alternatives, IIA)。
这一特性有时并不符合现实,一个经典的例子是红蓝巴士问题:假设一个人选择开车 (c) 或乘蓝色巴士 (bb) 上班,并且概率各为一半:P c = P b b = 1 2 P_c = P_{bb} = \frac{1}{2} P c = P bb = 2 1 。此时再引入一个红色巴士 (rb) 选项,对于上班来说,红色巴士和蓝色巴士没有区别,所以选择两者的概率应该一样 P r b / P b b = 1 P_{rb} / P_{bb} = 1 P r b / P bb = 1 。在 logit 模型中,P c / P b b P_c / P_{bb} P c / P bb 仍然不变,因此我们会有
P c / P b b = 1 和 P r b / P b b = 1 ⟹ P c = P b b = P r b = 1 3 .
P_c / P_{bb} = 1 \text{ 和 } P_{rb} / P_{bb} = 1
\implies P_c = P_{bb} = P_{rb} = \frac{1}{3}.
P c / P bb = 1 和 P r b / P bb = 1 ⟹ P c = P bb = P r b = 3 1 .
但是在现实中,我们一般会认为坐巴士的概率应该仍然为 1 2 \frac{1}{2} 2 1 ,所以各选项的概率应该为
P c = 1 2 和 P b b = R r b = 1 4 .
P_c = \frac{1}{2} \text{ 和 } P_{bb} = R_{rb} = \frac{1}{4}.
P c = 2 1 和 P bb = R r b = 4 1 .
可以看到 logit 模型会高估决策者选择红色巴士的概率。