本文从决策者效用最大化,利用 Gumbel 分布的假设,推出各选项的 logit 概率,并分析了其隐含的 IIA 问题。
效用最大化与 Logit 链接到标题
一个决策者 $n$ 面临 $J$ 个选项,其选择 $j$ 选项的效用可以分解为两个部分: $$ U_{nj} = V_{nj} + \varepsilon_{nj} $$ 其中 $V_{nj}$ 是研究者可以观测到因素决定的部分,$\varepsilon_{nj}$ 是不可观测到的部分,一般当作随机变化。
决策者选择效用最高的选项,那么决策者 $n$ 选择选项 $i$ 的概率可以表示为 $$ \begin{align*} P_{ni} & = Prob(V_{ni} + \varepsilon_{ni} > V_{nj} + \varepsilon_{nj} \quad \forall j \neq i) \newline & = Prob(\varepsilon_{nj} < \varepsilon_{ni} + V_{ni} - V_{nj} \quad \forall j \neq i). \end{align*} $$ 当每个 $\varepsilon_{nj}$ 服从 IID 的 Gumbel 分布 (Type I extreme value) 时,我们可以其用累积分布函数表示上式,即 $$ P_{ni} \mid \varepsilon_{ni} = \prod_{j \neq i} e^{-e^{-(\varepsilon_{ni} + V_{ni} - V_{nj})}}. $$ 其无条件形式为 $$ P_{ni} = \int \left( \prod_{j \neq i} e^{-e^{-(\varepsilon_{ni} + V_{ni} - V_{nj})}} \right) e^{-\varepsilon_{ni}} e^{-e^{-\varepsilon_{ni}}} d \varepsilon_{ni}. $$ 经过一些代数运算可以得到一个简约表达式: $$ P_{ni} = \frac{ e^{V_{ni}} }{ \sum_j e^{V_{nj}} }, $$ 这就是 logit choice probability。这里具体的推导可以参考 CB495-03Drv.tex (berkeley.edu) 第 3.10 小节。
当效用函数是线性形式时,例如 $V_{nj} = \beta’ x_{nj}$,logit probabilites 可以写成 $$ P_{ni} = \frac{ e^{\beta’ x_{nj}} }{ \sum_j e^{\beta’ x_{nj}} }, $$ 其中 $x_{nj}$ 是 $j$ 选项可观测的特征。
Independence from Irrelevant Alternatives 链接到标题
Logit 模型对选项间的替代模式有特殊限制,对于任意两个选项 $i$ 和 $k$ ,其概率之比为 $$ \frac{P_{ni}}{P_{nk}} = \frac{e^{V_{ni}}/ \sum_j e^{V_{nj}}} {e^{V_{nk}}/ \sum_j e^{V_{nj}}} = \frac{e^{V_{ni}}}{e^{V_{nk}}} = e^{V_{ni} - V_{nk}}. $$ 可以看到,两者之间的相对概率不受 $i$ 和 $k$ 之外的选项影响,这种特征一般被称为无关选项的独立性 (independence of irrelevant alternatives, IIA)。
这一特性有时并不符合现实,一个经典的例子是红蓝巴士问题:假设一个人选择开车 (c) 或乘蓝色巴士 (bb) 上班,并且概率各为一半:$P_c = P_{bb} = \frac{1}{2}$。此时再引入一个红色巴士 (rb) 选项,对于上班来说,红色巴士和蓝色巴士没有区别,所以选择两者的概率应该一样 $P_{rb} / P_{bb} = 1$。在 logit 模型中,$P_c / P_{bb}$ 仍然不变,因此我们会有 $$ P_c / P_{bb} = 1 \text{ 和 } P_{rb} / P_{bb} = 1 \implies P_c = P_{bb} = P_{rb} = \frac{1}{3}. $$ 但是在现实中,我们一般会认为坐巴士的概率应该仍然为 $\frac{1}{2}$,所以各选项的概率应该为 $$ P_c = \frac{1}{2} \text{ 和 } P_{bb} = R_{rb} = \frac{1}{4}. $$ 可以看到 logit 模型会高估决策者选择红色巴士的概率。