马尔可夫链(Markov Chains)&隐马尔可夫模型(HMM)

发表于2024-09-11|更新于2024-09-11|AI

|总字数:1k|阅读时长:3分钟|浏览量:

马尔可夫链(Markov Chains)

马尔可夫链的核心三要素：

状态空间 States Space
无记忆性 Memorylessness $P(S_t|S_{t-1},S_{t-2},S_{t-3},……)=P(S_t|S_{t-1})$
转移状态矩阵 Transition Matrix

=> 独立性并非均值收敛的必要条件，即使非独立的随机过程也能收敛至稳态；

一个简单的示例：

早餐店每天提供一种不同的早餐汉堡、披萨、热狗；它们在每一天出现的概率可以由一个状态转移矩阵来表示：

1-1

用一个行向量来表示当前的状态概率分布：

假设当天是食物披萨：$\pi_0=\left[\begin{array}{ccc}0&1&0\end{array}\right]$；

通过以下方式可以逐步求出第二、三、四……天的状态概率分布；（即第一天的状态概率分别 X状态转移矩阵 ^ n = 第 n+1 天的状态概率分布)

1-2

【如果存在一个稳态，那么在某个点后，输出的行向量应该与输入的行向量完全相同。】

最终会达到一个稳态分布（即一个固定的行向量），这里用 $\pi$ 来表示；则会有 $\pi A=\pi$ ；（与特征向量的等式类似 $Av=\lambda v$；求解过程即这里的特征值为 1 ，$\pi[1]+\pi[2]+\pi[3]=1$；）

这里最终求解出 $\pi=[\begin{array}{ccc}0.35211&0.21127&0.43662\end{array}]$；

寻找是否存在多个稳态，即只需要查看是否存做多个特征值为 1 的特征向量。并不是所有的马尔科夫链都是具有唯一的稳态分布；如下图 B、C 旁边的两个向量均为该链的稳态分布；

1-3

稳态分布并不依赖于开始的状态（因为这是整个马尔可夫链的属性）

可约链与不可约链

可以从任何一个状态到达其他任何状态的链，即不可约链；反之则为可约链（可以将该链分割从而转化为更小的不可约链）；（从其他状态无法回到当前状态的一个状态可将其分割）

1-4

例如上面这个马尔可夫链可分为三个类，即通信类（任何状态都可以到达其他的状态）；

推广至 n 步/ n 阶转移矩阵

示例：

求解在经过 2 步后从状态 0 转移至状态 2 的概率；

1-5

1-6

由此推广至 n 步/ n 阶转移矩阵；

找到在 n 步转移中从状态 i 到状态 j 的概率，只需要看 n 阶转移矩阵的第 i行和第 j 列的就行了；

以第一个例子中的 A 状态转移矩阵为例，其最终的稳态分布：

1-7

1-8

只有满足一定条件（不可约性和周期性）的情况下，A 的无穷次方才会收敛，即稳态分布才存在；

用到的一个定理：Chapman-Kolmogorov Theorem，$P_{ij}(n)=\sum_kP_{ik}(r)\times P_{kj}(n-r)$；

马尔可夫链的应用：自然语义处理方面，利用字符词语之间的转移矩阵去联想用户接下来想说什么/想搜什么；随机生成文章；金融分析股市；

隐马尔可夫模型(HMM)

HMM = Hidden MC + Observed Variables （隐马尔可夫模型 = 隐藏的马尔可夫链 + 观测变量）

示例：

1-9

假设一组序列（最终目的是计算多组序列中的概率的最大值）

1-10

可将该序列计算表示为上述 6 个序列的值，分别来求解；其中的每个值可从右上角矩阵中找到；第一个的概率可通过稳态分布计算；

1-11

用数学符号表示，观测变量用 Y 来表示，状态变量用 X 来表示；则问题可转换为求解：

1-12

通过朴素贝叶斯来转换计算；

1-13

最终转换为求解（忽略分母）：

1-14

参考学习：

https://www.youtube.com/watch?v=i3AkTO9HLXo&t=1s

https://www.bilibili.com/video/BV19b4y127oZ/?share_source=copy_web&vd_source=d1fcb62c082f9710827e86fedf96d9f0

https://blog.csdn.net/weixin_39910711/article/details/104585777

相关推荐

Transformer整体结构详解

Transformer整体结构详解

AI&名词解释

AI&名词解释

Prompt&Agent&MCP

Prompt&Agent&MCP基本概念的介绍

模型评估指标

模型评估指标