机器学习中的优化问题-白红宇

机器学习中的优化问题

阅读量：4068 次

发布时间：2019-05-25

本文共 1396 字，大约阅读时间需要 4 分钟。

最优化问题：

解析解存在：最优解可以由公式简单计算

没有解析解
- 数值计算
- 启发式方法

例：

朴素贝叶斯、隐马尔可夫：最优解即极大似然估计值，可由概率计算公式直接计算

感知机、逻辑回归、最大熵模型、条件随机场：利用梯度下降法、拟牛顿法等。无拘束最优化问题的解法。

支持向量机：解凸二次规划的对偶问题。有序列最小最优化算法等。

决策树：启发式算法。特征选择、生成、剪枝是启发式地进行正则化的极大似然估计。

提升方法：加法模型、指数损失函数。启发式地从前往后逐步学习，逼近优化目标函数。

EM算法：迭代的求解隐变量概率模型参数，收敛性可以保证，但不能保证收敛到全局最优。

其中凸优化问题：支持向量机、逻辑回归、最大熵模型、条件随机场，全局最优解保证存在。

最优化算法

迭代尺度法

牛顿法：迭代算法，每一步需要求解目标函数的海塞矩阵的逆矩阵，计算比较复杂

拟牛顿法：通过正定矩阵近似海塞矩阵的逆矩阵或海塞矩阵

梯度下降法

拉格朗日对偶性：在约束最优化问题中，常常利用拉格朗日对偶性（Lagrange duality）将原始问题转换为对偶问题，通过解对偶问题而得到原始问题的解。如：最大熵模型、支持向量机。

梯度下降参数更新方法

梯度下降法是求解无约束最优化问题的一种最常用的方法，有实现简单的优点。梯度下降是迭代算法，每一步需要求解目标函数的梯度向量。

当目标函数是凸函数时，梯度下降法的解是全局最优解。一般情况下，其解不保证是全局最优解。

SGD

Δ θ t = - α g t

$\Delta \theta_t = - \alpha g_t$

Momentum

m t = γ m t - 1 + (1 - γ) g t

$mt = \gamma m_{t-1} + (1- \gamma)g_t$

Δ θ t = - α m t

$\Delta \theta_t = - \alpha m_t$

Adagrad

G t = G t - 1 + g 2 t

$G_t = G_{t-1} + g_t^2$

Δ θ t = - α g t G - 1 / 2 t

$\Delta \theta_t = - \alpha g_tG_t^{-1/2}$

Adadelta

v t = β 2 v t - 1 + (1 - β 2) g 2 t

$v_t = \beta_2 v_{t-1} + (1 - \beta_2)g_t^2$

Δ θ t = - α g t v - 1 / 2 t D 1 / 2 t - 1

$\Delta \theta_t = - \alpha g_tv_t^{-1/2}D_{t-1}^{1/2}$

D t = β 1 D t - 1 + (1 - β 1) (Δ θ t / α) 2

$D_t = \beta_1D_{t-1} + (1-\beta_1)(\Delta \theta_t / \alpha)^2$

RMSprop

v t = β 2 v t - 1 + (1 - β 2) g 2 t

$v_t = \beta_2 v_{t-1} + (1 - \beta_2)g_t^2$

Δ θ t = - α g t v - 1 / 2 t

$\Delta \theta_t = - \alpha g_tv_t^{-1/2}$

Adam

m t = β 1 m t - 1 + (1 - β 1) g t

$m_t = \beta_1m_{t-1}+(1-\beta_1)g_t$

v t = β 2 v t - 1 + (1 - β 2) g 2 t

$v_t = \beta_2v_{t-1}+(1-\beta_2)g_t^2$

m ˆ t = m t / (1 - β t 1)

$\widehat{m}_t = m_t / (1- \beta_1^t)$

v ˆ t = v t / (1 - β t 2)

$\widehat{v}_t = v_t / (1- \beta_2^t)$

Δ θ t = - α m ˆ t v ˆ - 1 / 2 t

$\Delta \theta_t = - \alpha \widehat{m}_t \widehat{v}_t^{-1/2}$

《统计学习方法》

《深度学习》

转载地址：http://iioji.baihongyu.com/

你可能感兴趣的文章

maven 下搭建spring

查看>>

maven下搭建注解形式的Spring aop

Linux web工程部署远程必备软件安装

查看>>

Windows 7下硬盘安装CentOS6.4的解决方法

struts2 使用注解、反射、拦截器实现基于方法的权限控制

查看>>

maven 架设 struts2 注解方式权限控制

struts2自定义拦截器模拟session超时的处理

《礼仪73》、《处事22计》、《心态24条》、《伤心50句》、《学会长大20》

Oracle 树操作(select…start with…connect by…prior)

查看>>

最优化算法

梯度下降 参数更新方法

SGD

Momentum

Adagrad

Adadelta

RMSprop

Adam

梯度下降参数更新方法