1 分类与表达式
1.1 分类
例子:
Email:垃圾(span)邮件/非垃圾(not span)邮件
在线交易:是/否欺诈(Fraudulent)
肿瘤:恶性/良性
y∈{0,1}:{Negative,Position}
→y∈{0,1,2,3,?}:多类
逻辑回归
0≤hθ(x)≤1
离散变量:
{0,1}
1.2 假设函数的表达式
hθ(x)=g(θTx)g(z)=11+e?z????????hθ(x)=11+e?θTx
hθ(x)
为
y=1
的概率值,当取输入为
x
时,
→hθ(x)=p{y=1|x;θ}
s.t.p{y=0|x;θ}+p{y=1|x;θ}=1
1.3 决策边界
hθ(x)=g(θ0+θ1x1+θ2x2)
假定
y=1
,当
hθ(x)≥0.5
(阈值)
则
g(θTx)≥0.5
(阈值),即
θTx≥0
,
θ0+θ1x1+θ2x2≥0
1.4 非线性决策边界
hθ(x)=g(θ0+θ1x1+θ2x2+θ3x21+θ4x22)θ0=θ1=θ3=?1θ2=0θ4=1???????1+x21+x22=0
训练集
→
(拟合)
→
边界
2 逻辑回归模型
2.1 代价函数
J(θ)=1m∑i=1mCost(hθ(x(i)),y(i))
其中,
Cost(hθ(x),y)={?log(hθ(x)),?log(1?hθ(x)),y=1y=0
其中
J(θ)
为
凸函数。
2.2 简单的代价函数与梯度下降法
Cost(hθ(x),y)=?ylog(hθ(x))?(1?y)log(1?hθ(x))
→J(θ)=?1m[∑i=1my(i)log(hθ(x(i)))+(1?y(i))log(1?hθ(x(i)))]
Objection.→minθJ(θ)
梯度下降法
Repeat{θj=θj?α1m∑i=1m(hθ(x(i))?y(i))x(i)j}
这一迭代形式与“
线性回归”中的梯度下降法相同,但是“
h(x(i))
”是不同的。其中,
特征缩放(归一化)一样适用。
2.3 高级优化方法
用于求解
minJ(θ)
,收敛速度更快。
优化算法
- 梯度下降法(Gradient descent)
- 共轭梯度法(Conjugate gradient)
- 变尺度法(BFGS)
- 线性变尺度法(L-BFGS)
其中 2,3,4 优化算法无需学习参数
α
,且效率比梯度下降法更好。
3 多类别分类
方法: 一对多算法(One-vs-all)
例子:
Email foldering/tagging: work
(y=1)
,friends
(y=2)
,family
(y=3)
,hobby
(y=4)
maxih(i)θ(x)
当
y=1,2,3,…,n
,令
y=i
为
1
,其他为
0
,采用逻辑回归方法,做
n
次分类。
4 解决过拟合问题
4.1 过拟合
J(θ)≈0→0
解决方法
诊断,调试
- 减少特征数量(舍弃特征)
- 正则化(保留所有特征)
4.2 代价函数
hθ(x)=θ0+θ1x1+θ2x2+θ3x3+θ4x4
希望
θ3
,
θ4
尽量小,则
minθ12m∑i=1m(hθ(x(i))?y(i))2+1000θ3+1000θ4??????????????????????惩罚项(实例)
正则化
对某些参数增加惩罚项,其中针对所有参数的为
J(θ)=12m[∑i=1m(hθ(x(i))?y(i))2+λ∑j=1nθ2j]
其中,
λ
为正则化参数,
λ
过大,会使得
θj→0
,以至于欠拟合。
4.3 正则化的线性回归
J(θ)=12m[∑i=1m(hθ(x(i))?y(i))2+λ∑j=1nθ2j]
minθJ(θ)
梯度下降法
θ0=θ0?α1m∑i=1m(hθ(x(i))?y(i))x(i)0θj=θj?α[1m∑i=1m(hθ(x(i))?y(i))x(i)j+λmθj]j=1,2,3,?,n
正规方程
θ=(XTX)?1XTy→θ=???????XTX?λ???????01?1???????(n+1)????????1XTy
当
(XTX)?1
不可逆时,可将其转化为可逆矩阵。
4.4 正则化逻辑回归
J(θ)=[?1m∑i=1my(i)log(hθ(x(i)))+(1?y(i))log(1?hθ(x(i)))]+λ2m∑j=1nθ2j
minθJ(θ)
采用梯度下降法等优化算法求解。