网站建设开票分类编码网络推广靠谱吗
多变量线性回归模型
模型参数为n+1维向量,此时模型公式为
hθ(x)=θ0x0+θ1x1+θ2x2+...+θnxnh_{\theta}(x)=\theta_{0}x_{0}+\theta_{1}x_{1}+\theta_{2}x_{2}+...+\theta_{n}x_{n} hθ(x)=θ0x0+θ1x1+θ2x2+...+θnxn
可以简化为
hθ(x)=θTXh_{\theta}(x)=\theta^\mathrm{T}\mathrm{X} hθ(x)=θTX
此时的代价函数仍是所有建模误差的平方和,即
J(θ0,θ1,...,θn)=12m∑i=1m(hθ(x(i))−y(i))2J(\theta_{0},\theta_{1},...,\theta_{n})=\frac{1}{2m}\sum_{i=1}^{m}{(h_{\theta}(x^{(i)})-y^{(i)})^2} J(θ0,θ1,...,θn)=2m1i=1∑m(hθ(x(i))−y(i))2
此时的批量梯度算法为
θj:=θj−α∂∂θjJ(θ0,θ1,...,θn)\theta_{j}:=\theta_{j}-\alpha\frac{\partial }{\partial \theta_{j}}J(\theta_{0},\theta_{1},...,\theta_{n}) θj:=θj−α∂θj∂J(θ0,θ1,...,θn)
θj:=θj−α1m∑i=1m(hθ(x(i))−y(i))⋅xj(i)forj=0,1,...n\theta_{j}:=\theta_{j}-\alpha\frac{1}{m}\sum_{i=1}^{m}{(h_{\theta}(x^{(i)})-y^{(i)})\cdot x_{j}^{(i)}}\quad for\quad j=0,1,...n θj:=θj−αm1i=1∑m(hθ(x(i))−y(i))⋅xj(i)forj=0,1,...n
特征缩放
在多维特征问题中,特征尺度越相近,梯度下降算法收敛越快。 尽量将特征尺度xnx_nxn缩放到-1~1之间。μn\mu_nμn是平均值,sns_nsn是方差。
xn=xn−μnsnx_n=\frac{x_n-\mu_n}{s_n} xn=snxn−μn
学习率
我们不能提前预知梯度下降算法收敛所需的迭代次数,但可以通过绘制迭代次数和代价函数的图表来观测算法在何时趋于收敛。
常用的学习率为0.01,0.03,0.1,0.3,1,3,10
多项式回归
线性回归不适用所有的模型,有时候可能需要二次方、三次方等模型,比如
hθ(x)=θ0+θ1x1+θ2x22+θ3x33h_{\theta}(x)=\theta_0+\theta_1x_1+\theta_2x^2_2+\theta_3x^3_3 hθ(x)=θ0+θ1x1+θ2x22+θ3x33
hθ(x)=θ0+θ1x1+θ2x2h_{\theta}(x)=\theta_0+\theta_1x_1+\theta_2\sqrt x_2 hθ(x)=θ0+θ1x1+θ2x2
正规方程
通过正规方程解出向量,其中XXX为特征矩阵
θ=(XTX)−1XTy\theta=(X^{\mathrm T}X)^{-1}X^{\mathrm T}y θ=(XTX)−1XTy