分数多项式回归模型(多项式回归模型系数求解)

http://www.itjxue.com  2023-01-26 00:03  来源:未知  点击次数: 

如何评价模型好坏

数据集(训练验证测试)评价分类结果混淆矩阵分类评价指标准确率precision:召回率recall F1-score 曲线ROC曲线PR曲线 概念偏差和方差偏差方差产生的原因偏差方差平衡总结

学习目标

机器学习的普遍任务就是从数据中学习和构建模型(该过程称之为训练),并且能够在将来遇到的数据上进行预测。用于构建最终模型的数据集通常有多个;在构建模型的不同阶段,通常有三种数据集:训练集、验证集和测试集。

首先,模型在 训练集 (training dataset)上进行拟合。对于监督式学习,训练集是由用来拟合参数(例如人工神经网络中神经元之间链接的权重)的样本组成的集合。在实践中,训练集通常是由输入向量(标量)和输出向量(标量)组成的数据对。其中输出向量(标量)被称为目标或标签。在训练过程中,当前模型会对训练集中的每个样本进行预测,并将预测结果与目标进行比较。根据比较的结果,学习算法会更新模型的参数。模型拟合的过程可能同时包括特征选择和参数估计。

接下来,拟合得到的模型会在第二个数据集—— 验证集 (validation dataset)上进行预测。在对模型的超参数(例如神经网络中隐藏层的神经元数量)进行调整时,验证集提供了对在训练集上拟合得到模型的 无偏评估 。验证集可用于正则化中的提前停止:在验证集误差上升时(这是在训练集上过拟合的信号),停止训练。不过,在实践中,由于验证集误差在训练过程中会有起伏,这种做法有时不奏效。由此,人们发明了一些规则,用做判定过拟合更好的信号。

最后, 测试集 (test dataset)可被用来提供对最终模型的无偏评估。若测试集在训练过程中从未用到(例如,没有被用在交叉验证当中),则它也被称之为预留集。

指标都是为了衡量模型的泛化能力,

T/F是指预测是否正确,P/N 表示预测结果。

预测为正的样本中有多少是正的样本。

正样本中有多少被预测正确了。

召回率的应用场景: 比如拿网贷违约率为例,相对好用户,我们更关心坏用户,不能错放过任何一个坏用户。因为如果我们过多的将坏用户当成好用户,这样后续可能发生的违约金额会远超过好用户偿还的借贷利息金额,造成严重偿失。 召回率越高,代表实际坏用户被预测出来的概率越高,它的含义类似:宁可错杀一千,绝不放过一个。

通常,如果想要找到二者之间的一个 平衡点 ,我们就需要一个新的指标: F1分数 。F1分数同时考虑了查准率和查全率,让二者同时达到最高,取一个平衡。F1分数的公式为 = 2 查准率查全率 / (查准率 + 查全率)。**我们在图中看到的平衡点就是F1分数得来的结果。

F1Score指准确率和召回率的综合得分。

FPR表示模型虚报的响应程度,而TPR表示模型预测响应的覆盖程度。我们所希望的当然是:虚报的越少越好,覆盖的越多越好。所以总结一下就是 TPR越高,同时FPR越低(即ROC曲线越陡),那么模型的性能就越好。 参考如下动态图进行理解

ROC曲线无视样本不平衡

前面已经对ROC曲线为什么可以无视样本不平衡做了解释,下面我们用动态图的形式再次展示一下它是如何工作的。我们发现:**无论红蓝色样本比例如何改变,ROC曲线都没有影响。

Precison,Recall的分子都是TP,分母一个是TP+FP,一个是TP+FN。两者的关系可以由PR图来表示

偏差和方差的定义如下:

也可以通过下面的图片直观理解偏差和方差:

以上四种情况:

模型误差 = 偏差 + 方差 + 不可避免的误差(噪音)。一般来说,随着模型复杂度的增加,方差会逐渐增大,偏差会逐渐减小,见下图:

[图片上传失败...(image-d63233-1586095778322)]

一个模型有偏差,主要的原因可能是对问题本身的假设是不正确的,或者欠拟合。如:针对非线性的问题使用线性回归;或者采用的特征和问题完全没有关系,如用学生姓名预测考试成绩,就会导致高偏差。

方差表现为数据的一点点扰动就会较大地影响模型。即模型没有完全学习到问题的本质,而学习到很多噪音。通常原因可能是使用的模型太复杂,如:使用高阶多项式回归,也就是过拟合。

有一些算法天生就是高方差的算法,如kNN算法。非参数学习算法通常都是高方差,因为不对数据进行任何假设。

有一些算法天生就是高偏差算法,如线性回归。参数学习算法通常都是高偏差算法,因为对数据有迹象。

偏差和方差通常是矛盾的。降低偏差,会提高方差;降低方差,会提高偏差。

这就需要在偏差和方差之间保持一个平衡。

以多项式回归模型为例,我们可以选择不同的多项式的次数,来观察多项式次数对模型偏差方差的影响:

下面是多项式次数对训练误差/测试误差的影响:

关于解决方差和偏差的问题中:

我们要知道偏差和方差是无法完全避免的,只能尽量减少其影响。

其实在机器学习领域,主要的挑战来自方差。处理高方差的手段有:

偏差衡量了模型的预测值与实际值之间的偏离关系,主要的原因可能是对问题本身的假设是不正确的,或者欠拟合。方差描述的是模型预测值的变化波动情况(或称之为离散情况),模型没有完全学习到问题的本质,通常原因可能是使用的模型太复杂,过拟合。

参数或者线性的算法一般是高偏差低方差;非参数或者非线性的算法一般是低偏差高方差。所以我们需要调整参数来去衡量方差和偏差的关系。

数据分析师必须掌握的7种回归分析方法

1、线性回归

线性回归是数据分析法中最为人熟知的建模技术之一。它一般是人们在学习预测模型时首选的技术之一。在这种数据分析法中,由于变量是连续的,因此自变量可以是连续的也可以是离散的,回归线的性质是线性的。

线性回归使用最佳的拟合直线(也就是回归线)在因变量(Y)和一个或多个自变量(X)之间建立一种关系。

2、逻辑回归

逻辑回归是用来计算“事件=Success”和“事件=Failure”的概率。当因变量的类型属于二元(1 /0,真/假,是/否)变量时,我们就应该使用逻辑回归.

逻辑回归不要求自变量和因变量是线性关系。它可以处理各种类型的关系,因为它对预测的相对风险指数OR使用了一个非线性的log转换。

为了避免过拟合和欠拟合,我们应该包括所有重要的变量。有一个很好的方法来确保这种情况,就是使用逐步筛选方法来估计逻辑回归。它需要大的样本量,因为在样本数量较少的情况下,极大似然估计的效果比普通的最小二乘法差。

3、多项式回归

对于一个回归方程,如果自变量的指数大于1,那么它就是多项式回归方程。虽然会有一个诱导可以拟合一个高次多项式并得到较低的错误,但这可能会导致过拟合。你需要经常画出关系图来查看拟合情况,并且专注于保证拟合合理,既没有过拟合又没有欠拟合。下面是一个图例,可以帮助理解:

明显地向两端寻找曲线点,看看这些形状和趋势是否有意义。更高次的多项式最后可能产生怪异的推断结果。

4、逐步回归

在处理多个自变量时,我们可以使用这种形式的回归。在这种技术中,自变量的选择是在一个自动的过程中完成的,其中包括非人为操作。

这一壮举是通过观察统计的值,如R-square,t-stats和AIC指标,来识别重要的变量。逐步回归通过同时添加/删除基于指定标准的协变量来拟合模型。

5、岭回归

岭回归分析是一种用于存在多重共线性(自变量高度相关)数据的技术。在多重共线性情况下,尽管最小二乘法(OLS)对每个变量很公平,但它们的差异很大,使得观测值偏移并远离真实值。岭回归通过给回归估计上增加一个偏差度,来降低标准误差。

除常数项以外,这种回归的假设与最小二乘回归类似;它收缩了相关系数的值,但没有达到零,这表明它没有特征选择功能,这是一个正则化方法,并且使用的是L2正则化。

6、套索回归

它类似于岭回归。除常数项以外,这种回归的假设与最小二乘回归类似;它收缩系数接近零(等于零),确实有助于特征选择;这是一个正则化方法,使用的是L1正则化;如果预测的一组变量是高度相关的,Lasso 会选出其中一个变量并且将其它的收缩为零。

7、回归

ElasticNet是Lasso和Ridge回归技术的混合体。它使用L1来训练并且L2优先作为正则化矩阵。当有多个相关的特征时,ElasticNet是很有用的。Lasso会随机挑选他们其中的一个,而ElasticNet则会选择两个。Lasso和Ridge之间的实际的优点是,它允许ElasticNet继承循环状态下Ridge的一些稳定性。

通常在高度相关变量的情况下,它会产生群体效应;选择变量的数目没有限制;并且可以承受双重收缩。

关于数据分析师必须掌握的7种回归分析方法,青藤小编就和您分享到这里了,希望这篇文章可以为您提供帮助。如果您还想了解更多关于数据分析师、大数据工程师的职业前景及就业内容,可以点击本站的其他文章进行学习。

R-统计分析的一些R包和函数

横截面数据回归经典方法

quantreg 分位数回归

MASS ?BOX-COX变换

survival 生存函数、COX比例危险回归模型

mfp ?COX比例危险回归模型多重分数多项式

car 可以检查vif

ridge 岭回归

lars ?lasso回归

msgps adaptive lasso

pls 偏最小二乘

横截面数据 回归机器学习 方法

rpart.plot 画回归树

mboost ?boosting回归

ipred ?bagging回归

randomForest 随机森林回归

e1071 ?or kernlab ?SVR支持向量机回归

nnet+caret ?or neuralnet 神经网络

横截面数据 分类 经典方法

glm( ) 广义线性模型

MASS 的 lda( ) or ? mda 的 mda( ) or ? fda 的 fda( ) 线性判别

横截面数据 分类机器学习 方法

rpart.plot 画分类树

adabag ?adaboost分类、bagging分类

randomForest 随机森林分类

e1071 ?or kernlab ?SVR支持向量机分类

kknn 最近邻分类

nnet 神经网络分类

横截面数据 计数或有序因变量

Possion 散布问题(方差不等于均值):

dglm 双广义线性模型(Tweedie分布)

MASS 的 glm.nb( ) (负二项分布)

pscl 的 zeroinfl( ) 零膨胀计数数据模型

rminer 支持向量机

mlogit 多项logit模型

MASS 的 loglm( ) ?or nnet 的 multinom( ) 多项分布对数线性模型

MASS 的 polr( ) ?or VGAM 的 vglm( ) 多项分布对数线性模型

纵向数据:多水平模型、面板数据

lme4 的 lmer( ) ?or nlme 的 lme( ) 线性随机效应混合模型

REEMtree 拟合固定效应部分的决策树

coxme ?cox随机效应分析

JM 联合模型

plm 拟合面板数据

多元分析

factanal( ) 因子分析

cluster 分层聚类

ICGE ?INCA指数

ggmap 画地图

NbClust 一系列聚类方法

CCA 典型相关分析

MASS 对应分析

以下为非经典多元数据分析

FactoMineR 主成分分析、对应分析(补充元素作为测试集);多重对应分析(可以包含数量变量和分类变量)、多重因子分析、分层多重因子分析、基于主成分分析的分层聚类

多元数据的关联规则分析

arules 关联规则分析

路径建模数据的PLS分析

plspm 的函数 plspm( ) 偏最小二乘

lavvan 加协方差关系

常见的非线性回归模型有哪几种

1、简非线性模型

非线性回归模型在经济学研究中有着广泛的应用。有一些非线性回归模型可以通过直接代换或间接代换转化为线性回归模型,但也有一些非线性回归模型却无法通过代换转化为线性回归模型。

2、可化为线性回归的曲线回归

在实际问题当中,有许多回归模型的被解释变量y与解释变量×之间的关系都不就是线性的,其中一些回归模型通过对自变量或因变量的函数变换,可以转化为常见非线性回归模型线性关系,利用线性回归求解未知参数,并作回归诊断。

3、多项式回归

多项式回归模型就是一种重要的曲线回归模型,这种模型通常容易转化为一般的多元线性回归来做处理。

4、非线性模型

在非线性回归中,平方与分解式SST=SSR+SSE不在成立,类似于线性回归中的复决定系数,定义非线性回归的相关指数:R/2=1-SSE/SST

扩展资料

在许多实际问题中,回归函数往往是较复杂的非线性函数。非线性函数的求解一般可分为将非线性变换成线性和不能变换成线性两大类。

回归分析中,又依据描述自变量与因变量之间因果关系的函数表达式是线性的还是非线性的,分为线性回归分析和非线性回归分析。通常线性回归分析法是最基本的分析方法,遇到非线性回归问题可以借助数学手段化为线性回归问题处理。

(责任编辑:IT教学网)

更多

推荐ASP.NET教程文章