我要投搞

标签云

收藏小站

爱尚经典语录、名言、句子、散文、日志、唯美图片

当前位置:主页 > 抽样技巧 >

样本不均衡的一些处理技巧

归档日期:10-15       文本归类:抽样技巧      文章编辑:爱尚语录

  欠采样undersampling法是去除训练集内一些多数样本使得两类数据量级接近然后在正常进行学习。这种方法的缺点是就是放弃了很多反例这会导致平衡后的训练集小于初始训练集。而且如果采样随机丢弃反例会损失已经收集的信息往往还会丢失重要信息。

  但是我们可以更改抽样方法来改进欠抽样方法比如把多数样本分成核心样本和非核心样本非核心样本为对预测目标较低概率达成的样本可以考虑从非核心样本中删除而非随机欠抽样这样保证了需要机器学习判断的核心样本数据不会丢失。

  举例来说依然是预测用户注册这个目标我们可以将跳出率为100%的用户名下的所有会话都可以划分为非核心样本因为跳出用户包含的信息量非常少其他行为特征为空将此部分用户样本排除可以最大可能的保留更多原始数据信息。

  另外一种欠采样的改进方法是 EasyEnsemble 提出的继承学习制度它将多数样本划分成若 N个集合然后将划分过后的集合与少数样本组合这样就形成了N个训练集合而且每个训练结合都进行了欠采样但从全局来看却没有信息丢失。

  简单粗暴的方法是复制少数样本缺点是虽然引入了额外的训练数据但没有给少数类样本增加任何新的信息非常容易造成过拟合。

  SMOTE[Chawla et a., 2002]是通过对少数样本进行插值来获取新样本的。比如对于每个少数类样本a从 a最邻近的样本中选取 样本b然后在对 ab 中随机选择一点作为新样本。

  这是一种传统的方法它根据错误分类的代价按照比例变换训练集中类别的频率。其缺点是改变了样本的分布情况有时会影响算法的性能。

  这是一种将一般分类模型转换成代价敏感模型的方法。它通过一个“元学习”过程根据最小期望代价修改训练样本的类标记并使用修改过的训练集重新学习新的模型。

  代价敏感的学习方法是机器学习领域中的一种新方法它主要考虑在分类中当不同的分类错误会导致不同的惩罚力度时如何训练分类器。例如在医疗中“将病人误诊为健康人的代价”与“将健康人误诊为病人的代价”不同在金融信用卡盗用检测中“将盗用误认为正常使用的代价”与将“正常使用误认为盗用的代价”也不同。通常不同的代价被表示成为一个N×N的矩阵Cost中其中N 是类别的个数。Cost[i, j]表示将一个i 类的对象错分到j 类中的代价。代价敏感分类就是为不同类型的错误分配不同的代价使得在分类时高代价错误产生的数量和错误分类的代价总和最小。常用的方法有如下几种。

  其中 按照对问题的解决方法的不同代价敏感学习的算法研究又可以分成三类。

  第一类代价敏感的学习方法关注于如何直接构造一个代价敏感的学习模型对不同的分类器模型研究者们提出了不同的解决办法它们包括

  (1)决策树Knoll 等和Bradford 等为决策树提出了代价敏感的剪枝方法Bradford 等研究了在代价敏感的条件下如何对决策树进行剪枝使得损失达到最小研究表明基于拉普拉斯方法的剪枝方法能够取得最好的 效果Drummond 和Holte 研究了代价敏感学习的决策树的节点分裂方法。

  (3)神经网络Geibel 和Wysotzki 提出了基于Perceptron 分类算法的代价敏感的学习方法在文章中作者对不可分的类提出了代价敏感的参数更新规则。例如Kukar和Kononenko为神经网络提出了新的后向传播算法使之能够满足代价敏感学习的要求。

  (4) Fumera 和Roli[37]以及Bradford 等从结构风险最小的角度来看代价敏感问题提出了代价敏感的支持向量机分类算法。

  第二类代价敏感的学习方法基于对分类结果的后处理即按照传统的学习方法学习一个分类模型然后对其分类结果按照贝叶斯风险理论对结果进行调整以达到最小的损失。和第一类代价敏感学习方法相比这种方法的优点在于其不依赖于所使用的具体的分类器。Domingos 提出了一种叫做MetaCost 的过程它把底层的分类器看成一个黑箱子不对分类器做任何的假设和改变MetaCost可以应用到任何个数的基分类器和任何形式的代价矩阵上。给定一个样例x基分类器得出它属于第j个类的概率为Pr(jx)这样认为x 属于第i个类的贝叶斯最优预测的风险为R(ix) ΣP(jx)C(i,j)(C(i,j)是把属于类别j的分为类别i的代价)。

  第三种代价敏感的学习方法基于传统的学习模型通过改变原始训练数据的分布来训练得到代价敏感的模型。Chan 和Stolfo 提出了层次化模型(Stratification)把分布不均匀的训练数据调整为正负例均匀分布的数据。Zadrozny等研究者基于cost-proportionate 的思想对训练数据调节权值在实际应用中其类似于Boosting 算法可以通过为分类模型调节权值来进行实现又可以通过采样(subsampleing)来实现。Abe 等提出了对多类分类问题中如何实现代价敏感的学习进行了探讨提出了一种新的迭代学习方法。

  这类方法的中心思想不是对样本集和做再平衡设置而是对算法的决策过程进行改进。

  因为训练集是总体样本的无偏采样观测几率就代表线c;决策规则中 ( (m) / (m-) ) 代表样本中正例的观测几率只要分类器中的预测几率高于观测几率达到改进判定结果的目标。

  winfrom中嵌套html,跟html的交互,源码就在里面一看就懂,很简单

  方法1、采样2、加权3、合成数据4、更换算法5、使用其他的评价指标三、合适

  方法的选择标准 一、数据不平衡现象 在学术研究与教学中,很多算法都基于一个假设,那就是数据分布是均匀的。但在实际数据中,数据往往分布得很不均匀,都会存在“长尾现象”,也就是“二八原理”。不平衡程度(即正负

  比例类似)的两个问题,解决的难易程度也可能不同,因为问题难易程度还取决于我们所...

  1, Bootstrapping,hard negative mining 最原始的一种方法,主要使用在传统的机器学习方法中。 比如,训练随机森林,对于每一个树就是采样booststraping方法采样,也算是随机森林的其中一个随机性表现。再比如bagging方法,也是基于该有放回重采样方法。 比如,SVM分类中去掉那些离分界线较远的

  的方法主要包括两类:(1)数据层面,修改各类别的分布;(2)分类器层面,修改训练算法或目标函数进行改进。还有方法是将上述两类进行融合。

  指的是给定数据集中有的类别数据多,有的数据类别少,且数据占比较多的数据类别

  量少的分类所包含的特征过少,并很难从中提取规律;即使得到分类模型,也容易产生过度依赖与有限的数...

  数据出现场景 1)搜索引擎的点击预测(网页上推送的广告很多,但被点击的概率往往非常小) 2)电子商务领域的商品推荐(网购平台会推送各种商品,但商品实际被购买的比例很低) 3)信用卡欺诈检测(办理信用卡的用户中,正常合法的用户群占绝大多数,而利用欺诈手段办理信用卡业务的用户很少,建立并训练欺诈检测时

  机器学习150道 1详细说说SVM 支持向量机,因其英文名为support vector machine,故一般简称SVM,通俗来讲,它是一种二类分类模型,其基本模型定义为特征空间上的间隔最大的线性分类器,其学习策略便是间隔最大化,最终可转化为一个凸二次规划问题的求解。 2哪些机器学习算法不需要做归一化? 在实际应用中,需要归一化的模型: 1.基于距离计算的模型:KNN SVM。 2.通过梯度下降法求解的模型:线性回归、逻辑回归、支持向量机、神经网络。 但树形模型不需要归一化,因为它们不关心变量的值,而是关

  from imblearn.over_sampling import SMOTE over_samples = SMOTE(random_state=0) # x为去除y和ID的数据,y为标签(label) x, y = over_samples.fit_sample(x, y) y SMOTE(ratio=auto, ran...

  样本不均衡的一些处理技巧经年藏殊:请问代价敏感部分“第一类代价敏感的学习方法关注于如何直接构造一个代价敏感的学习模型,对。。。”这一部分是引自哪篇文献?

  理解矩阵,矩阵背后的现实意义laoshanlaodao:但是矩阵的微分怎么理解呢?

  理解矩阵,矩阵背后的现实意义weixin_44624384:深奥,晦涩。当前阶段还不足以理解。

本文链接:http://romualdtual.com/chouyangjiqiao/239/