您现在的位置: 首页 趋势 > > 正文
天天热文:​机器学习数据不满足同分布,怎么整?
发布时间:2022-12-30 01:09:33

机器学习作为一门科学,不可避免的是,科学本身是基于归纳得到经验总结,必然存在历史经验不适用未来的情况(科学必可证伪)。这里很应景地讲一个小故事--By 哲学家罗素:

农场有一群火鸡,农夫每天来给它们喂食。经过长期观察后,一只火鸡(火鸡中的科学鸡)得出结论,“每天早上农夫来到鸡舍,我就有吃的”,之后每天的经历都在证实它的这个结论。但是有一天,农夫来到鸡舍,没有带来食物而是把它烤了,因为这天是圣诞节,做成了圣诞节火鸡。

通过有限的观察,得出自以为正确的规律性结论的,结局如是此。以这角度,我们去看AI/机器学习的应用,也能看到很多类似的例子。


(资料图片仅供参考)

机器学习是研究怎样使用计算机模拟或实现人类学习活动的科学,是基于一系列假设(基本的如,独立同分布假设)归纳得到经验,进行预测的过程。

也不可避免的,机器学习中也可能出现预测的数据与训练数据不满足同分布,历史数据经验不那么适用了!导致预测效果变差或失效的情况。这就类似我们考试的时候,发现这类型的题目我没有见过,歇菜了...

一、什么是数据不满足同分布

实际预测与训练数据不满足同分布的问题,也就是数据集偏移(Dataset shift),是机器学习一个很重要的问题。

从贝叶斯定理可得P(y,x) = P(y|x) * P(x) = P(x|y) * P(y),当输入空间的边缘概率分布P(x) , 输出空间的标签分布P(y) 以及表示该机器学习任务的条件概率分布 P(y|x) 之中,有任一项因素发生偏移导致训练数据与预测数据 P(y,x)造成差异,即为数据集偏移现象。

不同因素对应着如下三种情况得数据偏移:

Covariate shift:协变量偏移(统计学中的协变量即机器学习中的特征的概念), 指的是输入空间的边缘概率分布P(x),也就输入特征x分布变化导致的偏移。这个应该是最为常见的,比如图像识别任务中,训练时输入的人脸图像数据没戴口罩,而预测的时候出现了很多戴口罩人脸的图像。再如反欺诈识别中,实际预测欺诈用户的欺诈行为发生升级改变,与训练数据的行为特征有差异的情况。

Prior probability shift:先验偏移,指的是标签分布P(Y) 差异导致的。比如反欺诈识别中,线上某段时间欺诈用户的比例 对比 训练数据 突然变得很大的情况。

Concept shift:映射关系偏移,指P(y|x) 分布变化,也就是x-> y的映射关系发生变化。比如农场的火鸡,本来x是【 早上/农夫/来到/鸡舍】对应着 y是【火鸡被喂食】,但是圣诞节那天这层关系突然变了,x还是【 早上/农夫/来到/鸡舍】但对应着 y是【火鸡被烤了】..hah,留下心疼的口水..

二、为什么数据不满足同分布

可能导致数据不满足同分布的两个常见的原因是:

(1)样本选择偏差(Sample Selection Bias) :分布上的差异是由于训练数据是通过有偏见的方法获得的。

比如金融领域的信贷客群是通过某种渠道/规则获得的,后面我们新增加营销渠道获客 或者 放宽了客户准入规则。这样就会直接导致实际客群样本比历史训练时点的客群样本更加多样了(分布差异)。

(2)不平稳环境(Non-stationary Environments):由于时间上的或空间上的变化导致训练与测试环境不同。

比如金融领域,预测用户是否会偿还贷款的任务。有一小类用户在经济环境好的时候有能力偿还债务,但是由于疫情或其他的影响,宏观经济环境不太景气,如今就无法偿还了。

三、如何检测数据满足同分布

可能我们模型在训练、验证及测试集表现都不错,但一到OOT(时间外样本)或者线上预测的时候,效果就掉下来了。这时我们就不能简单说是模型复杂导致过拟合了,也有可能是预测数据的分布变化导致的效果变差。我们可以通过如下常用方式检测数据分布有没有变化:

3.1 统计指标的方法

通过统计指标去检测分布差异是很直接的,我们通常用群体稳定性指标(Population Stability Index,PSI), 衡量未来的样本(如测试集)及训练样本评分的分布比例是否保持一致,以评估数据/模型的稳定性(按照经验值,PSI<0.1分布差异是比较小的。)。同理,PSI也可以细化衡量特征值的分布差异,评估数据特征层面的稳定性。PSI指标计算公式为 SUM(各分数段的 (实际占比 - 预期占比)* ln(实际占比 / 预期占比) ),介绍可见:指标。其他的方法如 KS检验,KDE (核密度估计)分布图等方法可见参考链接[2]

3.2 异常(新颖)点检测的方法

可以通过训练数据集训练一个模型(如 oneclass-SVM),利用模型判定哪些数据样本的不同于训练集分布(异常概率)。异常检测方法可见:异常检测算法速览

3.3 分类的方法

混合训练数据与测试数据(测试数据可得情况),将训练数据与测试数据分别标注为’1‘和’0‘标签,进行分类,若一个模型,可以以一个较好的精度将训练实例与测试实例区分开,说明训练数据与测试数据的特征值分布有较大差异,存在协变量偏移。

相应的对这个分类模型贡献度比较高的特征,也就是分布偏差比较大的特征。分类较准确的样本(简单样本)也就是分布偏差比较大的样本。

四、如何解决数据不满足同分布4.1 增加数据

增加数据是王道,训练数据只要足够大,什么场面没见过,测试数据的效果自然也可以保证。

如上面的例子,作为一只农场中的科学鸡,如果观察到完整周期、全场景的数据,或者被灌输一些先验知识,就能更为准确预测火鸡的命运。

但是现实情况可能多少比较无奈,可能业务场景的原因限制,并不一定可以搞得到更多数据,诸如联邦学习、数据增强等方法也是同样的思路。

4.2 数据增强

在现实情况没法新增数据的时候,数据增强(Data Augmentation)是一个备选方案,在不实质性的增加数据的情况下,从原始数据加工出更多的表示,提高原数据的数量及质量,以接近于更多数据量产生的价值。

其原理是通过对原始数据融入先验知识,加工出更多数据的表示,有助于模型判别数据中统计噪声,加强本体特征的学习,减少模型过拟合,提升泛化能力。具体可见:数据增强方法

4.3 选择数据

我们可以选择和待预测样本分布比较一致的数据做模型训练,使得在待预测样本的效果变得更好。

这个方法看起来有点投机,这在一些数据波动大的数据竞赛中很经常出现,直接用全量训练样本的结果不一定会好,而我们更改下数据集划分split的随机种子(如暴力for循环遍历一遍各个随机种子的效果),或者 人工选择与线上待预测样本业务类型、 时间相近的样本集用于训练模型(或者 提高这部分样本的学习权重),线上数据的预测效果就提升了。

4.4 半监督学习

半监督学习是介于传统监督学习和无监督学习之间,其思想是通过在模型训练中直接引入无标记样本,以充分捕捉数据整体潜在分布,以改善如传统无监督学习过程盲目性、监督学习在训练样本不足导致的学习效果不佳的问题。

通过半监督学习,训练时候可以充分捕捉数据整体潜在分布,同理也可以缓解预测数据分布有差异的问题。半监督分类常用的做法是,通过业务含义或者模型选择出一些虽然无标签的样本,并打上大概率的某个标签(伪标签)加入到训练数据中,验证待预测样本的效果有没有变好。

经典的如金融信贷领域的拒绝推断方法(参考链接[6]),我们可以从贷款被拒绝的用户中(这部分用户是贷款的时候直接被拒绝了,没有"是否违约"的标签),通过现有信贷违约模型(申请评分卡)预测这部分拒绝用户的违约概率,并把模型认为大概率违约的用户作为坏样本加入到训练样本中,以提升模型的泛化效果。

4.5 特征选择

对于常见的协变量偏移,用特征选择是一个不错的方法。我们可以分析各个特征在分布稳定性(如PSI值)的情况,筛选掉分布差异比较大的特征。需要注意的是,这里适用的是筛掉特征重要性一般且稳定性差的特征。如果重要特征的分布差距也很大,这就难搞了,还是回头搞搞数据或者整整其他的强特征。特征选择方法可见:python特征选择

4.6 均衡学习

均衡学习适用与标签分布差异(先验偏移)导致的数据集偏移。均衡学习的方法可以归结为:通过某种方法,使得不同类别的样本对于模型学习中的Loss(或梯度)贡献是比较均衡的,以消除模型对不同类别的偏向性,学习到更为本质的决策。

比如原反欺诈训练样本中,好坏样本的比例是1000:1,但到了预测,有时实际的好坏样本的比例是10:1。这时如果没有通过均衡学习,直接从训练样本学习到模型,会先天认为欺诈坏样本的概率就是很低的,导致很多欺诈坏样本的漏判。

不均衡的任务中,一方面可以通过代价敏感、采样等方法做均衡学习;另一方面也可以通过合适指标(如AUC),减少非均衡样本的影响去判定模型的效果。具体可见:一文解决样本不均衡(全)

最后,机器学习是一门注重实践的科学,在实践中验证效果,不断探索原理。

仅以此文致敬我们的数据科学鸡啊。


参考链接:

1、理解数据集偏移 https://zhuanlan.zhihu.com/p/449101154

2、训练/测试集分布不一致解法总结

3、训练集和测试集的分布差距太大有好的处理方法吗 https://www.zhihu.com/question/265829982/answer/1770310534

4、训练集与测试集之间的数据偏移(dataset shift or drifting) https://zhuanlan.zhihu.com/p/304018288

5、数据集偏移&领域偏移 Dataset Shift&Domain Shift https://zhuanlan.zhihu.com/p/195704051

6、如何量化样本偏差对信贷风控模型的影响?https://zhuanlan.zhihu.com/p/350616539

-推荐阅读-

深度学习系列

1、一文概览神经网络模型2、一文搞定深度学习建模预测全流程(Python)3、一文弄懂CNN及图像识别(Python)机器学习系列1、一文解决样本不均衡(全)2、一文全览机器学习建模流程(Python代码)3、一文速览机器学习的类别(Python代码)...更多原创文章,请关注个人博客:https://github.com/aialgorithm/Blog关注【算法进阶】领福利回复【课程】:即可免费领取Python、机器学习、AI 等精品课程资料大全回复【加群】:可提问咨询、共享资源...与群内伙伴一起交流,共同进步或扫码,备注“加群”

标签: 机器学习 训练样本 监督学习

天天热文:​机器学习数据不满足同分布,怎么整?

机器学习作为一门科学,不可避免的是,科学本身是基于归纳得到经验总结,必然存在历史经验不适用未来的...

2023北京少年宫寒假短期线上课程怎么报名?

2023年北京少年宫寒假短期线上课程怎么报名?在报名时间(2023年1月2日9:30-20:00)内进行线上报名,报...

日媒:日本新冠疫苗接种相关预算达5.19万亿日元|观速讯

中新网6月6日电据日本共同社6日报道,日本政府资料和采访相关人士称,2020~2021年度,日本新冠疫苗居民...

武汉电动车上牌标准最新规定2023

武汉电动自行车上牌要求一、上牌时间按照《武汉市非机动车管理办法》(政府令308号)规定,电动自行车所有...

全球聚焦:债务纠纷谁先起诉怎么判

欠债人欠的人多,一般情况下是谁先起诉应当先还谁。如果债务人债务很多,不能全部偿还到期债务,起诉在...

模塑科技超九成利润竟为虚增 这类投资者可向公司索赔|环球热闻

(原标题:模塑科技超九成利润竟为虚增这类投资者可向公司索赔)模塑科技(000700)12月27日晚发布公告称...

全球滚动:B货翡翠手镯戴久了会变种吗?这6点很关键

B货翡翠手镯戴久了会变种吗1之前的时候听说过一件非常有趣的事,真的是让人可以笑到肚子疼。有些人非常...

外省进桂林需要报备吗? 每日看点

不需要。【进桂林政策】1、人员出行(1)区外来返桂人员:不再按照风险等级管理,取消返桂来桂人员报备...

2022年11月中国移动游戏市场实际销售收入134.99亿元

北京商报讯。从产品来看,《原神》《光·遇》等产品流水增长,但增量略小于《梦幻西游手游》《火影忍者...

容百科技2022年净利润同比预增45%-54% 观速讯

容百科技2022年净利润同比预增45%-54%北极星储能网获悉,容百科技12月28日发布业绩预告,预计2022年年度...

2023春运北京各站火车票几点开售?|当前速讯

➤2023春运北京各站火车票几点开售?北京西站:08:00起售北京北站:12:00起售北京东站:16:00起售北京南...

遥望科技(002291.SZ)董事长谢如栋累计减持比例达1.997%_全球热点

智通财经APP讯,遥望科技发布公告,公司收到公司持股5%以上股东、董事长谢如栋先生的通知,谢如栋先生因...

湘潭市18家社会评价组织接受首次“体检”|热点评

湘潭市18家社会评价组织接受首次“体检”湖南国防职院获评优秀等次湘潭在线12月24日讯(湘潭日报社全媒...

纬达光电今日北交所上市,专注显示面板关键原材料-动态焦点

(原标题:纬达光电今日北交所上市,专注显示面板关键原材料)证券时报网讯,今日,纬达光电(873001)正...

广东鸿图: 2022年第二次临时股东大会决议公告

证券代码:002101            证券简称:广东鸿图                  公...

环球热讯:新北洋(002376.SZ):拟以5000万元-8000万元回购公司股份

格隆汇12月26日丨新北洋公布,公司拟使用自有资金以集中竞价交易方式,使用不低于人民币5000万元(含)且...

数字人民币APP支持“发红包”!同时上线“专属头像”功能

日前,数字人民币(试点版)APP迎来版本更新,新增了“专属头像”和“个人红包”功能。记者打开最新版的...

全球连线 | 103条雪道!新疆“最美古村落”迎来滑雪季:环球资讯

禾木村位于有“中国雪都”之称的新疆阿勒泰,冬季雪量大、雪期长。禾木吉克普林国际滑雪度假区共有103条...

44岁秦海璐全家出游!背万元包素颜显浮肿,患巨婴症儿子超惹眼_世界简讯

近日,有媒体曝光秦海璐和王新军一家,在游乐场游玩的温馨画面,引发网友关注。当天,秦海璐穿着一件灰...

天天微头条丨中国经济新亮点|国产新能源汽车加速布局海外市场

新华社西安12月23日电 题:国产新能源汽车加速布局海外市场新华社

北京银行: 北京银行股份有限公司与北银消费金融有限公司关联交易事项的公告_环球速看料

证券代码:601169   证券简称:北京银行   公告编号:2022-046              北京...

九州通董秘回复:近期因疫情原因,公司旗下好药师1万多家直营及加盟药店的药品供应量快速增长

九州通(600998)12月23日在投资者关系平台上答复了投资者关心的问题。投资者:目前公司“万店联盟”药品...

中金公司:预计2023年信贷结构相比2022年有所改善

中金公司12月23日研报指出,预计最早2022年12月社融增速可能历史首次下滑至10%以下,2023年全年社融增速...

世界看点:天华超净最新公告:上半年净利润35.12亿元 同比增1023%

天华超净披露半年度报告,公司2022年半年度实现营业收入为77 76亿元,同比增长443 22%;归母净利润35...

全球看热讯:灯塔2022剧集市场观察:优酷剧集正片播放指数领跑

12月21日,灯塔专业版发布《2022剧集市场观察》(下称“灯塔报告”)

广州酒家(603043)12月21日主力资金净卖出641.85万元

焦点!明月镜片(301101.SZ):持股7.44%股东诺伟其拟减持不超2%股份

港股异动 | 凌雄科技(02436)涨超10% 股价再创历史新高 较招股价累涨逾47%-世界观速讯

快e贷贷款逾期17年会上征信系统吗_天天通讯

港股异动 | 山东新华制药(00719)午后再跌超12% 国家药监局称布洛芬等药品原料产能充足

当前看点!中电华大科技(00085.HK)近日发布盈喜,昨日收涨逾9%,今日早盘再涨超4%

泉峰汽车: 南京泉峰汽车精密技术股份有限公司2021年公开发行可转换公司债券第三次临时受托管理事务报告(2022年度)-全球看热讯

首钢股份董秘回复:首钢自大连铁矿石期货上线以来,始终密切关注铁矿石金融衍生品运行情况

客户来了,需求变了!企业调整销售策略 适应新需求 天天视讯

太康一爱心企业向隔离点捐赠3万元生活物资 天天看热讯

世界快看点丨终局之战!阿法对决四大看点——

天天热文:公募消费主题类基金两派斗法,消费升级类产品有望后来居上

环球快看点丨建筑主体工程合同范本

国家发改委:在元旦春节等重要时段加大猪肉储备投放力度

【手慢无】钜惠410元!十亿色彩全面屏小米电视EA70仅售2189元_天天热点

宝馨科技: 关于拟签署项目投资协议暨对外投资设立控股子公司的进展公告:当前播报

峨眉山A(000888)12月15日主力资金净卖出6856.30万元-热点聚焦

苏大维格:12月14日获融资买入2880.17万元,占当日流入资金比例14.79%_全球百事通

舆情追踪|秦皇岛玉芝阳混凝土搅拌有限公司新增严重违法信息

广州四季度454个重大项目进展顺利 总投资额超7700亿元

环球关注:闻泰科技:12月13日融券卖出金额65.52万元,占当日流出金额的0.13%

环球信息:正泰电器:牵头编撰《低压动力配电及控制箱设计导则》团体标准发布

昱能科技董秘回复:公司与enphase相比,优势在于:1、公司目前主力产品采用多体架构路线

泉峰汽车: 关于“泉峰转债”转股价格调整的公告:天天观点

衡水联通排查整治本地网隐患:当前动态

东诚药业(002675.SZ)拟3020万美元收购海外公司打造国内核医药领域平台

【当前热闻】融创密集释放积极信号 境外债重组迎来重大进展

世界热文:中国中免、以岭药业等5股获融资净买入超亿元

恒逸石化(000703):聘任公司副董事长兼任财务总监

重庆:到2025年25个重点领域企业能效全部达到基准水平

重磅!2021“发现重庆之美”获奖名单揭晓

去年重庆回收废弃农膜1.4万吨 农膜回收率达89.31%

申报分两批!今年国家级博士后科研工作站新设站工作启动

浙江鄞州:“水、电、气、数”通办专窗实现城乡公共服务均等化

打开“浙里办” 浙江1000家农贸市场农产品可线上比价

浙江鉴湖国家湿地公园规划发布 打造乡村数字旅游

总投资超10亿元!6个石化装备运维项目在岱山签约

如何避免成为“买而不做”的“装备党”祝 杰

山西临汾:率先在全省建起农村集体经济开发区

一线工作近22年的缉毒警:我知道坏的是毒品不是人性

广东肇庆“毒驾连撞5车致1死”肇事司机被批捕

江西最大文物倒卖案宣判:倒卖国家二级文物 9人获刑

青海保障门源地震后生活必需品应急物资

广西东兴口岸恢复通关 入境需网上预约

呼和浩特:寒假期间有条件的学校要开展校内托管服务

“中国最后一个原始部落”翁丁老寨火灾原因公布

北京市十五届人大五次会议胜利闭幕

天津市委市政府致全市父老乡亲的慰问信:我们一定能够打赢

天津米面油存量由20天提高至30天 超市菜市场进货量翻倍

兰州名师话“美育”:“尚乐立人”分层培优 以“美”润教

x 广告
x 广告

Copyright ©  2015-2022 全球自然网版权所有  备案号:豫ICP备20009784号-11   联系邮箱:85 18 07 48 3@qq.com