【算法业务】互联网风控业务中的拒绝推断场景算法应用分享(涉及半监督算法、异常检测、变分自编码、样本权重自适应调整、迁移学习等)

1. 业务目标和任务描述 

        该项目是很早期的一个工作,属于互联网信贷风控场景,研究并应用信贷中的拒绝推断任务,处理方式也许对于目前的一些业务还有参考意义,因此这里做下分享。拒绝推断是指在信贷业务中,利用已知的接受客户(即通过信贷审批的客户)的信息来推断被拒绝客户(未通过信贷审批的客户)的表现,以更准确地评估信贷风险和建立更有效的信用评估模型。

        因此业务的总目标是构建有效的用户评分模型,评估贷款申请者是否有能力如期偿还贷款。具体要做的事情是从已建立的审批体系中拒绝的用户中捞回好用户,更好的管理资产,打标资产。

        任务的初始想法:我们往往只能观察到部分用户的贷后行为,无法获取被拒绝的申请者的贷后表现。仅使用部分有贷后的数据,为估计总体而建立的评分模型存在参数估计的偏差,导致好的用户被拒绝,造成损失。也就是我们通常说的二八,20%用户被通过,80%的用户被拒绝,这80%中可能蕴含着数量可观的好用户。在我们当前的场景下,通过的用户比例更少,平均只有5%左右,95%都被拒绝了。因此造成了很大的资源浪费。

        基于该思路,再来分析下为什么需要拒绝推断?

首先是样本完整性

  • 在实际信贷业务中,通常只有接受客户的完整数据,包括他们的信用特征和还款表现等。而被拒绝客户只有申请时的部分信息,没有后续的还款表现数据。
  • 拒绝推断可以弥补被拒绝客户数据的缺失,使样本更具完整性,从而提高信用评估模型的准确性和可靠性。

其次是风险评估准确性

  • 仅基于接受客户的数据建立的信用评估模型可能存在偏差,因为它没有考虑到被拒绝客户的潜在风险。
  • 通过拒绝推断,可以将被拒绝客户的特征纳入分析,更全面地了解不同风险水平的客户群体,从而提高风险评估的准确性。

2. 任务执行描述

2.1 核心问题

         为了能够有效捞回被拒绝的用户,我们需要解决解决两个核心问题:

(1)如何利用被拒绝的用户样本信息,使得能够对总体数据建立较完备的模型。                  (2)如何加强模型对坏用户的识别能力。

        下图展示了当数据不够完备的情况下,对于模型估计的偏差影响:

        可以看出,当有足够更丰富的数据来描述数据分布P(x)时,我们可以获得更加可靠的模型对于真是数据的分布估计。

2.2 样本特征数据及筛选

  • 用户基础信息(年龄、学历、身份证所属身份等)
  • 信用卡/消费信息(持卡、信用卡账单、线下消费分期等)
  • 通讯录及通信行为(手机号归属城市、通讯录亲属信息、注册时长、近期呼入呼出行为及时长等)
  • Applist信息(高危app安装、母婴等各类型app安装情况、APP风险分类情况等)
  • 设备指纹(设备号相关风险信息、手机型号、设备GPS信息等)
  • 申请行为风险(总拒绝次数、同邮箱/号码等关联多idno、短期频繁申请行为、申请时段信息等)
  • 案件平台信息(基于关系网络的黑名单、设备共用、几度邻居的逾期情况等)
  • 三方分(反欺诈、多头、借款逾期信息、征信、电商等)

采用IV筛选

        其中,pyi是这个组中响应客户(风险模型中,对应的是违约客户,总之,指的是模型中预测变量取值为“是”或者说1的个体)占所有样本中所有响应客户的比例,pni是这个组中未响应客户占样本中所有未响应客户的比例,#yi是这个组中响应客户的数量,#ni是这个组中未响应客户的数量,#yT是样本中所有响应客户的数量,#nT是样本中所有未响应客户的数量。 从这个公式中我们可以体会到,WOE表示的实际上是“当前分组中响应客户占所有响应客户的比例”和“当前分组中没有响应的客户占所有没有响应的客户的比例”的差异。

采用随机森林筛选

        看每个特征在随机森林中的每棵树上做了多大的贡献,然后取平均值,最后比较不同特征之间的贡献大小。贡献度的衡量指标包括:基尼指数(gini)、袋外数据(OOB)错误率作为评价指标来衡量。

2.3 模型处理流程

2.3.1 初筛模型

        存在大量被拒绝的用户,“拒绝(未知贷后表现)的用户”是“有贷后表现用户”的约20倍 模型特征可以全量调取,自有+包年特征 目标:在捞回更多好用户的同时,拒绝一部分逾期风险大的用户。

         初筛模型选择以及相应的算法分析讨论:

         1. 模型主体采用 半监督架构

         2. 将无监督与监督模型有机结合形成半监督框架

             模型讨论:

                (1)变分自编码(VAE)

                (2)标签传播(LP)

                (3)异常检测(OD)

          3. 监督模型             

                (1)Stacking(GBDT&LR)

                (2)自适应提升模型(AdaXgboost)

2.3.1.1 半监督学习(SSL)

        半监督学习有两个样本集,一个有标记,一个没有标记.分别记作 Lable={(xi,yi)},Unlabled={(xi)}.并且数量上,L<<U. 1.单独使用有标记样本,我们能够生成有监督分类算法。 2.单独使用无标记样本,我们能够生成无监督聚类算法。 3.两者都使用,在1中加入无标记样本,增强有监督分类的效果;同样的,在2中加入有标记样本,增强无监督聚类的效果。   在我们的实践中,半监督分类学习侧重于在有监督的分类算法中加入无标记样本/信息来实现半监督分类。也就是在无类标签的样例的帮助下训练有类标签的样本,获得比只用有类标签的样本训练得到的分类器性能更优的分类器,弥补有类标签的样本不足的缺陷,其中类标签yi取有限离散值yi∈{c1,c2,···,cc},cj∈N。

        SSL的成立依赖于模型假设,当模型假设正确时,无类标签的样例能够帮助改进学习性能。SSL依赖的两种主要假设:

(1)聚类假设(Cluster Assumption) 当两个样例位于同一聚类簇时,它们在很大的概率下有相同的类标签.这个假设的等价定义为低密度分离假设(Low Sensity Separation Assumption),即分类 决策边界应该穿过稀疏数据区域,而避免将稠密数 据区域的样例分到决策边界两侧.平滑假设有点类似聚类假设,位于稠密数据区域的两个距离很近的样例的类标签相似。

(2)流形假设(Manifold Assumption) 将高维数据嵌入到低维流形中,当两个样例位于低维流形中的一个小局部邻域内时,它们具有相似的类标签。许多实验研究表明当SSL不满足这些假设或模型假设不正确时,无类标签的样例不仅不能对学习性能起到改进作用,反而会恶化学习性能,导致 SSL的性能下降。.

2.3.1.2 流形假设(变分自编码)

        变分自编码器(VAEs)是学习低维数据表示的强大模型,将高维的数据映射到低维, 使该低维的数据能够反映原高维数据的某些本质结构特征。关于VAE的算法原理可以参考我们之前的文章《生成式模型与判别式模型对比(涉及VAE、CRF的数学原理详述)》。

2.3.1.3 标签扩散模型(本场景下某种程度上的聚类假设)

        标签扩散模型基于图的结构,将已知标签信息从已标记的节点传播到未标记的节点。其核心思想是利用节点之间的相似性或连接关系,通过扩散的方式推断未标记节点的标签。在一个图中,节点代表数据对象,边表示节点之间的关系。如果两个节点之间存在较强的连接或相似性,那么它们更有可能具有相同的标签。标签扩散模型通过在图上进行迭代传播,逐渐将标签信息从已标记的节点传播到未标记的节点,直到达到一定的收敛条件。在仅有部分数据有标签的情况下,标签扩散模型可以利用已标记数据的信息来推断未标记数据的标签,从而提高学习效果。

        从某种角度看,标签扩散过程中,如果节点之间的连接紧密且具有相似的标签传播趋势,可能会在一定程度上形成类似聚类的效果。即具有相似标签的节点在传播过程中会逐渐聚集在一起。事实上,基于共同特征、向量相似度等都可以建立图结构。

2.3.1.4  异常检测(结构信息)

异常检测方法介绍【1】

KNN 异常检测

        原理:认为异常点距离正常点比较远,通过计算每个数据点的 K 近邻距离(或平均距离),与阈值比较或取距离排序前 n 个最大的作为异常点,计算距离一般使用欧式距离或角度距离。

HBOS(基于直方图的异常检测)

        过程类似朴素贝叶斯模型,假设特征相互独立,对每个特征作直方图,连乘样例特征在各个直方图中的频率得到生成概率。优点:速度快,适合大数据情形。缺点:特征相互独立条件强,现实中可能不符合,不适合异常数据过多的情形。

LOF(局部异常因子)

        首先找出每个数据点的 K 个近邻,然后计算 LOF 得分,得分越高越可能是异常点。LOF 是一个比值,分子是 K 个近邻的平均局部可达密度,分母是该数据点的局部可达密度。可达密度中,分子是 K - 近邻的个数,分母是 K - 近邻可达距离之和。A 到 B 的可达距离定义为 A 和 B 的真实距离与 B 的 k - 近邻距离的最大值。

OneClassSvm

        当训练数据只有一类 positive(或 negative)时,需要学习训练数据的边界。假设最好的边界要远离特征空间中的原点,目标转换到特征空间就是找一个离原点比较远的边界。

iForest(孤立森林)

        适用于异常点较少的情况,采用构造多个决策树的方式进行异常检测。对数据集有放回抽样,构建二叉树时随机选取一个特征和分割点,将数据分类,直至达到一定深度或叶子节点只包含一个数据点。数据点在多个二叉树上的平均深度越浅越可能是异常值。只适合检测全局异常点,不适合检测局部异常点。

2.3.1.5  监督模型结合无监督信息(半监督学习架构)
1. 第一种模型结构

Variational autoencoder + Gradient boosting machine + Logistic regression + Class weight

        模型优势互补: LR属于线性模型,易处理离散特征,容易并行化,可以轻松处理上亿条数据,但是学习能力十分有限,需要大量的特征工程来增加模型的学习能力。GBDT也是一种经常用来发现特征组合的有效思路。将训练完GBDT的叶子节点对应为LR的每一维特征,由于GBDT从根节点到叶子节点的路径,每个分割节点都是选择使得平方损失误差达到最小的节点和分割点,所以该条路径上特征的组合具有一定的区分性。

2. 第二种模型结构

基于Anomaly detection family模型结构【2】: k-NearestNeighbor , Local Outlier Factor ,Histogram-based Outlier Detection,One class svm ,Isolated forest

3. 第三种模型结构

 Adaboost思想结合xgboost、ks在场景中的应用

2.3.1.6  模型应用结论

        第三种模型结构结合VAE+OD信息,获得的KS最高,线上应用最佳。

2.3.2 审批模型

        拒绝的用户与有贷后表现的用户比例差不多1:1。 模型特征加入了部分按条收费的第三方数据。 目标:尽可能识别出逾期风险大的用户进行排除,特别强调对坏人的识别能力。

        审批模型有几种处理方式:

        第一种采用多分类:

        第二种采用多模型融合思路:

        第三种:面向top3 level bad rate & rank order优化的AdaXgboost,能够基于错分的数据进行采样权重的动态调整。

        第四种:采用TrAdaBoost(Transfer AdaBoost)【3】迁移学习思路。TrAdaBoost 的基本思想是利用已有的源域数据和少量的目标域数据进行学习,从而提升目标域任务的性能。它通过调整源域样本的权重,使得那些对目标域任务更有帮助的源域样本在后续的学习中起到更大的作用。在每一轮迭代中,TrAdaBoost 会根据当前分类器在目标域数据上的错误率来调整源域和目标域样本的权重。如果一个源域样本被错误分类,那么它的权重会降低;如果一个目标域样本被错误分类,那么它的权重会增加。

3. 参考材料

【1】Anomaly detection and three most used algorithms

【2】XGBOD: Improving Supervised Outlier Detection with Unsupervised Representation Learning

【3】Boosting for Transfer Learning

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.xdnf.cn/news/1542432.html

如若内容造成侵权/违法违规/事实不符,请联系一条长河网进行投诉反馈,一经查实,立即删除!

相关文章

《2024 年全球人工智能趋势报告》:GPU、数据架构依然是巨大挑战

导语&#xff1a;对于众多行业用户而言&#xff0c;了解人工智能如何改变行业、如何利用人工智能保持领先地位&#xff0c;已成为一道时代的必答题。全球著名调研机构WEKA近日正式发布《2024 年全球人工智能趋势报告》&#xff0c;该报告基于全球1500名人工智能决策者的深度调查…

【项目】基于 Huffman 算法实现文件压缩

摘要&#xff1a;记录通过学习Huffman算法自主实现简单的文件压缩程序的过程。 什么是文件压缩 在古诗词中&#xff0c;这种信息的高度浓缩体现得淋漓尽致。例如王维的《使至塞上》中的名句 “ 大漠孤烟直&#xff0c;长河落日圆 ”。仅仅十个字&#xff0c;却描绘出了一幅极为…

MoveIt控制机械臂的运动实现——机器人抓取系统基础系列(二)

文章目录 概要1 用户接口和代码案例2 不同的规划类型2.1 关节空间规划2.2 工作空间规划2.3 笛卡尔空间规划 3 MoveIt运行实操4 相关资料推荐小结 概要 MoveIt为开发者提供了针对机械臂的集成化开发平台&#xff0c;由一系列操作相关的功能包组成&#xff0c;包括运动规划、操作…

从 Affine Particle-In-Cell (APIC) 到 Material Point Method (MPM 物质点法)

APIC与MPM Particle-In-Cell (PIC)Affine Particle-In-Cell (APIC)Material Point Method (MPM)关于边界投影等额外操作 Material Point Method (MPM 物质点法)是一种混合欧拉-拉格朗日视角物理仿真方法。 欧拉视角即网格视角&#xff0c;将空间划分为网格&#xff0c;通过表示…

从一到无穷大 #35 Velox Parquet Reader 能力边界

本作品采用知识共享署名-非商业性使用-相同方式共享 4.0 国际许可协议进行许可。 本作品 (李兆龙 博文, 由 李兆龙 创作)&#xff0c;由 李兆龙 确认&#xff0c;转载请注明版权。 文章目录 引言源码分析功能描述功能展望 引言 InfluxDB IOX这样完全不使用索引&#xff0c;只…

JavaEE: 深入探索TCP网络编程的奇妙世界(四)

文章目录 TCP核心机制TCP核心机制四: 滑动窗口为啥要使用滑动窗口?滑动窗口介绍滑动窗口出现丢包咋办? TCP核心机制五: 流量控制 TCP核心机制 书接上文~ TCP核心机制四: 滑动窗口 为啥要使用滑动窗口? 之前我们讨论了确认应答策略,对每一个发送的数据段,都要给一个ACK确…

centos7下openssh升级方法(编译安装)

注意&#xff1a; 首先打开两个或以上的shell连接&#xff0c;因为在升级过程中如果升级失败会导致不发新建shell连接&#xff1b;升级后使用xshell6,7连接&#xff0c;openssh版本对应修改&#xff0c;下载地址&#xff1a; https://cdn.openbsd.org/pub/OpenBSD/OpenSSH/por…

Servlet day2(概念理解)

Servlet体系结构 Servlet相关配置 HTTP协议内容

leetcode746. 使用最小花费爬楼梯,动态规划

leetcode746. 使用最小花费爬楼梯 给你一个整数数组 cost &#xff0c;其中 cost[i] 是从楼梯第 i 个台阶向上爬需要支付的费用。一旦你支付此费用&#xff0c;即可选择向上爬一个或者两个台阶。 你可以选择从下标为 0 或下标为 1 的台阶开始爬楼梯。 请你计算并返回达到楼梯顶…

计算机毕业设计 基于SpringBoot的小区运动中心预约管理系统的设计与实现 Java实战项目 附源码+文档+视频讲解

博主介绍&#xff1a;✌从事软件开发10年之余&#xff0c;专注于Java技术领域、Python人工智能及数据挖掘、小程序项目开发和Android项目开发等。CSDN、掘金、华为云、InfoQ、阿里云等平台优质作者✌ &#x1f345;文末获取源码联系&#x1f345; &#x1f447;&#x1f3fb; 精…

Java笔试面试题AI答之设计模式(4)

文章目录 16. 简述什么是观察者模式&#xff1f;基本概念主要特点实现方式应用场景优缺点 17. 请列举观察者模式应用场景 &#xff1f;18. 请用Java代码实现观察者模式的案例 &#xff1f;19. 什么是装饰模式&#xff1f;定义与特点结构与角色工作原理优点应用场景示例 20. 请用…

基于大数据的电子产品需求数据分析系统的设计与实现(Python Vue Flask Mysql)

&#x1f497;博主介绍&#x1f497;&#xff1a;✌在职Java研发工程师、专注于程序设计、源码分享、技术交流、专注于Java技术领域和毕业设计✌ 温馨提示&#xff1a;文末有 CSDN 平台官方提供的老师 Wechat / QQ 名片 :) Java精品实战案例《700套》 2025最新毕业设计选题推荐…

【GlobalMapper精品教程】088:按点线面空间位置选择案例

按点线面空间位置选择的原则为:点线面的排列组合。 文章目录 一、选择线要素附近的点二、选择相交或触碰所选线的区和线三、选择包含点的区要素四、选择选定区域内的点要素一、选择线要素附近的点 启动该工具之前,首先要选择线,例如,选择某一段铁路5km范围之内的县城驻地。…

DeepSeek 2.5本地部署的实战教程

大家好,我是herosunly。985院校硕士毕业,现担任算法研究员一职,热衷于大模型算法的研究与应用。曾担任百度千帆大模型比赛、BPAA算法大赛评委,编写微软OpenAI考试认证指导手册。曾获得阿里云天池比赛第一名,CCF比赛第二名,科大讯飞比赛第三名。授权多项发明专利。对机器学…

[Meachines] [Medium] Sniper RFI包含远程SMB+ powershell用户横向+CHM武器化权限提升

信息收集 IP AddressOpening Ports10.10.10.151TCP:80,135,139,445,49667 $ nmap -p- 10.10.10.151 --min-rate 1000 -sC -sV -Pn PORT STATE SERVICE VERSION 80/tcp open http Microsoft IIS httpd 10.0 |_http-server-header: Microsoft-IIS/10.…

三阶魔方还原法 勾上回下 上右左左右

三阶魔方还原法&#xff1a; 1小白花 &#xff08;转3换1&#xff09; 2白十字架 (侧与中心同色 下下) 3第一层 &#xff08;找位置角块放顶点 勾上回下&#xff09; 4 第二层 &#xff08;颜色边 勾上回下 再单白边 勾上回下&#xff09; 5 黄十字架 &#xff08;无黄边 压 勾…

0.设计模式总览——设计模式入门系列

在现代软件开发中&#xff0c;设计模式为我们提供了优秀的解决方案&#xff0c;帮助我们更好地组织代码和架构。本系列专栏将对设计模式的基本思想、原则&#xff0c;以及常用的分类、实现方式&#xff0c;案例对比、以及使用建议&#xff0c;旨在提高开发者对设计模式的理解和…

【算法】BFS系列之 拓扑排序

【ps】本篇有 3 道 leetcode OJ。 目录 一、算法简介 二、相关例题 1&#xff09;课程表 .1- 题目解析 .2- 代码编写 2&#xff09;课程表 II .1- 题目解析 .2- 代码编写 3&#xff09;火星词典 .1- 题目解析 .2- 代码编写 一、算法简介 【补】图的基本概念 &#…

HTML翻牌器:用CSS和HTML元素创造动态数字展示

HTML翻牌器&#xff1a;用CSS和HTML元素创造动态数字展示 前言 翻牌器是一种数字动态展示形式&#xff0c;在生活中常见的例如翻牌计分、翻牌时钟等。 之所以以翻牌的形式是因为其物理设计的原因使其只能滚动翻牌展示数字&#xff0c;在电子显示设备不普及时&#xff0c;使用…

Leetcode - 139双周赛

目录 一&#xff0c;3285. 找到稳定山的下标 二&#xff0c;3286. 穿越网格图的安全路径 三&#xff0c;3287. 求出数组中最大序列值 四&#xff0c;3288. 最长上升路径的长度 一&#xff0c;3285. 找到稳定山的下标 本题就是找[0&#xff0c; n-2]中&#xff0c;height[i]…