好信杯相关技术文档,迁移学习非常重要的技术文档。

liuyuqi-dellpc b03127bc79 修改 README.md 7 years ago
src eb5896528d * 删除data数据。 7 years ago
.gitignore eb5896528d * 删除data数据。 7 years ago
LICENSE eb5896528d * 删除data数据。 7 years ago
README.md b03127bc79 修改 README.md 7 years ago

README.md

haoxin

好信杯相关技术文档,迁移学习非常重要的技术文档。

赛题来源

科赛平台:前海征信“好信杯”大数据算法大赛

作品介绍

采用迁移学习的基本思想解决赛题,具体的赛题为: 依据给定的4万条业务A数据及4千条业务B数据,建立业务B的信用评分模型。其中业务A为信用贷款, 其特征就是债务人无需提供抵押品,仅凭自己的信誉就能取得贷款,并以借款人信用程度作为还款保证的;业务B为现金贷,即发薪日贷款(payday loan),与一般的消费金融产品相比,现金贷主要具有以下五个特点:额度小、周期短、无抵押、流程快、利率高,这也是与其借贷门槛低的特征相适应的。由于业务A、B存在关联性,选手如何将业务A的知识迁移到业务B,以此增强业务B的信用评分模型,是本次比赛的重点。

数学建模

建模过程相对简单,细化可以分为两步:① 把目标域训练得到的模型作为主模型1,②将在源域上训练得到的模型迁移到目标域并利用目标域数据进行fine-tune得到的模型作为主模型2,③最后利用合理的加权方式得到最终结果,合理的考虑了迁移模型与目标域模型的关系。

遇到的挑战

①业务AB两大数据用户id的理解误差,浪费了很多时间,后来发现相同id并非同一用户; ②最后一天被各位厉害的选手刷榜,哈哈,心累。

作品亮点

最大亮点就是简单实用,通过目标域数据对源数据模型的fine-tune的来做迁移,算法部分 由XGBoost和简单的bagging构成,构建两大主模型的关系的方式也很易懂。

获得的经验

  1. 实用的特征工程小技巧(方差,均值等实用的老套路);
  2. 采用弱分类器获取源域和目标域数据之间相似的数据,然后合并这些数据训练model的实用方法(来自dandange);
  3. 赛方分享的集成技巧;
  4. 比赛切记要看论坛的消息!

迁移学习相关技术文档与代码:

链接: https://pan.baidu.com/s/1jHIwb1G 密码: wbaf

下载数据:前海征信数据 4-14 .zip到data目录 新建:output,data目录