liuyuqi-dellpc b03127bc79 修改 README.md | 7 years ago | |
---|---|---|
src | 7 years ago | |
.gitignore | 7 years ago | |
LICENSE | 7 years ago | |
README.md | 7 years ago |
好信杯相关技术文档,迁移学习非常重要的技术文档。
科赛平台:前海征信“好信杯”大数据算法大赛
采用迁移学习的基本思想解决赛题,具体的赛题为: 依据给定的4万条业务A数据及4千条业务B数据,建立业务B的信用评分模型。其中业务A为信用贷款, 其特征就是债务人无需提供抵押品,仅凭自己的信誉就能取得贷款,并以借款人信用程度作为还款保证的;业务B为现金贷,即发薪日贷款(payday loan),与一般的消费金融产品相比,现金贷主要具有以下五个特点:额度小、周期短、无抵押、流程快、利率高,这也是与其借贷门槛低的特征相适应的。由于业务A、B存在关联性,选手如何将业务A的知识迁移到业务B,以此增强业务B的信用评分模型,是本次比赛的重点。
建模过程相对简单,细化可以分为两步:① 把目标域训练得到的模型作为主模型1,②将在源域上训练得到的模型迁移到目标域并利用目标域数据进行fine-tune得到的模型作为主模型2,③最后利用合理的加权方式得到最终结果,合理的考虑了迁移模型与目标域模型的关系。
①业务AB两大数据用户id的理解误差,浪费了很多时间,后来发现相同id并非同一用户; ②最后一天被各位厉害的选手刷榜,哈哈,心累。
最大亮点就是简单实用,通过目标域数据对源数据模型的fine-tune的来做迁移,算法部分 由XGBoost和简单的bagging构成,构建两大主模型的关系的方式也很易懂。
链接: https://pan.baidu.com/s/1jHIwb1G 密码: wbaf
下载数据:前海征信数据 4-14 .zip到data目录 新建:output,data目录