【983】大数据实操：社交数据在征信领域的分析应用

发布时间：2020-12-14 01:54:55 所属栏目：大数据来源：网络整理

导读：本文主要内容由社交征信背景、社交网络数据分析、个体用户画像研究、社交圈子研究、模型建设及应用这五部分构成，下面文章将逐一介绍。一、社交征信背景征信不是一个简单的由征信进行评分的模型，而是由数据公司、征信公司、征信使用方三部分组成。数据公

本文主要内容由社交征信背景、社交网络数据分析、个体用户画像研究、社交圈子研究、模型建设及应用这五部分构成，下面文章将逐一介绍。

一、社交征信背景

征信不是一个简单的由征信进行评分的模型，而是由数据公司、征信公司、征信使用方三部分组成。数据公司就是采集或做一些数据的初步挖掘，这类公司可能会有特殊的数据源，例如法院、公安等这些数据都需要深入行业背景才能拿到。征信公司一般有一个产权联系，另外它也会向第三方一些数据公司去购买一些数据回来，丰富其数据的维度，并且基于这些数据去做一些征信的事情，提供一些征信级的解决方案。征信使用方就是征信的解决方案最后给到谁来用。一般来说就是银行和P2P的贷款机构。这三部分综合起来，就形成了一个整体的征信行业的产业链。

?传统征信相关机构

美国著名征信公司

国内征信发展历程

综合以上四图的数据来看，如果社交数据可以用到征信中的话，可以对央行的征信系统做一个很好的补充。社交数据非常庞大，但并不一定都是有效数据，还要看具体应用的业务场景是不是和数据有相关性，这些数据是不是真的能够用到最后的模型或者算法中去。这样问题就接踵而来，社交数据与信用评级有关系吗? 交易数据天然具备金融属性，社交数据有吗? 社交数据非结构化程度高,怎么挖掘并有效使用?

二、社交网络数据分析

先来了解一下传统征信的分析维度。其一是用户的基础信息，如年龄、性别、职业、收入、婚姻状况，工作年限，工作状况等，基本上和每家银行或者每个做征信的机构获得的数据都差不多。其二是信贷情况，看用户申请几张信用卡，最近一个月的征信报告被查询的次数，因为征信报告被查询的次数可以直接代表，最近有没有比较频繁地做贷款的申请或者信用卡申请。如果最近的次数特别多，那说明这个人最近非常缺钱，可能就会影响信用，直接影响授信额度。

上图是某社交网络的数据现状，包含了很多维度的数据，覆盖的用户数相对来说更加全面一些。

某社交网络社交征信SWOT分析

上图为某社交网络社交征信SWOT分析，优势、劣势、机会、风险一目了然。有了这样详细的分析，做个人征信是必然的事情，但做征信之前要清楚的知道征信对象是什么样子，所以开始着手做个体用户画像的研究。

三、个体用户画像研究

做个体用户画像研究遇到的挑战主要有如下三方面：其一，如何充分利用社交网络各种丰富的数据资源及之间的联系？其二，如何使用户画像适应各种不同的应用场景？其三，如何高效的处理海量的用户数据？相应的解决方案如下：

1.针对不同的底层数据类型设计特定的挖掘算法，挖掘用户的行为特征，形成底层标签。综合考虑不同数据来源的，形成更上层的抽象用户标签。

2.建立完善的用户画像标签体系结构，从不同维度、粒度对用户进行描述。

3.搭建用户画像挖掘系统,基于大规模存储和机器学习计算平台，定期对全量用户数据进行计算和挖掘，并提供用户标签的使用和查询服务。

用户画像系统架构

用户画像文本挖掘系统

用户画像行业挖掘

用户画像挖掘结果

个人用户画像研究的结果就是把结构化数据，文本分类，LBS数据，社交网络传播扩散这些挖掘之后形成一个比较完整的画像，比如说人口的一些基础属性如年龄、家乡、兴趣等。同时也会对用户婚姻状况来做一个判断。有了这些数据之后，就可以基于这些用户数据去做很多社交征信工作。

四、社交圈子研究

把非常有影响力社交网络的成果进行具体应用，就是把挖掘出来的结果作用到整个前端的社交网络用户。具体案例就是如用户的某个同事，他们并不是直接的好友关系，但社交网络软件会知道这期间的潜在关系，或自动分到同事分组并同时加上备注。

社交网络圈子可以做到除了它自己本身之外，也会把它作用到很多场其他景里去，比如说用它来挖掘学历的信息，基于圈子好友的备注，如说很多人把这个用户备注成一个本科同学，那系统可能会判断其学历是本科学历。数据覆盖率大概能覆盖74%，准确到90%以上。

社交网络拓扑的应用

社交网络拓扑的应用无外乎有两种，其一是是判断拓扑的类型，其二是研究这些类型在这个关系链里的影响力。比较有标志性的拓扑类型有三角形和心型两种结构。

五、模型建设及应用

那么要如何把个体用户画像和社交圈子的研究，用到模型中去呢？首先要做的事情就是先建立一个社交模型，但在建模之前要做一些基本假设，如两个社交网络号码是属于同一个人的话有一些比较明显的特征，第一个他会经常在同一个设备里面登陆，或者在同样的IP里面登陆，或者它有其他特征的表现等等。最后把这些特征用来建立模型，去判断说某几个社交网号码背后对应的到底是不是同样一个人，这个的准确率大概是85%，覆盖率是75%左右。

变量衍生与模型结果

模型整体效果

某互联网金融软件的社交征信应用

征信模型运用到这个互联网金融软件中的具体应用流程，如上面产品截图所示。打开社交软件如果能够看到这个互联网金融软件入口，说明是在社交网络后台筛选出的白名单里面。只要用户点击了申请开通，它会马上算一个额度出来，如果用户要借款，可以快速绑定绑定用户银行卡，系统会在几分钟之内会把用户的借款打到账上。其实这个相对于去传统银行借款的话，效率有了一个质的飞跃。但其前台产品表现得越简单，它背后的技术可能是越复杂的技术。征信模型的背后技术就是为了筛选具有良好信用的用户，为这些用户提供贷款服务。

作者：刘黎春

文章来源：大数据文摘

<<<--------------------->>>
B2B2C电子商务与技术及企业管理！
以专业和分享为理念，关注电商、大数据、云计算、技术管理和企业管理！
致力于成为电商与管理领域的观察者、思考者和创新者。

◆交流思想，分享自由→订阅
推荐搜索微信号：CloudCommerce
查找公众账号：电商与管理

◆手机微信扫描二维码订阅

（编辑：李大同）

【声明】本站内容均来自网络，其相关言论仅代表作者个人观点，不代表本站立场。若无意侵犯到您的权利，请及时与联系站长删除相关内容!