分享嘉宾:李家琛 哔哩哔哩 风控负责人
编辑整理:尹鹏庆 杭州师范大学
出品平台:DataFunTalk
导读:随着互联网时代的到来,互联网行业内业务模式在不断创新的同时也遭遇到了前所未有的挑战。互联网世界的信息实时传递,用户可以随时随地访问各种业务系统,给人们的日常生活带来极大便利的同时,也带来了一系列如虚拟机、虚拟手机号、信息泄露等防不胜防的风险和安全隐患。基于这种情况,如何实现更加精准高效的风控将成为互联网行业内亟待解决的重要问题。今天的分享将以B站为主要案例,具体讲述互联网行业内全场景联防联控的相关措施。
-
今天的介绍会围绕下面四点展开:
-
互联网风控概述
-
精准感知流量
-
全场景联防联控
-
总结
首先从宏观上介绍风控。
1. 风控的分类
风控(Risk Control)一般被划分为互联网和金融两个领域。在互联网领域内又可以继续细分为反作弊反欺诈和内容安全两个子类。
-
反作弊:增长反作弊(账号被盗、拉新困难)、电商反作弊(电商优惠)
-
反欺诈:支付风控(盗卡风险、支付风险)
-
内容安全:按类别可以分为文字安全、图片安全、视频安全,按标签可分为涉黄、涉政等
风控在金融领域内可以继续细分为反欺诈、评分卡。
-
欺诈:有些不法分子去农村搜集一些身份证信息,然后利用这些身份证直接去批量贷款,形成欺诈
-
评分卡:结合银行的征信、第三方数据、用户行为数据(还贷的表现)来决定是b卡还是c卡进行催收,以及之后的借贷循环额度和贷款期限。
2. 互联网风控的全场景作弊类型
具体到互联网风控,存在着上图中的一些风险场景。例如,从应用市场下载APP开始就存在作弊行为,我们可能在不同应用市场有一些营销投入,有设备下载安装会付一些钱,有些应用市场就可能买一些虚假的量来下载激活。活动方面,比如裂变拉新,希望通过一些资金奖励去拉取更多的真实用户,这时就有黑产来薅羊毛,骗取奖励。流量方面,粉丝、播放量和点赞量对up主非常重要,因此就存在刷粉刷赞等行为。
3. 风控的对手
在了解了风控的类型之后,需要认识进行风控时会遇到的对手——黑产。黑产在日常生活中比较常见,它们一般拥有社工库(第三方泄露的账号密码)、代理IP池这种基础资源,以及模拟器、自动化软件这种比较专业的技术工具。
-
真人薅羊毛:拿众包形式来举例,比如某用户在任务平台上发起一单,只要另外一人完成任务,就把5块钱分2块5给你,就是一种真人薅羊毛行为。
-
绑银行卡:通过绑定一些银行卡,然后把钱提到银行卡当中。
-
流量:有些活动需要刷排行榜或者刷点赞,由于没有直接的利益,黑产需要间接转化一下,制造它自己是大V的假象,借助自己的虚假声誉进行利益转化。在流量这个领域,黑产们通常会提前权衡好不同活动用到的手机设备的成本再实施活动。
4. 虚假设备
02
精准感知流量
1. 你的业务对黑产的价值
首先要了解自己业务对黑产的价值,黑产往往会找利益高的活动薅羊毛。例如我们的裂变活动,拉一个用户给5-10元的奖励,利益是比较高的。流量部分,没有直接的利益,只有间接的利益,比如刷投票或排行榜,使自己变成大v,再形成声誉的转换,因此利益较低。
2. 数据化感知黑产
上图是一个如何感知黑产的示例。如左图所示,每日人数在2000左右,但在第五天,人数突破5000,如果没有做特别的宣推,那么就存在被攻击的可能。再把这一天的流量拆到小时,如右图所示,在10-14点间发生了突变,和其它日期的潮汐效应对比,就可以感知到存在黑产攻击。
再进一步,如果每天流量都是2000左右,就一定不存在攻击吗?答案是不一定。我们会再将数据拆成KL散度,如城市、品牌等。例如小米品牌每天的数量是200左右,某天突然涨到300,那么就要考虑是否存在风险。除此以外,还有均值检测,对一些低版本比如安卓7以下版本的比例趋势变化进行监测,如果在某天或某个小时,发生了突变,则可能存在风险。
3. 黑产团伙流向
监测黑产团伙流向,首先要登录疑似人群,建立一个群组;第二步,分析这个群组后续行为,看它的分支流向,提升信息厚度;最后选择合适的位置进行拦截,比如在微信时放过,而在提现时拦截。
4. 自动化异常流向挖掘
我们要对不同场景建立不同的API的漏过监测。对漏过部分自动挖掘流量流向,和近七日同比,去3倍定位到异常流向。
03
全场景联防联控
1. 分层级识别对抗黑灰产
首先是感知风险,通过情报搜集、指标监控、异常检测等手段来感知风险。
第二是识别风险,可以通过策略算法召回。
第三步处置风险,包括实施拦截、用户封禁、提现拦截等等。
感知方面,我们有很多手段对自有数据进行监测。比如一个师傅拉了100个徒弟,后期都没有继续消费,ROI很低,那么师傅可能就存在问题。我们可能要去看他支付宝绑定的特征,是否是批量绑定。我们还会去电商看是否出现低价会员售卖等。如此形成全方位的漏过监测。
外部数据也非常重要,我们会有提现检测、IP检测、第三方的舆情监测等。
2. 单场景和跨场景识别
单场景指的是在单一活动中形成一套策略体系,识别风险。
B站的场景非常多,有一些场景很相似,有些则互相影响,需要进行联防联控。比如相似的一些场景,可以共用一套策略。又如,风控领域内会有一种团伙流窜的行为,先盗取国外的卡去支付,支付完了,再打赏给up主,这样形成团伙的流窜行为,进行盗刷的一个黑色链条。
上图是一个跨场景的例子,先注册、登录,打开设备,参加很多活动,再批量绑定、提现。我们要充分利用跨场景数据,比如注册时间一样的一群人,同时来参加活动,又同时发起提现。又如活动1的黑名单可以在活动2 中使用。
交叉验证是我们经常用到的一个策略。例如Mate30不可能用到安卓7.0.0版本。又如一个手机如果正在充电,那电量就不应该是100%。这样将特征两两组合,就可以判断设备的真实性。
我们把所有特征分为三类:
A类-中高熵特征,重复概率很低,如用户ID、IP等;
B类-枚举值特征或数字特征,如城市;
C类-数字特征,如安卓低版本的比例。
我们进行特征组合,会计算A类特征下B类特征分布的标准差,如果趋近于0,则认为是同一类人。还会计算A类特征下,C类特征均值,比如一个IP下安卓版本都比较低,那么这群人就比较可疑。
3. 处置风险
下面来看一下处置风险的方式。
我们会通过极验-旋转图片到正确角度,短信认证,让用户答几道题,绑定身份证才能参与活动等柔性的处理方法,让用户感知不到自己被进行风控操作了。
普通的打击可能是不允许登录,或者取消奖励,提现失败。而延迟打击,则是在登录时把用户加入黑名单,此时用户不知道自己被风控了,当用户想提现1块钱时也允许他提,但是想提现5块钱时,就不允许提了,这样就抬高了黑产的成本,而我们又能实现全链路的风险控制。
4. 冷启动
对于冷启动业务,为了控制风险,要有一些具体的业务规则来约束。
04
本次分享首先带领大家认识了一下风控的相关概念,以及风控对象-黑产的基础知识,比如黑产的专业化工具以及具体案例等,对整个风控领域的上下游链路都有了一定的了解。然后讲到了在真实的业务场景当中怎么根据一些指标和统计趋势来感知风险,监测流量的异常情况,当然还有一些第三方的情报也是很重要的。
关于场景的联防联控,我们要用警察抓小偷的视角来进行观察,就是单场景防控,类似于我们需要在一个街道里去抓小偷,而全场景则需要在全市中所有的街道,甚至是多地警方同时出动、跨省追捕,这种联防联控的形式,才有机会成功把这个小偷跨省抓捕归案。延迟打击的概念,就类似于有一个小偷,背后有一整个团伙,我们先不要惊动他,可以给他打一个标记,等到他回到这个团伙基地的时候,再对它进行根本性打击,这种操作方式就叫做延迟打击。最后介绍了交叉验证,以及一些自动化衍生策略的体系。互联网时代下,各大互联网公司平台进行全场景联防联控的重要性不言而喻,希望今天的分享能为大家提供一些帮助。
今天的分享就到这里,谢谢大家。
分享嘉宾:
本文为从大数据到人工智能博主「xiaozhch5」的原创文章,遵循CC 4.0 BY-SA版权协议,转载请附上原文出处链接及本声明。
原文链接:https://lrting.top/backend/6648/