反欺诈专栏关于IP,这里有你想知道的一切!下篇

2019-04-04 约 106 字 预计阅读 1 分钟

声明:本文 【反欺诈专栏关于IP,这里有你想知道的一切!下篇】 由作者 同小盾 于 2017-07-13 03:29:00 首发 先知社区 曾经 浏览数 4004 次

感谢 同小盾 的辛苦付出!

IP地址的所有研究,其实可以归到三个问题上:

1、这个IP在哪儿?
2、这个IP是什么?
3、这个IP干了什么?

本篇是关于IP地址研究的最后一篇文章,我们来聊一聊:如何分析一个IP地址做了什么?

上一篇中,我们提到了通过每个IP下的用户行为,判断用户群体的类型,进而给出IP地址的分类结果。那些,其实都只是最简单,最基础的一些分类方法。通过特定的指标计算、聚类算法,就可以得出结果。

然而,同盾的IP画像,是围绕反欺诈展开的,我们希望能够准确的评估一个IP地址的风险性,进而在风控策略中进行调控。

在IP画像设计初期,我们设计了一个风险评分,用于总体评价这个IP地址风险。风险分数中,IP是否有代理行为、是否命中已知的威胁情报、是否发生过风险行为,都作为评估的依据。但是这样的一个笼统的评分,在实际使用中却有诸多不便。

比如,我们曾经发现过一个IP地址,由于频繁的发生盗卡行为,最终我们给出的风险评分达到了94分(0~100,分数越高风险越高),然而这个IP下其他行为都是正常的,大量的正常用户通过这个IP进行登录、交易、支付等活动。

于是,我们萌生了一个想法,能否准确地定性一个IP到底做过什么样的坏事儿?

什么是坏事儿?

反欺诈中,涉及到的业务风险其实非常非常多。不同的行业、不同的平台都会有各自独有的一些风险。

就拿“黄牛”来说,随着互联网的发展,黄牛也从最早的票贩子,演变出了很多很多的花样。

案例1:在各大航空公司的网上订票渠道中,存在很多“占座黄牛”,他们通过特定的渠道,订购了一定数量的廉价机票,然后加价转售,甚至会高出这张机票原有的价格。如果不能及时出手,黄牛就会选择退票,导致飞机上出现很多空座位,各大航空公司对此也很头疼。转手的过程很简单,只需要修改乘机人即可,这个行为可以通过线上的数据分析发现出来。

案例2:一些票务网站(专指演唱会、赛事门票),黄牛会注册大量账号,抢购演唱会门票,拿到门票后,加价出手。由于黄牛拿到了实体票,转手过程是在线下进行的,通过线上行为就无法进行监控。但是,在抢票过程中,黄牛为了增加自己抢到票的几率,会使用很多个账号重复下单,大量订单中的收获地址都是同一个或者具有极高的相似度。

案例3:美团、猫眼、格瓦拉等购买电影票的平台中,也存在很大数量的黄牛。尤其是一些热门大片儿的首映票,价格可以炒到很高。电影票的黄牛,往往以代购的形式操作,他们拥有很高折扣的会员卡,可以低价购买到电影票,然后适当加价转手。黄牛完成支付后,拿到取票二维码,然后把二维码发送给买家。这个过程,也是很难通过线上的行为来进行检测的。

如果我们需要分析一个IP到底做了什么坏事,就必须要先给出明确的定义,到底什么样的行为算是坏事。然后把这些行为分解为非常详细的特征指标,进行建模。

这个过程是漫长的,就像上面举的例子,同样是“黄牛”,由于不同的平台,不通过的行业类型,中间存在着非常巨大的差异。每一种行为都要做这样的深入分析和研究,其实我们一开始是拒绝的......

在后来的一段时间里,我们团队接到了越来越多的提问,客户希望知道,这个IP到底干了什么?到底有没有风险?我们只能硬着头皮,去提取这个IP在过去半年里的行为数据,然后逐一分析。说到底,单凭一个IP地址的类型和地理位置,远远无法满足风控的需求。最终,我们决定要做这么件事儿。于是好几个月就这么过去了。

首先,我们梳理了一份反欺诈的词表,用来给出各种欺诈行为的明确定义。

特征提取

篇幅有限,这里就简单介绍一下我们对黄牛(票务行业)做行为分析和建模的过程。

上图中,是我们抽取到的一份较为典型的黄牛抢票记录。

从这些记录里,能获取到怎样的信息呢?

1、这批账号都在同一天注册,并且注册时间较为集中,注册时间间隔大约为30秒;

2、每个账户只下一个订单,但是多个订单产生的时间非常接近,时间间隔仅为毫秒级;

3、多个订单中的收货人姓名很相似,直观判断,不太可能是真实的姓名;

4、多个订单中的收货地址有明显的异常,在末尾添加了无用的字符串;

5、收获地址末尾的字符串为11位的数字,比较像手机号,多个订单中的这个字符串相同;

6、账号注册和风险发生,中间存在较长的时间,可以定义为休眠账号或养号行为。

如果对这个地址做检查,我们会发现:广东省佛山市均安镇均榄路天连大道是真实存在的。

但是这附近并没有什么小区,反而更像是一个村子。也就是说,收货地址中,“天连大道”之后的部分都是随机添加的,可能并没有任何意义。

这样的做法,是为了避免平台对收获地址做校验,如果大量订单都寄送到同一个收获地址,那么这些订单都存在刷单的嫌疑。

上面的地图中,你可能也注意到了,其实并没有“天连大道”和“天连路”,其实是同一条街。但是由于名称不同,在地址核验过程中,就有可能被认为是两个不同的地址。类似的,比如“南京市白下区李府街”和“南京市秦淮区李府街”,也是同一条街道,2014年白下区被撤销,整体并入秦淮区。从行政区划上看,白下区已经不存在了,但是物流和快递大哥都知道,整个南京市就那么一条李府街,货物也可以成功地递交到收货人手中。

为此,我们也建立了一套用于对收货地址做真实性核验的系统,用于判断多个地址,是否指向了同一个地点。

除了前面列举的三个特征之外,还有一个比较隐蔽的特征,就是注册这些账号的手机号,其实都是”虚假号码“(参见:互联网黑产剖析——虚假号码)。换句话说,提交这些订单的用户,其实都是通过垃圾注册产生的垃圾账户(虚假账户)。除此之外,通过设备指纹技术,我们也识别出,这些订单其实都来自于同一台PC。从IP维度上,虽然每个订单的来源IP都不相同,但是每个IP都最终被确认为代理或者机房。

以上种种,就成为我们判断黄牛行为的特征,归纳如下:

1、黄牛会事先通过垃圾注册准备一批可用的账号,注册过程中往往会使用虚假号码;

2、账号注册过程中会出时间、IP、设备上的集中性,即同一个设备,同一个IP上注册了大量账号;3、多个订单中的收货人、收货地址不真实或相似度极高;

4、多个订单可能从同一个设备上产生;

5、提交订单的IP地址,大部分是机房IP或者代理IP;

6、垃圾账号注册完成之后可能不会立即进行抢票,而是经过了较长的沉睡期或进行特定的养号活动......

进一步细化之后,得到具体的指标参数,就可以进入训练模型的阶段了。

攻击链路

攻击链路(aka Kill-Chain),是安全领域中一个讨论比较多的话题。任何一次风险,都不会平白无故地发生,而是会有一个过程。对一次风险的定义,可以从最终的结果进行定义,但是更多的往往是对这个风险过程的定义。

以偷窃为例,一定会有这么几个步骤:

寻找目标 -- 蹲点 -- 标记 -- 作案准备 -- 撬门/扒窗 -- 进入房间 -- 寻找保险箱 -- 撬开保险箱 -- 拿走钱/珠宝 -- 清理现场 -- 离开现场 -- 销赃 -- 寻找下一个目标

上面的这些,就是Kill-Chain中的节点(Node),也可以叫做风险过程(Process)。在整个攻击链路中,只有起点和终点是确定的,剩下的部分,可能会没有,也可能因为各种突发情况而产生分支链路忽然中断,或者重复某些环节。多个攻击链路,会在特定的一个节点上汇聚,这个节点,就成为了风险防控的关键节点。在这个节点上进行防护,效果就会比较好。

欺诈风险,也是一样的。前面分析黄牛的特征中,我们提到了黄牛会使用一批垃圾账号进行下单。分析一个账号的欺诈行为,需要纵观这个账号的整个生命周期,或者在既定的时间片内,关联上下文,看用户的行为在每一个环节中是否符合特定风险的特征。

那么,针对黄牛风险,攻击链路就可以表示如下:

在攻击链路中,越是靠前的节点,发现和识别越为困难,因为各种特征其实并不明显,只能判断本次事件有嫌疑,而不能确定具体的风险。但是在这些环节上进行防护,起到的效果是最为显著的,成本也相对要低很多。

越是靠后的节点,发现和识别变得简单,很多特征都比较明显,但是防护就变得困难。并且,由于攻击链路本身会产生很多分支,可能在其他环节上已经产生了,即便是同一批次注册的垃圾账号,可能会在不同的场景中被使用。

此外,某些节点上会产生大量的分支链路,比如垃圾注册。通过注册工具/脚本,批量产生的垃圾账号,可能在后续的多种业务场景中出现,不同的业务场景中,又有着不同的风险。

平台的业务越丰富,这个分支就会变得越发明显。如果一个平台同时提供了电商、电影票、团购、点评等多种线上业务,那么这个攻击链路就会变得非常复杂。

这也是为什么我们要建立IP地址画像、手机号画像和设备画像的原因。通过已知的各种风险行为,建立模型,通过跨平台、跨行业来进行联防联控,只要这个手机号、IP或者设备在历史上发生过一次风险行为,就会被识别出来,并且打上标记。

在整个攻击链路最开始的地方进行防护,并且在账号的整个生命周期中,进行持续监控,使得最终能够造成风险的账户数量降至最低。

在对抗中进步

这场欺诈和反欺诈的对抗,已经持续了多年,并且还将继续下去。

我们在不断提升检测能力、改进检测方式的同时,欺诈分子也在不断地产生新的作弊手段。并且,互联网在不断地寻求创新,同样是促销活动,在不同的平台上,会有截然不同的呈现方式,业务流程也不尽相同。这对我们分析风险行为,提取特征带来了极大的困难。

一旦新的业务模式产生,欺诈分子也会相应地寻找可供利用的业务逻辑缺陷,甚至产生一些新的风险类型。这需要我们不断地观察、学习和改进。为此,我们引入了无监督模型来辅助完成大量的指标提取工作。即使欺诈分子使用了新的技术、新的手段,特定风险的攻击链路是不会改变的,无监督模型可以从中提取出新的异常指标,再对模型进行优化和迭代。

结语

我们识别出的每一次风险行为,都会作为标签,标记在手机号、IP和设备上。即使欺诈分子不断地更换这些信息,也总会被发现出来。这是同盾跨行业、跨平台联防联控的巨大优势,也是我们对抗欺诈行为的有力武器。

这些标签,目前在IP画像中已经可以使用,随着我们研究的进一步深入,越来越多的模型被开发出来,可以准确识别的风险行为也越来越多,力求让欺诈分子无所遁形。

关键词:[‘技术文章’, ‘技术文章’]


author

旭达网络

旭达网络技术博客,曾记录各种技术问题,一贴搞定.
本文采用知识共享署名 4.0 国际许可协议进行许可。

We notice you're using an adblocker. If you like our webite please keep us running by whitelisting this site in your ad blocker. We’re serving quality, related ads only. Thank you!

I've whitelisted your website.

Not now