大家好,我是北京知道创宇信息技术有限公司的潘少华。我们团队的主要研究方向是电信网络安全,主要集中在在电信反欺诈和业务反欺诈。

我个人从 2001 年开始,对网络安全感兴趣。从2008年加入知道创宇,我一直致力于让互联网变得更好更安全。

20170122 05 ai02

我很欣赏爱因斯坦的一句话:

这个世界很危险,不是因为那些邪恶的人,而是因为哪些无动于衷的人。

这也是我在前沿对抗黑产的一个动力。

800亿的大“生意”——诈骗

互联网带来了很多便利,但是也被坏人利用。在互联网上获得一些不合法收益的产业,我们都叫他们黑色或灰色产业链。早些年,黑产分子因为网上支付和个人隐私泄露没有现在普遍。但这两年,在诈骗方面的报案数量真的是越来越多。

例如:

XX车主,你今天在XX路口有交通违章行为。点击链接查看详情。

如果我们用手机一点,打开这个木马链接,就会直接中招。

20170122 05 ai03

这是一个简单的统计。仅仅 2015 年的报案数据,例如“猜猜我是谁”,“冒充公检法”这类涉及电话诈骗的案件,全国群众的损失就大概在 220 亿左右。加上一些基于网址的诈骗,再加上手机病毒盗窃,实际总损失应该在 800亿人民币以上。目测在诈骗分子背后提供技术能力的人员,全国应该上百万。

20170122 05 ai04

部分诈骗短信展示

大家很普遍的想法是把这些诈骗归罪于运营商,他们收了这么多钱,却让坏人肆虐。运营商当然有自己的问题,但是它也有无奈。

例如电话卡实名制,主要就是为了打击电信诈骗而施行的。但是诈骗分子很快就找到了一些变通的办法。所以目前来看,实名制在诈骗短信这方面,效果并不理想。

这是为什么呢?

诈骗分子背后,有一个完整的黑色产业链,这其中包括:

病毒制作,

恶意网站制作,

提供黑手机卡,

改号线路、

伪基站设备(需要相关的专业工厂去制作),

短信群发平台(短信代发本身是一个灰色地带,很多黑产技术人员也会直接给诈骗分子提供技术支持),

洗钱相关工作(进账一百万,他们会快速把钱分成小笔,多次交易,洗成一笔合法的钱然后转出去)

每个团队只是专业做黑产链条上的一个环节,对他来讲,不仅可以规避法律风险,还可以专注在某个特定的“黑技术领域”。

这一整条产业链,只靠运营商自己很难去打击,就连公安能发动的资源也是有限的。所以这件事需要民间各方来参与努力。

我们也做了很多和技术不相关的工作,例如联合腾讯和百度发起了安全联盟公益组织。我们共享了8亿条恶意网址数据库,每天日均交换 5000 万次的恶意网址数据。所有的数据都在系统里机器筛查,然后进入人工审核平台,确定拉黑的数据都是没有问题的。

另外我们还利用机器学习的方法,利用大量的计算资源来检测识别互联网上的恶意数据。

两种反诈骗手段的对比

某些地方上的网民可以感受到,当你访问一个网址的时候,也许会弹出一个安全告警,提示你不要访问。在你收到诈骗电话之后,可能会收到运营商或公安机关的短信提醒,告诉你可能受到了诈骗骚扰,不要相信。这其中可能就用到了我们的技术。

反诈骗手段有一个演进的过程。

一、事后处置

运营商黑名单制度

以前我们会基于运营商黑名单来做拦截。例如我们发现一个电话是诈骗电话。我们经过人工审核,确认它是一个诈骗电话。于是在几天之后把它加入黑名单。

运营商有一些技术手段对抗诈骗。例如国际端局封堵。运营商可以对特定开头的国际长途号码一刀切,卡掉。例如“0002”,这本身就是一个不规范的国际呼叫。另外还有一些 0057、0058 这类开头,但是长度小于 10 位的主叫号码也很可能存在问题。

但对于死板的规则,诈骗分子有应对之道:

例如运营商设定了五条检测规则。但是他会尝试新的策略突破,例如在本地落地。在找到一种可行的方法之后,诈骗分子就可以一直利用这个方法绕过拦截。

最大的问题是,基于黑名单的拦截系统,没有办法对诈骗骚扰号码做实时更新。

20170122 05 ai05

繁复的报案流程

先要受害者去报案,然后公安机关做技术咨询和侦查工作。确认有问题之后,公安机关会协调银行冻结资金,最后是破案环节。

但是这样的处理方法存在很多弊端:

往往被骗以后,黑产马上把钱转走。真正银行冻结的时候,已经扑空了。另外全国每年有几十万次的通信诈骗,民警的力量很难覆盖。去年徐玉玉案件成为了全民事件,所以很快就被破掉了。但是平常如果你被诈骗一万块,而公安破案成本可能是几十万元。客观上就很难把单个案件都查得水落石出。

二、实时阻断的方法

我们会分析最近热门的诈骗类型。例如这张图里展示的,大概分以下几种:

20170122 05 ai06

热门诈骗类型

对于用户接打电话,我们通过机器学习的方法,能够实时发现这个电话很可能是诈骗电话,所以需要马上发出实时告警。

在用户上网的时候,我们如果检测到了他正在访问钓鱼或诈骗网站,也可以立即对这个网站进行阻断。总体的方法就是,在最终损失到来之前截断诈骗过程。

接下来我详细说一下实时阻断在技术上是如何实现的。

20170122 05 ai07

我们会在运营商网络里部署一个实时监测系统。

1、话单采集。我们会从通话记录设备里采集实时话单。

2、话单脱敏。由于谁给谁打电话这类信息是敏感信息,我们会通过特定的加密算法进行脱敏处理,从这些脱敏的数据里,无法得知特定的通话记录。

20170122 05 ai08

脱敏之后的电话列表

接收的电话,我们会进行哈希处理。对端的号码,我们会保留明文(因为可能是诈骗电话)。

3、输入机器学习系统。对于机器学习系统来说,它并不用知道电话是由哪个具体的号码拨打的,它只需要判断这种行为是不是诈骗。

通过提取数据特征,输入机器学习系统,就可以用事件模型来加以判断,最终可以分辨出哪些通话行为是诈骗行为。在这个过程中,我们不断地用云端数据和参数调整来保证检测结果的准确——误报率低的同时,尽可能多地检测出诈骗电话。

20170122 05 ai09

4、数据解密。把处理好的数据输入运营商的数据,进行对称解密。

5、告警提示。判断出诈骗电话之后,运营商可以做选择,利用自己的工单系统提示用户。

短信提醒:你刚才接的是诈骗电话,千万不要上当。

闪信提醒:通过手机弹窗方式,提醒用户遭遇了诈骗。

电话提醒:给用户拨打电话提示。

彩印提醒:为用户下发和号码关联的彩印。

机器学习的核心技术实现

一、数据

对于机器学习系统来说,最重要的是数据。这些数据来自云端的 250 万活跃诈骗号码库,包括网民举报和历史案件数据,这些作为训练样本来让机器学会如何识别一个正在拨打的电话是诈骗电话。

由于这些数据很多都来自手机客户端,所以信息更新比较及时,所以这 250 万数据是最新的。

二、机器学习系统

大数据机器学习以前高高在上,但是现在已经在很多领域得到了应用。我们对于机器学习,也是开箱即用的方法,在反诈骗的特定领域进行工作。

我们在里面内置了超过五十种诈骗电话的话单模型。这其中包括几个要素,包括:

用户被叫地的分布

被叫时长分布

被叫时间分布(早晚、半夜)

用户特征

。。。

我们也并不知道这些要素和诈骗这个行为哪个是最强相关的。所以我们把数据扔到机器学习系统里,进行有监督或者半监督的学习,自动找出相关性来。

20170122 05 ai10

号码数据特征,大概分了六个方向。

1、号码活跃特征数据

例如日呼叫次数,平均通话时长,最早最晚通话时间等等基本的统计属性。正常的一个号码,应该是呼入和呼出次数差不多,并且不会每天连续拨打。

2、号码的社交网络

例如号码的好友数,陌生人通话比例,你的号码曾经给多少人打过等等。同样,社交网络还包括被拨打的号码它有哪些好友,好友和呼叫号码之间是否具有相关性等等。

3、号码的行为事件流

一个号码,前后干过什么事请,我们会作为一个事件流来分析。例如五分钟之前打了号码,过了四分钟又打了一个。其中有多少是正常通话,有多少是不正常的。例如一个呼叫三秒钟就挂断,或者连续通话十分钟,都是比较极端的不正常情况。

4、号码的行为特征

例如,用户和海外号码通话次数,和固话或短号通话的次数等等。有的诈骗分子专门打座机号来骗老师,有的诈骗分子专门打手机号。数据量大了之后,统计特征还是非常明显的。

5、号码信用度

当我们的数据积累一定量之后,我们可以建立号码信用度。正常用户的行为会被识别为白名单,而和这种行为模式不相符的号码,就可以被认为号码信用度低。

6、号码异常度

例如,号码的异常行为、呼叫异常号码,会被计入异常行为档案。对于我们认为有问题的号码,会进行重点的监测分析。

事件模型和机器学习模型交叉验证

一、突增模型

例如诈骗号码都是突然间开始使用的,可能用了一段时间就突然消失。(因为换了新的号码)

20170122 05 ai11

诈骗号码通话量突增模型

这是我们监测到的一个诈骗号码。15年1月12号这一天还基本没有拨通记录,到了第二天的时候,它的拨打电话达到了一百多,第三天达到了一千个。而过了一周左右,它的拨打号码就直接降为零。这种特征很明显。

二、事件模型

诈骗分子也有时间成本。对于他来说就是要在最短的时间里尽可能多地拨出号码,捞出尽可能多能上钩的鱼。所以不可能一个号码专门骗一个人然后就废弃不用。所以他的套路我们总是可以归纳分析出来。

我们来看一个经典的诈骗剧本:

五六个诈骗分子坐在一间屋子里,启动诈骗流程


1、先用+185这个自动语音系统拨打电话,告诉你有文件没投递成功,让你按9转人工。如果你响应了,后面的“服务流程”就跟上了。如果你不接或者两秒钟就挂断,后面的行为就取消了。


2、几分钟后,另外一个冒充警官的人打过来,他的目的是信息作证,让你相信这个骗局。他会引导你去“官网”查询信息,你去网上果然发现了这个信息。


3、一个小时之后,用户接到仿冒公安局的电话。


4、用户根据公安局的电话指示,拨打114来确认检察院电话。


5、“经过确认的”检察院打来电话。

20170122 05 ai12

一个经典诈骗套路背后,有哪些规律?

这其中越到后来的步骤,越是骗子“老司机”,也就是团队 leader 来操作。根据这样的事件模型,可以把看起来独立的行为串起来。

三、基于通话行为的模式的智能分析

电信诈骗可以跟刑事案件进行类比。

例如发现了一个杀人案,我们可以用不同的维度来缩小怀疑范围。例如目击证人发现这是个男性,发生事件时早上九点,根据探头发现作案的交通工具,最后从被害人的社交关系里来判断哪些人和被害人有矛盾。

同样诈骗电话我们也可以用类似方法来缩小包围圈。

20170122 05 ai13

如果一个号码连续通话,很少拨入只有播出,通话时长很长,经常给一大波分散的陌生人打电话。每触发一个规则,我们就打一个分值。如果全部触发,这个分值就会高一些。

逻辑上来讲,一个正常的通话,很难同时触发这么多的异常事件。

20170122 05 ai14

异常事件累加的“黑天鹅”事件概率非常低

利用这种方式,我们可以区分出“浅层诈骗”和“深层诈骗”。浅层诈骗是随意打电话碰运气,如果你愿意搭理就中招了。而深层诈骗就是刚才提到的好几个人分工合作,用“一整套服务”来骗你。 反诈骗技术的误报和困难

对于误报,我们会进行验证工作。

1、历史检测结果。对于历史检测结果,我们会输送云端,利用第三方数据,例如腾讯手机管家来进行校验,看是不是相匹配。由于二者判断逻辑不同,所以可以用来校验。


2、最新检测结果。公安和运营商会进行抽样回查。例如对于一百位发送了告警短信的用户,抽取其中的三十个进行电话回访,确认是否真的接到了“我是你领导”或者“猜猜我是谁”的电话。

20170122 05 ai15

接到诈骗电话的人对客服的反馈

通过以上介绍的技术,实际的检测准确率大概如下:

冒充公检法的骗术,准确率大概是 99%,因为这种骗术存在一整套流程,更加利于判断。

仿冒熟人的骗术,准确率稍微差一些,是97%。

仿冒客服的骗术,准确率也可以达到 99%。

根据一个城市试用半年的情况,用户被骗金额下降了 70% 以上。

但是我们的系统也存在一些问题,例如对于仿冒公检法的诈骗没办法做到全覆盖。因为第一个打进的骗子会给受骗者洗脑,让他不要再接听任何电话,只能和“警方”单线联系,或者干脆让被害人电话一直占线。所以有时我们做电话回访,根本打不进去。当我们能接通的时候,被害人的钱已经被转走了。

前一段时间清华大学教授被骗的事件。当时北京公安已经发现了这个情况,警察叔叔给老师连打了三个电话。但是诈骗分子给老师下的套太厉害,让老师一定不要再接听其他人的电话,老师相信骗子才是真正的公安,最终上当。

这里我要提醒一下大家,不要轻易去骚扰诈骗分子。为什么呢?对你来讲,如果你不理他,你就是他无数的沉没成本之一。如果你勾搭他,他就会认为你是可能上钩的目标之一,会盯上你。如果你把他惹恼了,他有的是精力陪你玩。

前一阵子有一个用户调戏了诈骗分子,过了两天,他的手机号码突然被各大安全公司拦截,运营商也把他拉黑了。原因是诈骗分子为了报复,仿造了他的手机号码进行了大量垃圾信息的发送。

最后我想说,虽然大家从旁观者的角度,感觉被骗的人有点傻。但是当你处在骗局中的时候,有时真的很难绕出来。每当我看到这些技术可以真正阻断诈骗的发生,都会觉得团队付出的努力是值得的。

本文来源于雷锋网