Part1 机审
两大系统:
为了节省人力,淘宝的稽查系统大部分工作由电脑完成,就是机审,分为主要主判系统和旁判系统。
主判系统每月不定期大规模排查2-3次,所以每次偶尔会听到又有一批刷单的商家被抓了,比如5月20日,很多商家都收到了虚假交易炒作的站内信,其实这个就是当时主判系统排查的过程中对考核标准做了调整,导致大规模误判。此次事件也同样正式了主判系统的威力,当多维度不达标,根本不通过人工审核,系统直接判定。
旁判系统是常规型排查,可以把主判看做不定期大规模突击检查,旁判看做小规模定期检查,一般来讲,旁判系统有两个主要职责,一个是找出多维度排查中数据异常的单品,另一个是对单维度数据异常的宝贝进行重点监控。何为单维度数据异常和多维度数据异常,下面会重点讲解。
判定顺序
理论上而言,淘宝的每一笔完结订单都会被动接受一次完成的机审流程,注意是完成订单,如果未付款,或者付款未发货,或者发货未确定,都不算一次完整交易,所以,当评价没产生的时候,是不会被判定刷单的,而且即使评价产生,你的订单没超过索引数据库的维度范围,也不会被机审判定。
机审的判定顺序为:判断点击过滤(pmcots) >判断交易(ctu)>检索订单数据(数据检索>结果判定。简单的说,就是先根据电脑本身的物理信息判断是否刷流量或者刷单,再根据各个维度,判断订单是否在正常范围下去判定是否有刷单嫌疑。
判定标准
重点介绍下机审的各个判定标准:CTU(支付宝智能实时风险监控系统)、pmcots系统(防恶意点击系统)、特征索引数据库、数据检索系统。
CTU:该系统是支付宝风险管理的一个核心系统,能通过数据分析丶数据挖掘进行规则自学习,自动更新完善风险监控策略。CTU系统基于用户行为来判断风险等级,集风险分析丶预警丶控制为一体。并配备风险稽核专家小组进行风险稽查及处置。
这个系统可以实现7*24小时全天候风险监控,监控内容包括:账户风险监控丶交易风险监控丶反洗钱监控丶反盗卡监控丶反套现监控丶商户违规监控。
pmcots系统:防恶意点击系统,目前也主要用于直通车的防作弊稽查体系,主要考核的是流量环节,其中包网络技术识别有:
1、IP防止作弊。
2、Netclean防止作弊,当你访问过一个页面时,Netclean会记录,当你下一次访问该页面时,会提交一个相同COOKIES参数,可以判断重复的参数。
3、点击率,重要是点击数据被收入了特征索引库。比如说点击率过高,流量来源集中在某个关键词,这个特种索引数据库会根据这些问题找到数据异常。
4、来源统计,在生意参谋的交易分析,商品分析,单品分析中就可以找到,系统会根据流量来源和流量构成做对比分析。
5、唯一参数,这个需要调用很多参数,例如大家知道的MAC,硬盘序列号,浏览器版本,系统UI等。有一些唯一参数在WEB上很难做到获取,不是技术实现不了,因为这样太危险了,HTTP的协议权限要求太高,会造成整个PC数据暴露在外,就是有些朋友说的浏览个淘宝网页就能把系统安装时间、浏览器版本号什么读取出来?其实不是,是调用了系统的数据,如前面的CTU。
6丶点击时间时间顺差,打开一个页面,二次点击是否为瞬间?因为每个页面都由印象转变为关注,再转变成点击行动,当你打开一个前端页面,一定时间参数内立即关闭,也可以判断为无效点击。淘宝就是根据这个特征识别是否为机器人或者故意点击的。至于菜鸟卖家,怎么检验?这个可以从量子记录浏览深度和直通车过滤里面检验数据。
7丶鼠标值,显示屏幕上的每个点都具有一个坐标值,当你在某个点按下鼠标时,都会有一个坐标值,当采用机器人点击时,为同一个鼠标值,可以只记一次点击。每次点击都会产生鼠标的KEYUP 和KEYDOWN的行为,如果未能捕获到这个值,可能是模拟数据提交。又有菜鸟卖家会问?啥?机器人点淘宝,不会吧??为避免误解,科普一下,我们把系统或者软件也可以比喻成机器人。例如大家知道的刷信誉软件。
特征索引数据库:收集到的信息进行整理、分类、索引以产生索引库。按照一定方式有序编排起来,以供检索的数据库。此系统是不断收集和更新数据的学习型病毒积累系统,里面包含了大量数据,经过大量订单交易订单步骤轨迹数据的收集,分析比对,集合信息,
就像日常配货一样先把货集合好,建立多个特征信息库。就是经常听到的数据纬度,里面有多少纬度就是商业机密,然后交给下面说的检索系统调用此数据库的数据纬度。每生成一个订单,就会生成各种数据进入这个系统供检索和分析。
数据检索系:引数据库或存储中查找和选取所需数据的过程。淘宝有千千万万个订单,每一个订单号都需要经过这个系统分析比对,其中调用了哪些数据估计在运营或者炒作过程中也得出了一些经验,在这里举几个例子开发模型:
1、淘宝静默转化数据纬度比对
旺旺在线聊天:如系统设定无聊天为w ,手机旺旺为WW,旺信为WWW,网页旺旺为WWWW 检索系统则调用特征索引数据库数据分析交易数据的其中一个纬度比对:
例女装类目交易订单中此纬度正常百分比【特征索引数据库数据】:
WW>15%,www>0.15%,wwww>2%
淘宝商品ID123456 交易订单1、2、3、4、5-100个订单【我们知道销量数100个订单中】ww<15% 纬度异常,判定降权。反之亦然。
2丶购买旺旺信誉度纬度比对
设置购买旺旺信誉度0=w 1心=ww 2心=www依此类推
纬度判定指标为订单中此纬度正常百分比【特征索引数据库数据】:
w<60%,ww<40%,www<30
淘宝商品ID123456 交易订单1、2、3、4、5-100个订单【我们知道销量数100个订单中】ww>60% 纬度异常,判定降权。反之亦然。
以上纬度为虚拟数据,请勿对号入座,为举例说明,经过各种降权苦逼后应该都知道很多纬度,这个后期再探讨分享。
Part2 人工审核
前面讲的都是机审原则,当系统找出大量异常数据和异常订单都,对很多难以直接判断的订单进行人工排查,也就是最终判断:判定为单维度异常和多维度异常。
单一纬度异常:就是判定疑似虚假交易,可申诉,申诉后进入人工判定(淘宝为了节省人力,你不申诉就不人工了,默认系统判定)。
多个纬度异常:就是虚假交易,还是为了节省人力资源,自动关闭申诉接口。就是大家听到客服说的不允许申诉了。如果你恶意申诉,后果严重哦。
一般被判定为降权,收到系统的后台提醒订时,一般会有4次机会,两次订单申诉,两次订单清洗,但是如果大家没有使用订单申诉,系统自动默认放弃,就只剩下两次清洗的权限。
Part3 常见问题
1、为什么通过支付宝返款的订单会被系统判定为虚假交易?
通过支付宝账户关联判定,支付宝系统在安全方面的银行交易系统利用SSH框架做的https+数字证书,这个只记录硬件和加密数据传输,不存在账户关联,至少系统不会去检测,但是进入人工审核后,刷单返款,用其他支付宝返款之类,都会进入到稽查分为之列。
2、为什么虚假快递单号会被判定为虚假交易?
淘宝其实有两个快递公司接口系统,一个是客户端物流显示系统,就是我们看到的前端物流信息,如果进入人工判定,还有一个是物流公司开放给淘宝的一个内部API接口,此物流信息和物流网点的内部系统显示的物流信息一致,比客户端的更及时,更详细。
这个系统虽然把物流系统作了一个纬度判定,但是因为在技术上的原因,并不能以匹配物流指标的字符串是否相符合为系统自检测判定指标,因为访问量大,需要匹配的字符串太多,数据运算压力大。
但是重复的物流单号和时间匹配是有存在的,淘宝今年更新了前端拦截技术,把重复使用过的物流单号拦截在前端提示,可是由于数据库的更新和传输延迟,有一定比例的拦截失败,到了物流判定,一般是人工检测是否恶意使用虚假单号了。
关于申诉,订单申诉的都是随机抽取,可能其中只有一个订单进入了判定异常,也可能这100单全是刷单,但是只抽取了其中的5个订单,大家不要纠结为什么是这5个。
3、为什么很多人说刷一个新单品,很快就降权了,而同样方式刷的一个热卖单品,却不会降权。
这就是热卖单品ID没有超过判定纬度的警戒值,没达到百分比,所以没进入判定。而新品交易订单量小,流量转化比一下子飙升,异常百分比一下就体现出来了。系统如果判定成立,是宁可杀错一千,不放一个。系统没人情,因此,有些导致错误判定就有了申诉接口,如果这样,误判订单有点多,有意无意申诉的也有点多,而处理的人手不够多,所以系统只对那些违规严重的进行处理,也是很多小二警告。