哪有大数据,都是大忽悠!
现在大数据炒的很热,所谓大数据开启了人类的“上帝视角”,让我们从一个前所未有的角度俯瞰世界。因此,很多金融科技公司都号称是在用大数据进行授信贷款,但在目前这个阶段,这根本不现实。
首先,数据孤岛难题。大数据不在于数量大,而在于来源多样、类型广泛、关系复杂。这一点就远远做不到。应用大数据的前提是有大数据,而且要在线、开放、共享。但根本不可能。最简单的,BATJ之间就绝对不会互相开放共享数据,大家可以去看看,蚂蚁花呗、微粒贷、京东白条给你的信用贷款额度绝对差距很大,如果他们的数据是共享的,这是不应该出现的。因此,如果蚂蚁金服说它对你的授信是基于大数据,根本别相信,它只是基于你在阿里体系以及少数第三方数据做出的判断。因此,如果它给了你一个与你的财富实力非常不匹配的贷款授信额度(比如1万元),你笑笑就可以了。
就个人信用评估问题,持有的房子和身体健康情况是最重要的两条,但是房屋产权据说到现在都还没有全国联网,云漫网络棋牌防御,全国几千家医院的数据估计绝大多数都没有联网,如何大数据。房子对个人信用的重要性不言而喻。其实个人健康情况也非常非常重要,你如果去保险公司买寿险产品,大多数时候它都会要求你提供体检报告。
其次,相关性陷阱难题。维克托-迈尔-舍恩伯格在《大数据时代》一书中提出,大数据要总体不要样本、要效率不要精确、要相关不要因果。要总体不要样本是对的。近期有个《中国卡车司机年度报告》,说我国有3000万卡车司机,77%自己持有卡车。但交通部的数据显示,2016年中国只有载货汽车1352万辆。这就是抽样调查的不足。但要相关不要因果,则就麻烦了。近日有个段子是这样的:某航母级互联网影视企业的发言人说:“通过大数据挖掘,我们发现不同观众的相关卖品偏好。比如《芳华》的观众比《战狼2》消费了更多的热饮。这些都是以前我们不知道的,也无法预测的。”----《战狼2》7月底盛夏上映,《芳华》12月冬日上映。这就是互联网挖的大数据!
真正的大数据是什么,可以参见美剧《疑犯追踪》。但大数据只有政府才有,剧中撒玛利亚人是在欺骗参议员获得数据超级授权之后才具有了与机器对决的实力的。从这个角度看,还真的不能轻易把大数据开放给私人公司,除非受到政府的严格监控,否则不但个人隐私,甚至整个社会运行都会被其操纵。
再次,大数据可能不如主数据。统计学中有个主成分分析法,大数据固然好,但其实很多时候,大数据也意味着更大的计算、更复杂的模型和更大的成本,取得的效果却并不一定更好。因为很多数据可能只是噪音或者用于数据,并不一定对决策有正面价值。笔者曾经去拜访过一家国内排名靠前的金融科技公司,号称依靠大数据进行个人在线实时授信,其实交谈下来,虽然其号称使用了几百个数据来源,但感觉真正有用的还是央行的个人征信系统。
最后,小数据还未充分利用。对很多企业,特别是对很多银行来说,最需要的可能不是从四面八方来获取各类数据,而是首先把自己的小数据充分挖掘运用好。流传很多年的啤酒和尿布的故事,并不是什么大数据,而是超市自己销售数据中两个数列的简单相关性分析。哪有大数据,都是大忽悠!-IDC帮帮忙