南方日报 | 数据清洗:把数据“垃圾”变“资产”
摘要: 深圳华傲数据技术有限公司去年被《哈佛商业评论》评为"引领中国大数据发展的先锋公司,与腾讯、百度并列成为大数据企业占位图中仅有的三家中国企业。
2016年8月30日,国家发改委发布通知,要求组织申报大数据领域创新能力建设专项。根据通知,政府将以助力大众创业万众创新为着力点,力求在未来2-3年建成一批大数据领域创新平台,为大数据领域技术创新提供支撑和服务。
数年间,大数据产业风起云涌,也在中国萌芽并不断壮大,基于它诞生的“云计算”“物联网”“智慧城市”等被越来越多人所熟知,如今它几乎可与任一产业“联姻”。
浪潮来袭,深圳自然不会落下。腾讯、华大基因、光启等公司已经收集并存储大量的用户或产业数据,以数据清理为核心的华傲数据在大数据领域快速成长。
五年来,华傲数据在数据质量、管理、分析、服务及运营四大领域构建了严密的理论体系,设计了完整的推理系统,为政府、金融、互联网等行业提供大数据技术与应用领域的解决方案。其国内发明申请达到91项,并已完成40件PCT专利申请,项目累计创收超过5000万元。如今,华傲数据的大数据产品已经走出深圳,在贵阳、沈阳、三亚、盐城等城市多点开花。
政务建设:大数据助力“一证走深圳”
“大数据不仅能让深圳政府做好惠民工作,更重要的是,还能做到 善政 。”
大数据能帮我们做些什么?在华傲数据CEO贾西贝看来,大数据的想象空间很大:“让政务数据 跑起来 ,实现市民 一证走深圳 ;从大数据看公共服务规划,能让政府的决策更科学;用数据众包的方式让群众参与到社会治理中来;想要借贷,录入信息后,系统便能收集并分析个人详细数据,迅速判断是否借款、借多少款合适。”
所谓大数据,是指一种规模大到在获取、存储、管理、分析方面大大超出传统数据库软件工具能力范围的数据集合。事实上,未经处理的数据本身并不具备更多价值,如何分析和利用大数据助力产业发展才是关键。
如何才能拥有大数据资源?贾西贝用三个词进行了总结:汇聚、采集、沉淀。“首先是把城市的数据资源汇聚起来,形成完备的数据生产体系,构建城市数据 养鱼池 ;其次是把这个城市的数据资源运营起来,让其惠及民生、振兴产业、提升治理。”
近日有报道称,深圳一对夫妻为办理二孩生育证,全家出动到各政府部门盖了10多个红章,带着几十份复印资料和身份证、户口本等证件奔波,花了近4个月时间才拿到了生育证。“以前办这些事,百姓跑断腿,基层工作人员也被折腾得 天昏地暗 。”贾西贝直言,冗长的办事过程浪费行政资源,办事效率也极低。
“大数据可将各个政府部门、上千个业务系统的数据真正汇集起来。”他认为大数据的应用将带来这样的“奇迹”:“居民基本信息一次填入,万次使用,大数据能帮助居民自动生成一份涵盖所需数据信息、被多方认可的业务表单,以及办理该事项所需的数据化的证件 原件 ,免去复杂的填表和查证过程。数据能在不同的业务系统中有序流动,让市民实现一证(身份证)走天下、甚至一号(身份证号)走天下。”
“要做到上述内容,技术上已经可以实现,剩下的问题是如何破除各部门之间的壁垒。”他说,通过数据的汇聚、清洗、融合,原本碎片化的政府部门将在数据世界中变成一个整体。
在这方面,深圳已尝到“甜头”。作为深圳电子政府战略合作伙伴,华傲数据从2012年开始参与了深圳社会建设“织网工程”,将深圳全市36个委办局、近3000个指标项、近百亿条数据量的数据进行梳理,建立起一个近2000万人口的关系大图。
数据清洗:从“坏数据”中挖掘价值
“比如一个人能贷款200万,但他同时在10个平台贷款,将这些数据收集比对后便能发现问题。这就是发现 坏数据 的过程。”
2013年,《哈佛商业评论》一篇题为“谁来引领中国大数据的发展”的研究报告引发关注,IBM、ORACLE、Intel等知名国际公司名列其中,中国有三家企业入选,分别为百度、腾讯和华傲,后者是数据整理领域唯一入围的中国企业。
“坏数据”的来源十分广泛。贾西贝说,以政府为例,其系统中“坏数据”的来源可能是办事人员错误输录表格,发现问题后,可以有助完善业务流程;也可能是数据造假,从中可以发现失信和犯罪线索,发现骗保、骗贷问题,减少社会开支的浪费。
厚积薄发,华傲数据在政府、金融、互联网等行业不断沉淀,并提供多元化的大数据技术与应用领域的解决方案。其研究团队在国际研究界和工业界屡获殊荣,过去8年间9次获国际重要奖项,如世界顶级数据库综合会议VLDB 2010年最佳论文奖,2010、2015年两次获得世界顶级数据库理论会议ACM PODS十年最佳论文奖等。
贾西贝向记者重点介绍了研究团队在2008年获得的英国计算机领域最高奖——罗杰尼达姆奖。为什么能获此殊荣?这离不开华傲数据的数据清洗技术。
数据清洗对很多人来说还是个陌生词,贾西贝解释道:“数据清洗实际上是把数据垃圾变成数据资产的过程,或者说在碎片化数据里,区分优质数据和劣质数据的过程。”他表示,“坏数据”比“好数据”更有价值。
什么是坏数据?“数据也分优劣,举个简单的例子,一个班里全体学生各科的考试成绩就是一组好的数据,如果缺失了几个同学信息或者某科成绩登记错了,就是不好的数据。而在现实海量数据中,很多数据都是缺失、错误或者重叠的,华傲的核心技术就是将海量垃圾数据清理提炼成有价值的数据资产。”华
傲数据科学家徐磊这样解释数据清洗。
在合理利用之下,数据垃圾也能变成数据资产,例如数据清洗技术在银行风控系统的应用空间也很大。“大数据蕴含诸多个人失信线索,在未对其进行采集、沉淀之前,这些线索难以被发现,由此导致了 老赖 多贷 等欺诈行为。”
贾西贝告诉记者,通过华傲数据的数据清理技术,能将相关政府部门、银行、互联网金融公司的数据汇聚到一起,进行识别、比对。“首先进行的是数据验证,一个人有没有稳定工作以保证还款、社保和公积金的缴纳情况,这些都能通过数据深网爬虫平台辨别真伪,然后进行数据核实。比如一个人确实能贷200万,但他同时在10个平台贷款同样数额,这些数据收集比对后,便能发现问题。这也就是发现坏数据的过程”。
技术的沉淀离不开高精尖的人才队伍,贾西贝和他的团队骨子里依然是“学者”。然而,顶尖创新技术如何转变成为生产力,是许多学术起家的创业家共同面临的问题。2011年创业初期,贾西贝没有过早地接触商业市场,而是选择担任公司CTO(首席技术官)。
两年后,他开始接任CEO。“刚开始当CEO时我得先学习销售,因为要把我们的技术向客户讲明白;还没太多时间消化销售知识,公司就要开始融资了,这又需要我对资本市场有一定了解;学习得还不足够深入,新三板、创业板又来了,公司也开始布局上市。”贾西贝说,市场无时无刻不在推动着他和华傲数据向前走。
团队创业:从英国到中国、从北京到深圳
深圳有着和发达国家相似的政治、商业环境以及类似硅谷的移民城市特点,“我们比较 吃 这一套,环境透明让我们心里更有底”。
从爱丁堡到深圳,需要多久?搭乘飞机的话,算上转机时间,一般需要23个小时。不过,要吸引一个海外顶尖创新团队来深,则需要政府拿出对人才高度重视的态度,同时出台配套政策、清晰产业发展方向,这需要数年时间,甚至更久。
2004年,贾西贝赴英留学并获爱丁堡大学博士学位,师从樊文飞教授的马帅和吴颖徽是贾西贝的师兄弟,他们共同在爱丁堡大学成立了数据库研究组,这便是“华傲数据管理研究团队”,也是华傲数据技术有限公司的前身。2011年,贾西贝和华傲科研团队回国创业,首先选择了北京。
不过,“书生”气质的贾西贝一向不善于和政府打交道。他发现,有着和发达国家相似的政治、商业环境以及类似硅谷的移民城市特点,是深圳不同于其他城市的地方,这对他吸引力很大,“我们比较 吃 这一套,环境透明让我们心里更有底”。
与此同时,创新创业的星星之火正在南粤大地燎原。贾西贝回忆,当时整个广东的创新氛围很浓,深圳的政府领导、企业家也都非常重视他和他们团队。“北京聚集着许多国企、央企、科研院所和校办企业,但缺乏 草根 公司创业成功的轨迹。相比而言,深圳有背景的企业不多,反倒是 草根 成功创业的企业非常多:房地产有万科、金融有平安、通信有华为、互联网有腾讯……”他说。
贾西贝认为自己是个“草根”创业者。显然,深圳的创业环境更适合贾西贝这样的“草根”成长,于是他从北京“跳”到了深圳。
此外,华傲数据与哈尔滨工业大学、香港科技大学等高校合作承担了“海量数据可用性(量质融合的数据管理)”的国家973项目,改变国内在量质融合管理方面的落后局面。华傲数据还联同宝能科技园共建了深圳市大数据创客空间,这是《深圳市促进创客发展三年行动计划》中重点支持建设的项目;与深圳软件园、西北工业大学共建“具备国际影响力的国家级大数据教育平台”——华傲大数据学院。
值得一提的是,华傲数据管理研究团队在国际数据库顶级会议SIGMOD、PODS等发表论文36篇。其中一篇论文的技术已被华为美国研究所验证,将华为十亿级用户数据查询效率提高最低25倍、最高可达10万倍。
“海外部分顶尖人才因深圳新一波政策来到这座城市,这从某种程度上解决了深圳各个产业链发展过程中面临的人才紧缺问题”。贾西贝说,深圳对顶尖人才的吸引力越来越大,但本土人才的储备量仍略显不足,“人才金字塔的 夹心层 有缺失和漏洞,创业公司少不了 土鳖 ,团队能协同运作、成员各司其职才是主要目标”。
观察
华傲数据如何当一家“慢公司”?
如何利用大数据来建设智慧城市,同时让这些大数据变现?这是贾西贝在创业初期便不断思索的问题。“各个城市在大数据的发展中,常苦于线下和线上数据来源的获取和丰富”,贾西贝说,大数据城市建设的重要核心之一便是数据采集,由此形成数据资源和资产。
尽管华傲数据已拥有完全自主知识产权的数据深网爬虫平台和团队,沉淀了全国企业基本数据、黑白名单征信数据等线上数据,但靠这些似乎依然不够。
怎么办?去年底,华傲数据推出了“随手赚”,这是国内首款社会数据众包APP,全民数据采集、科学网格化数据采集由此成为可能,并将逐渐形成滚雪球式的数据价值积累效应。“我们把共享经济理念引入到数据生产中来,每一个人都可以成为数据采集员。通过 随手赚 ,可以帮助深圳增强数据生产能力、培育数据造血机制并培养全民大数据意识”。
此外,华傲还基于大数据信用反欺诈和信用评分推出大数据金融科技产品“随手借”APP,只需要几分钟,便能判断是否借款、借多少款给使用者。贾西贝告诉记者,“身份欺诈”“材料造假”等行为在“随手借”APP里行不通,系统会通过各金融平台、银行等共享的大数据,甄选不符合条件的“黑名单”,有效避免“多贷”行为。
记者体验“随手借”发现,这款APP界面简单、容易上手,记者仅录入身份证、联系人等基本信息后,系统便给予了4300元的借款额度。
不过,产品问世之后,华傲数据并没有像部分互联网公司那样疯狂“砸钱”推广,拉拢用户。“盲目放大未经验证的商业模式,等于慢性自杀。”贾西贝直言,华傲数据是一个“慢公司”,因为与金融挂钩的业务需要沉淀。“ 随手借 做得慢,是因为该产品具有一定探索性,没有路子可循。现在已经有很多公司推出同质化产品进行竞争,但我们也不想加快占领市场的速度,因为我们比的不是用户数,而是坏账率”。
“这两款APP我们都没怎么烧钱, 随手借 的坏账率也很低。”贾西贝明白,做好一件事不能浮躁,需要沉下心来将商业模式锤炼成熟。“我们和滴滴打车不一样,网约车市场讲究快,不然别人就占领市场了,但如果我们这么做,很可能会形成极大的坏账黑洞。”他说。
