以数据使能,打造城市标准化数据体系

日期: 2020-12-04
浏览次数: 16



12月3日,“华为云TechWave数据使能专题日”活动如期举行,各大产学研专家和意见领袖围绕“数据使能”这一主题,从数据产业快速发展的痛点出发,深入讨论如何塑造一个基于领先技术平台、生态合作交付、加速数据资产化的数据产业,探讨数字要素进展,描绘产业发展步伐。


以数据使能,打造城市标准化数据体系

在行业实践板块,华傲数据CTO陈立先生受邀做主题分享。他以“打造城市标准化数据体系”为题,讲述了华傲关于数据治理的故事,分享华傲十年磨一剑,用数据治理为数字要素进展保驾护航,助力城市站在数据之巅的实战经验和成果。

以数据使能,打造城市标准化数据体系

以下为陈立先生的分享实录:

    各位先生、女士,大家好!欢迎参加华为云TechWave数据使能专题日,我是华傲数据CTO陈立,非常荣幸今天有这个机会跟大家分享在数据政府建设中数据建设的这一块体会。

    首先,请允许我简单介绍一下华傲数据:华傲数据成立于2011年,将近10年的时间,我们创立之初获得了国家三大顶级数据的资助,包括国家“973”的资助,我们的创始团队在国际上久负盛名,在国际会议上我们拿到了论文的金奖,这是世界上仅有的两个团队之一。我们在数据治理领域获取了300多项专利,其中50多项国际专利,在数据治理的企业中也是独一无二的。

    2016年,总书记提出了“三融五跨”的数据治理理念,华傲数据也有自己明确的目标,我们把“五跨”数据融合定为我们的终极目标,我们要做这个行业的领导者。我们要做“五跨”数据分析和应用的创新者,现在数据要素的概念也越提越多,政府在数据的监管保护方面也提了更多要求,华傲也愿意做这方面的先行者和探路者。

    华傲这十年围绕数据治理领域,十年磨一剑,经历了政府数据从少到多、从不规范到规范、从不重视到重视的过程。2016年,国家也提出了大数据的战略,把数据资源作为重要的基础资源。2019年到2022年,国家把数据归为生产要素,与土地、劳动力、资产作为生产要素基础之一。

在这样的背景下,数据要如何达到生产要素的基础和能力呢?

   华傲一直聚焦于数据政府这个领域,我们通常把数据分类分成个人数据和公共数据,政府数据在公共数据里面是核心的一部分。在数据要素资产化的过程中,我们要解决的最重要的问题和困难点是什么呢?从政府的数据来讲,它有两大难题:

   第一,数据获取难的难点;

   第二,数据使用的难点。

   数据在获取的过程中,由于政府的部门很多,有40多个委办局,每个委办局都有自己建立的各种系统,各种系统之间又是烟囱林立,造成数据之间的交换非常困难。在进一步解决获取的难题之后,我们还面临数据使用的难题。因为不同委办局的数据有不同的标准和规范,从而造成了数据的不一致。面对数据多、少、乱、错、旧的现象,怎样解决这些问题是政府面临的最大难题。

以数据使能,打造城市标准化数据体系

   通过一个客观的例子看一下政府的数据到底是怎样治理的。最后是达到数据的目标,也就是非常清晰的张三这个人的人口信息(户籍、性别、年龄),这个数据从数据源来说,我们可以从公安、民政、街道多个维度获取,这些数据汇集过来以后面临一个什么问题呢?就像三个人坐在一起聊天,你讲中文,我讲英文,他讲法文,说不到一起,我们要解决数据标准的问题只有数据标准统一才能做下一步的工作,在标准化以后发现,这些数据统一起来,我们要把“张三”这个人识别出来(三个部门识别出来)。然后我们发现数据有一些冲突,在户籍、公安、民政和街道都不一样,那怎么解决呢?我们要对数据确定一个权责的单位,也就是到底采信谁的数据。我们还有其他的原则:新鲜度原则和最大最小值原则,我们采取一个确信的数据来源,这样得到准确的“张三”的数据。

   这个过程是非常复杂的,大家去做也因人而异,因时而异,如何做到标准化呢?其实最常用的手段就是技术架构,在企业里面解决战略问题和企业问题时往往也会从业务架构、技术架构、信息技术、应用架构几方面去解决,数据治理应该用什么样的架构?华傲和华为形成了一个联合的解决方案,在政府的数据治理上结合了DAYU的产品和实施的技术形成了这样一个架构,实现了整个数据从采集到进入数据湖形成数据底座的过程,数据底座里的数据可以通过业务流程关联,通过数据对象关联起来。数据湖建立起来后,数据可以打标签、定指标,以及基于一些算法形成数据的模型。

   从而,在数据湖的基础上形成数据服务,数据服务形成政府的分析能力,政府以此来做数据化的运营、业务流程的提升、决策分析和实时数据的可视化呈现。最后形成数据资产,包括元数据、数据地图、数据指标等业务对象的沉淀,这些资产是数据作为基本生产要素的体现。有了这样一个工具后,我们还要有一个实施的过程,在实施的过程中也需要开发架构的规范化,我们把它分成六层:贴源层、标准层、原子化、整合层、主题层、安全层等等,基于这个架构就可以方便政务数据的治理了。前面谈到了有什么工具和什么架构,其实对于一个项目来说还是远远不够的,就像应用系统的开发,我们有Java这样的工具,也有DevOps开发流程的管理,这样可以交付给客户一个满意的系统。对于数据开发也是一样的,有了DAYU这样一个工具,我们也需要一个数据开发流程管理的办法,我们把这个办法叫做DtOps。这个实施方法论要解决数据开发的诸多问题比如如何去定源。确定了源头数据之后,我们怎么保证满足客户各方面的需求,由杂乱的需求变成有序的需求。确定源头数据,也有了数据需求之后,就是解决数据开发的中间过程的问题了。从源头开始,通过规范中间开发过程来保证目标的实现,这个数据开发的过程我们叫做DtOps。

以数据使能,打造城市标准化数据体系

   先看一下数据定源。首先对于数据进行调研,摸清政府数据整个家底;

   第二,对于数据调研的结果形成数据编目,也就是政府这一块的数据架构;第三要形成数据标准,根据标准开发数据处理的规则。这就像刚才举的例子里面遇到的一样,我们必须有一个共同的语言(世界的语言),在这些基础上我们要确定数据的权责单位,这实际上是在整个数据定源和调研过程中最大的工作量,要把每个字段采信谁都确定下来。

以数据使能,打造城市标准化数据体系

   数据定源以后,我们要做的是明确数据应用的需求。因为没有需求,数据做得再好也是得不到应用。我们把应用场景分成三类,通常从技术角度来讲分AP和TP两类,政府这一块多了信用类的应用,因为政府有很多信息比对的场景。当然在这个需求的前提下,我们就可以去设计基础库、主题库,也就是Government Logical Data Model(政府逻辑数据模型)。

以数据使能,打造城市标准化数据体系

   源头和目标需求都确定以后,我们要确定过程,这个过程也是非常复杂的,就像前面架构上定义的要经过六层。六层怎么去做呢?我们把数据的采集做到标准化,构建工厂,把数据定义的标准转化成为一个个构件,对数据进行标准化的清洗。数据模型工厂,根据数据的需求设计模型。数据接口工厂,数据处理好以后,通过数据接口对外接口服务好、定义好。经过这样的过程,我们流水线式地把数据产生好、使用好,供更多人使用和调用。

   生产线下来还有出厂检验,传统工厂流水线出来以后要做检查,我们要对数据质量、数据标准做符合性测试,数据安全角度进行脱敏,做到这个以后才能高质量的交付。我们实际上解决的是政府数据“两错五性”的问题。“两错五性”是什么?政府数据有两大问题:

   一是形式性的错误。数据多了、少了或者不标准的问题,通过数据程序进行修改;

   二是数据实际的错误。比如“我”是深圳人,但在数据库里面“我”是东北人,这个数据通过程序发现不了,只有“我”办事时才能发现数据不对,需要修改,这样就需要一个工单系统,帮助修改数据。

以数据使能,打造城市标准化数据体系

通过流水线生产了数据,质量检查数据也是合规合格的,我们就可以给外部去使用了。

以数据使能,打造城市标准化数据体系

但是在政府这里还面临两个问题:

   第一,政府委办局特别多,无法一下保证在数据湖里建好的数据都是高质量的,因为有很多数据权责的问题需要政府的流程来解决;

   第二,数据标准的问题,数据的标准化是一个长期的过程,不断有新的数据产生,这部分数据进来以后怎么办?我们的做法是把数据打上标签,类似于水的治理,水的污染法把水分为五级,不同的水在不同的场景下使用。数据是同样的:

   1、高质量的数据(通过确权的数据)可以在个性化的应用场景去使用;

   2、而对于这些低质量的可以在统计分析的场景下去使用,因为这部分数据多一个少一个不影响确实分析的结果;

   3、再差一点的质量可以在数据对比的场景下使用,数据不对给出告警,告警之后还有人核对,对错没有那么致命。我们可以根据不同的应用场景来满足不同质量的要求。

以数据使能,打造城市标准化数据体系

最后总结一下,通过整个DAYU的工具,通过DtOps的方法,以结果为导向,我们通过“三用三库”、“两错五性”、“五级五色”的方法可以帮助政府快速高质量构建数据体系,让城市真正站在数据之巅,我今天的分享到此结束,谢谢大家!

以数据使能,打造城市标准化数据体系


友情链接:
关注我们
微信二维码
Copyright ©2011 - 2018 深圳市华傲数据技术有限公司
犀牛云提供企业云服务