数据是一种新的生产要素,企业在经营过程中合规采集到的第一手数据,毫无疑问,是企业的资产。
资产是可以产生价值的。要把数据用起来,让数据产生价值,企业首先得知道手里有哪些数据。
为了知道企业有哪些数据,我们就要对数据进行盘点,看看企业里使用了哪些数字化系统,采集了什么数据、怎么采集的、保存到了哪里。我们要把这些信息记下来,整理好,统一放在一个合适的地方,以便在需要使用数据的时候,可以随时查询,
这些整理好的信息,叫数据目录,就像超市的商品目录、厂家的产品目录一样,是给需要它的人看的。
企业里持续不断地产生数据的系统可能有很多,而且在不停地变化。手工整理和记录这些信息,工作量大不说,时效性肯定满足不了实际应用的需求。
有一类数据目录软件(Enterrpise Data Catalog),就是用来解决这个问题的。
数据在各种数字化系统中产生和被采集,然后被储存在各种系统中。我们可以把这些产生或存储数据的各种系统,叫做数据源。
数据目录软件能自动从这些数据源提取信息。这些关于数据的信息,也就是所谓的元数据。
企业里可能有各种各样的数字化系统,分别存储着各自领域的业务数据。比如,传统的 ERP 系统里,存储着进销存数据;CRM 软件里,管理着客户资料;专门用于精细化营销的、自建的会员卡系统,则存储着 VIP 会员积分和营销活动记录。
这些软件的数据库,都由企业自己管理,只是它们互相不连通,而且也不方便给那些需要使用数据的员工随时查询和访问。
数据目录软件可以通过标准的数据库连接方式,来访问这些数据库,获取元数据,也就是关于数据的信息。比如,都有哪些数据表、每个表都有哪些字段,字段都是什么类型,表与表之前有什么关系,把这些元数据统一收集到数据目录中。
企业也可能使用各种 SaaS。用抖店、有赞、微信小商店卖货,用企业微信运营私域,用 Udesk 提供客户服务。
因为不能直接连接它们的数据库,数据目录软件只能通过 API 访问这些 SaaS。
跟访问数据库提取信息不一样,数据目录软件需要为不同的 SaaS API 专门定制数据连接方式,每个 SaaS 的元数据也是单独定制的。实现连接方式的功能模块,叫连接器(Connector)。
理想的数据目录软件,应该内置尽可能多的连接器,让企业可以通过简单几个步骤的配置,就能连接各种数据库、数据仓库、文件存储,连接各种常用的 SaaS 软件, 收集这些来自不同数据源的元数据。
企业中有各种各样的数据消费者(Data Consumer)。他们需要依赖企业的数据来完成工作。他们可能是是产品经理,要使用数据来完善产品体验;可能是开发业务系统的程序员,也可能是业务分析师、数据科学家,或者是负责合规、封控的人,不一而足。
他们需要知道企业有哪些数据,他们的工作也依赖于数据的质量。
就像我们去图书馆借书时, 查查看馆里有没有自己想要的书、有没有被借走,数据消费者使用数据目录软件,也可以达到类似的目的。
数据消费者使用数据目录软件时,可以通过导航页浏览企业中的各类数据信息,也可以用关键词搜索。他们使用的关键字很可能是业务词汇,比如”客户“,假设在 CRM 里,这个数据表叫 customers,而在企业微信,客户数据叫 external contact(外部联系人),那么就需要一定的机制来关联这个业务词汇和对应的元数据。
有些数据目录软件使用 AI 自动匹配数据和相应的业务词汇,但即使不能匹配,它也至少提供一个协作功能,让数据消费者以及负责管理数据的人,来给每一份数据标上业务词汇,打上标签,添加描述信息。
负责管理和维护数据的人,叫数据管家(Data Steward)。一个企业里可能有很多数据管家,不一定专职,他们可能是业务部门的人,负责管理跟自己部门相关的业务数据。
数据管家是数据目录软件的另一类主要用户。他们要保证数据的质量,推动数据在企业中的使用,还要管理元数据的访问权限,确保数据的合规使用。
这些使用数据目录软件的不同角色,他们关注的元数据是不一样的。
一般来说说,可以把元数据分成业务、技术、和操作三类:技术元数据,包括数据类型、格式、所属的数据模型(表、字段)、校验规则等;业务元数据,指数据所属的业务领域、主题、治理规则、以及其他任何可以提供业务信息的数据;操作元数据,关于业务系统对数据做了什么处理的信息,数据是从哪里如何采集、经过了哪些转换、被谁访问过。
数据产品经理、程序员关注的是技术元数据;业务分析师、数据科学家、合规审计人员关注的更多的是业务元数据;数据管家则更关注操作元数据。
除了提供这些元数据,数据目录软件一般还提供数据的概要和预览。
数据消费者们可以看到某个数据的大致情况,也就是概要(Profiling),比如有多少条记录、某个字段的取值范围、统计结果,也可以查看它具体的数据样本。
数据管家关注的可能是数据质量,这类信息通常是根据预设的规则,对数据进行校验,并统计、打分。比如大家都熟悉的,身份证的结构规则, 18 位字符,第 7 - 14 位是生日,第 18 位是校验位。可以用这条规则,给某个记录了身份证信息的字段,打分。类似的关于数据的校验规则在不同领域和不同业务中有很多。
当然这里就涉及到一个非常重要的问题,敏感信息保护,数据目录软件要对此提供专门的支持。数据管家可以直接标注某个数据字段为敏感信息,可以提供一些基本规则给数据目录软件,让它自动查找和标注敏感信息。这些规则,可能是特定的字段名,如手机号、身份证之类的,也可能是特定的结构,比如上面提到的身份证的结构。
被标注为敏感信息的数据,要经过了脱敏处理,才能给数据消费者访问和使用。
数据目录软件一般会跟各种数据分析软件,BI 工具集成,方便业务分析师、数据科学家们通过简单的点击操作,就把数据源的信息转到他们习惯的分析和报表工具中使用。
数据目录软件并不是一个新鲜事物。
国外有很多数据目录产品,比如 Alation,Collibra,Informatica, Talend,Data.world,Atlan 等等。国内虽然很少独立的数据目录产品,但各种层出不穷的数据中台,都包含了一些数据目录的功能。
它主要是用于数据治理,帮助企业盘点数据资产,提升数据质量,加强团队对数据的理解,以及确保对数据的使用是合规、安全的。
它并不直接帮我们使用数据,但正如华为陶景行先生所说,“数据治理是企业数字化转型的牛鼻子,必须签好这根绳“,建立数据目录,就是签好这根绳子的第一步。