大数据、数据仓库和ETL - 好文

一、背景

大量原来线下的业务电子化之后，产生了很多的数据，这些数据除了能够支撑业务正常运转，也能够使分析人员针对整个企业的运转情况进行分析。比如，本周与上周相比销量增加还是减少了？原因是什么？
产品的库存周期长了还是短了？哪些产品需要及时补充库存？哪些供应商提供的商品，成本低、质量好、及时供货、客户比较喜欢？哪些地方的支出变多了？用户对我的产品满意吗？客户发生了哪些变化？需要招人吗？招什么样的人？
上面这些问题分别涉及销售、库存、采购、会计、客户、HR等各个层面。

二、业务型系统与分析型系统的区别 OLTP VS OLAP

OLTP：代表具体的操作，是对原来线下操作的模拟。

OLAP：关注整体的分析和决策。BI之前叫作决策支撑系统。

三、数据仓库是什么

OLAP关注分析，需要更宏观的数据视野（大量的细节会使人看不清楚），需要做跨系统的数据整合。业务型的数据专注于具体的操作，不适合做分析。数据仓库的核心是把所有系统的数据进行集成，保证数据的一致性，并且要能反映出业务系统的变化（支持敏捷开发，增量开发）。这是一个艰巨的任务，比如同一个东西一个表叫id，一个表叫seq，业务里存1行，仓库里可能需要2行。

四、数据模型是什么？（数据结构）

数据仓库里的数据怎么存储？（关系模型还是数据立方体？文件还是图片？）彼此间的关系怎么定义？怎么样反应业务系统里的变化？怎么样使存储上省空间？怎么样使查询更快？怎么样方便的出报表？怎么样实现增量开发和敏捷开发（避免返工）？怎么样定义跨多个业务系统的数据？……

五、ETL 是什么

把数据模型定义的结构，具体实现的过程。在大数据出现之前，业务系统和仓库都是结构化的数据，对应的ETL的接口主要是sql。大数据时代，ETL的具体实现技术是类似于
map reduce的任务，hivesql等。

六、数据部门需要做的事情

1、搭建好能够支撑离线分析和实时分析的整体技术架构平台。具体的会涉及到
数据埋点、数据同步、分布式作业调度和计算、消息队列、流式计算、对外提供服务的方式等

2、具体数据模型的设计和实现（ETL和数据仓库）

3、针对具体应用的报表

4、使用机器学习等技术实现的模型

七、大数据部门的人员角色划分

1、计算机技术人员熟悉数据埋点、抓取、消息队列、hdfs spark storm hbase hive 等分布式技术的人员

2、数据建模人员分析业务，设计数据仓库的模型，通过第一类人的技术实现仓库的构建

3、数据挖掘/分析人员具体的设计模型、报表等

八、业界事实标准

1、数据模型--kimball的维度模型。简单概括：1》使用企业数据仓库总线做数据仓库总体架构设计。2》
将世界描述为相对静态的实体（维度表）和实体之间的交互（事实表）3》事实表代表维度的关联关系 4》用一致性维度实现数据的集成和敏捷开发 5》
用持久性代理键标记实体

2、大数据仓库相关的技术体系

hdfs HBase hive ElasticSearch Flume Kafka storm Spark

总结：大数据仓库是数据仓库的延伸。数据仓库的目标是数据集成，大数据相关的技术是为了数据仓库服务的。具体的分析和应用基于数据仓库展开。即
大数据技术->仓库--》分析应用

热门工具换一换