数说数据分析架构

  • A+
所属分类:赛迪思

我用身边的事情给大家介绍什么是大数据分析,让大家对大数据分析有更深入的了解和进一步的认识。

什么叫数据分析架构,说的通俗点,其实就是数据采集(买菜)、数据建模(配菜)、数据加工(炒菜)、数据分析(吃菜)这些数据分析流程应该如何划分功能模块(专业化分工),才能方便灵活、规模化、最大化的满足广大数据消费者(吃货)的数据分析(美食)需求。

就好比吃饭这件事,我们可以自己在厨房里做,去饭店吃,或者叫外卖等不同方式,这几种吃饭方式是人类生活方式的一种进化,更是通过不同的专业化分工满足了吃货们不同时期、不同层次的需求。而数据分析作为一件相对来说比吃饭更专业的事情,也同样需要通过流程设计和专业化分工来满足更广泛的数据消费需求,我们通常叫做架构设计。闲话少说,先直接上图,我把迄今为止的数据分析架构的历史简单分为三个阶段:

 

  数据分析1.0阶段:数据集

由于在业务系统里直接做数据分析体验不好,还可能会影响正常的业务流程,而企业数据分析的需求越来越完善,业务人员自然而然的希望在业务系统之外专门搭建一个用于数据分析的独立新系统,既能用于支持数据分析,又可以不影响正常的业务流程,于是,数据集应运而生。

从数据集开始,数据分析开始作为一个正式的行业出现,出现了从业务系统到数据集的数据采集和传输(买菜)需求,另外,数据加工,数据分析等专业岗位和从业人员开始出现。

这就好比饭店的出现使得在吃饭这件事上出现了专业化分工,同时也开创了餐饮行业。饭店里有人专门买菜,配菜,炒菜,大厨开始出现,这一方式很好的满足了广大吃货在省事、美食选择、口感方面的需求,体验自然是棒棒的。

 

    数据分析2.0阶段:数据仓库

 

随着企业数据分析活动如火如荼的开展,数据集开始越建越多,同样的数据加工逻辑、指标等难免在分散的数据集里被重复计算,浪费计算资源不说,经常就会出现数据统计口径不一致的问题,让领导们不知道自己该相信哪个数据。这个时候,数据仓库概念应运而生。

数据仓库为了解决数据集分散建设带来的数据不一致、重复计算浪费资源等问题,提倡以一个集中式平台来统一进行数据采集、数据清洗、数据加工,并且向外部提供各种数据分析产品和服务。针对这些问题,辰智科技提供数据管理平台工具对数据进行管理。

数据管理平台的核心是进行ETL和数据质量控制

ETL的过程就是数据流动的过程,从不同异构数据源流向统一的目标数据。其间,数据的抽取、清洗、转换和装载形成串行或并行的过程。

ETL的核心还是在于T这个过程,也就是转换,而抽取和装载一般可以作为转换的输入和输出,或者,它们作为一个单独的部件,其复杂度没有转换部件高。和OLTP项目中不同,那里充满这单条记录的insert、update和select等操作,ETL过程一般都是批量操作,例如它的装载多采用批量装载工具,一般都是DBMS项目自身附带的工具,本项目采用MS的SSIS作为ETL工具,其具备图形化GUI的界面,简单易用,功能强大,数据ETL方案如下图所示

  • 数据抽取      

      提取Extraction就是从源项目中获取数据(无论是何种格式)。这个过程可能很简单,只需要从数据库或者电子表格转储文本文件(flat file);也可能很复杂,需要建立与外部项目的联系,然后控制数据到目标项目的传输。

  • 数据清洗    

      清洗(Data Clean)就是对进入数据仓库的数据清除那些脏数据(dirty data)或噪音,以保证一定数据质量。

  • 数据转换   

     转换通常不仅仅是数据格式的转换(虽然这是将数据导入项目的关键一步)。外部项目中的数据可能包含不一致或者不正确的信息,这取决于外部项目上实施的检查和平衡。转换步骤的一部分是”净化”或”拒绝”不符合条件的数据。这个阶段常用的技术包括字符检查(拒绝包含字符的数值性数据)和范围检查(拒绝超出可接受范围的数据)。被拒绝的记录通常存放在单独的文件中,然后使用更复杂的工具处理,或者手工改正问题。然后将这些数据合并到已转换集合中。

  • 数据加载与数据刷新   

     加载阶段将获取并转换的数据存放到新的数据存储中(数据仓库、数据集市等)。在SSIS中可以对增量更新数据进行封包设计,按照不同的进度来调用。

  •  数据质量控制 

方案采用的是微软的DQS 据质量服务,它为各种规模的企业提供了易于使用的数据质量。DQS旨在通过分析、清理和匹配关键数据,帮助确认数据质量,数据质量表示数据适用于业务流程的程度。用户可以通过各种数据质量指标(比如完整性、符合性、一致性、准确性和重复性等)定义、评估和管理数据质量。同时可通过调整人员、技术和流程提高数据质量。

 

 数据分析3.0阶段:业务报表

 

这个阶段是数据分析的初始阶段。随着数据库技术的出现,企业纷纷开始信息化建设,业务流程信息化沉淀了大量数字化的业务数据,而数据分析的需求其实大家一直都有,既然有了数据沉淀,通过这些数据进行报表统计和数据分析的需求自然就出现了。

1.0阶段,数据分析开始萌芽,数据加工、报表统计都在业务系统里直接进行的(数据产生和数据分析都在同一个系统里进行,所以这个时候还没有数据采集一说)。这就好比自己在家里做饭吃,可以想象,由于食材(数据)、厨房(数据库资源)、手艺(专业能力)等方面的限制,吃饭的体验不会太好,主要满足吃饱(报表统计)的需求。

当然现代业务报表有了很大的改变,比如帆软一类的报表工具,可以跨业务系统、跨数据库取数做报表做分析,甚至对接数据集、数据仓库。

 

 

  • 我的微信
  • 这是我的微信扫一扫
  • weinxin
  • 我的QQ
  • 这是我的QQ扫一扫
  • weinxin

发表评论

:?: :razz: :sad: :evil: :!: :smile: :oops: :grin: :eek: :shock: :???: :cool: :lol: :mad: :twisted: :roll: :wink: :idea: :arrow: :neutral: :cry: :mrgreen: