当前位置:首页 > 新闻中心 > 公司新闻

硅谷的大数据平台架构什么样?看看TwitterAirbnbUber的实习

发布时间: 2022-05-27 11:48:05  来源:火狐平台开户 

  原题目:硅谷的大数据平台架构什么样?看看Twitter、Airbnb、Uber的履行

  Twitter是最早一批推动数字化运营的硅谷企业之一,其公司运营和产物迭代的良多功效是由其底层的大数据平台供应的。图7-2所示为Twitter大数据平台的根本示图谋。

  Twitter的大数据平台开垦较量早,良多组件是其内部开垦的,后面都有开源组件来对应。

  用户干系图存正在于Twitter的大领域MySQL漫衍式集群中,操纵单个MySQL动作存储单元,正在上面增补一层漫衍式谐和数据分片(sharding)和调换的体系。

  好像于Sqoop和DataX的体系,能够从MySQL中将交易数据导出到Hadoop、HBase、Vertica里,闭键用Java编写。

  大领域漫衍式数据处分体系(MPP),能够剖释为一个以OLAP为闭键劳动的漫衍式数据库,闭键用于修造数据栈房。好像的贸易产物有Teradata、Greenplum等,好像的开源器械有Presto、Impala等。

  日记及时搜集器械,好像于Flume和Logstash,闭键宗旨是将日记及时搜集到Hadoop集群中(图7-2中的RT Hadoop Cluster)。

  闭键是将客户端埋点的数据或其他必要及时处分的数据写入各样动静中心件中。

  Kafka是开源的动静中心件,EventBus和Kestrel都是Kafka闪现之前Twitter内部开垦的动静中心件。必要内部体系的来因是有些交易必要好像于exactly-once(确定一次)的语义或者其他格表需求,而Kafka成熟较晚,直到2017年的0.11版才推出exactly-once这种语义。

  动静中心件的数据会被一个及时处分体系处分。Twitter早期用的是Storm,但其后创造Storm功能和开垦题目较量大,就自身用C++开垦了一个与Storm API兼容的体系Heron来代替Storm,并正在2016年开源。

  Nighthawk是sharded Redis,Manhattan是sharded key-value store(用来代替Cassandra),推文、私信等用户讯息存放正在Manhattan里,Nighthawk动作缓存,这些组件是直接任职交易的;及时处分的数据和少少批处分阐明的数据也会放正在这里,被交易体系移用。

  日记复造器械,闭键操纵Hadoop的distcp功效将日记从及时任职器复造到另一个大的临蓐集群。

  比如苹果使用商铺的数据,这些数据操纵定造的爬虫步调正在Crane框架里履行。

  用来正在各个数据核心、冷热Hadoop集群、测试/临蓐集群中同步数据目次。

  Twitter的数据可视化/BI器械,Tableau是通用的贸易化器械,闭键供拥有统计配景的数据阐明师操纵;Birdbrain是内部的BI体系,它将最常用的报表和目标做成自帮式的器械,确保从CEO到贩卖职员都能够操纵。

  实质上,Facebook、Twitter、LinkedIn、EA、Uber、Airbnb、Lyft、Pinterest以及良多其他硅谷公司的大数据平台架构都极度好像,下面咱们以Airbnb和Uber的数据平台架构为例举办先容,看看它们之间的协同点。

  Airbnb采用可扩展的大数据平台以确保产物能知足交易的增进,并对Hive集群只身分辨金集群和银集群,对数据存储和计较举办分手以担保灾难规复。

  蕴涵各样交易数据的搜集,比如将数据埋点事项日记发送到Kafka,MySQL数据通过数据传输组件Sqoop传输到Hive集群。

  用到了YARN,同时通过Druid和亚马逊的RDS杀青对数据库相联的监控、操作与扩展。

  闭键采用MapReduce、Hive、Spark、Presto。此中,Presto是Facebook研发的一套开源的漫衍式SQL查问引。