当前位置:首页 > 新闻中心 > 公司新闻

大数据架构面对身手集成的庞大阻挡

发布时间: 2021-09-27 02:47:51  来源:火狐平台开户 

  企业能够诈骗Hadoop以及一齐与它联系的身手策画大数据情况,以满意其特定的需求。但把一齐的身手集成正在沿途并不是一件容易的事。

  IT团队寻求修筑大数据架构时有多量的身手可供挑选,他们能够夹杂搭配百般身手以满意数据统治和剖释需求。然则有一个题目存正在:把一齐须要的身手框架组合到沿途是一项困难的使命。

  正在一贯扩展的Hadoop生态体例中,挑选和计划适宜的大数据身手是一个永恒频频的经过,周期要以年计。除非公司统治者愿花多量财力和资源来加快饱动项目。挑选身手的经过中有失误鉴定是很常见的,一家公司的架构远景不必然实用于另一家机闭,即使是一律相仿的行业也不成。

  Bryan Lari是美国德克萨斯州大学MD安德森癌症考虑核心(位于息斯顿)考虑剖释主任,他说:“我时时跟人说,这不是像你正在亚马逊下个订单或者从苹果店肆买个东西那么单纯的事。这是一件杂乱的事,它须要一个经过。咱们正在半年或者一年之内是做不完的。这也不是能够套用公式就能使用的身手,假使有良多案例或者用户有得胜阅历,但咱们也可以用区其余用具来满意咱们的需求。”

  MD安德森的大数据情况召集正在Hadoop集群中,正在三月份的时刻参加了临盆情况,初阶计划用来统治病人房间监督装备传输回来的紧张信号数据。但是,数据湖平台还席卷HBase(与Hadoop配合的NoSQL数据库),Hive(Hadoop赞成SQL的软件),再有百般其他Apache开源身手,比如:Pig、Sqoop、Oozie和Zookeeper。别的,这家癌症诊疗和考虑机闭还计划了Oracle数据货仓举动讯息库来赞成剖释和报表使用,再有IBM的Watson认知谋划体例供给天然措辞统治和呆板进修性能。改日展示新的数据可视化、统辖和和平用具也势必会加入进来。

  MD安德森癌症核心的IT团队正在2015年头就初阶行使Hadoop。为了演示可以的使用情景同时谙习该身手,该核心最初行使根本的Apache Hadoop软件修筑了试点集群情况。其后,他们计划了Hadoop Hortonworks散布式架构用于临盆情况。

  Vamshi Punugoti是MD安德森癌症中兴考虑讯息体例的副主任,他说从这回试点项目中取得的阅历能够使他们统治架构调剂更容易。跟着新的大数据用具展示,总会有调剂架构的可以性,必然须要性能加强或者更换组件。Punugoti说:“这是个连接更新的经过,席卷咱们搜罗到的数据都正在一贯变革着。假如咱们以为(现有架构)能够统治所有那就太生动了。”

  Uber平台工程师团队花了约莫一年时辰策画了多层大数据架构,然则这么多身手组件搭筑的有点紧张。Uber公司Hadoop团队高级工程师Vinoth Chandar说,该公司的现有体例跟不上交易运营带来的敏捷延长的数据量。结果,大个人数据不行举办及时剖释,Chandar以为这对待Uber公司提倡本质性“及时叫车”理念来说是个大题目。

  为了帮帮运营司理告终数据驱动,Chandar和他的同事们搭筑了Hadoop数据湖情况,个中席卷HBase、Hive、Spark统治引擎、Kafka动静队伍体例,再有其它少少身手。个中少少身手是内部修筑的,比如:有一款数据提取用具Streamific。

  有了该架构之后,Uber公司将追逐大数据和剖释的艺术状况。然则,这并不是容易做到的。他半开打趣地增补说:“为了把这些身手组件整合到沿途,咱们十片面简直一年没有睡觉。”

  架构的离间对待机闭来说可不是闹着玩的。Gartner筹商公司预测,到2018年,70%的Hadoop计划将无法告终他们朴实本钱和收入延长的目的,闭键缘故是技艺亏欠和身手整合困穷。Gartner公司剖释师Merv Adrian说,整合窒碍还正在加剧,Hadoop分发商与大数据身手相闭的数字还正在稳步攀升,这代表了计划Hadoop的公司对Hadoop身手赞成的需求量趋向。

  正在2016年安谧洋西北地域BI峰会上,Adrian陈列了46种Hadoop联系的开源身手更始,这些产物都是由一家或者多家分发商供给赞成任职的。然则,要把这些组件放到大数据架构中却是留给行使方的处事。“大大都Hadoop项目都像是艺术处事,咱们都要把这些身手组件整合到沿途行使。”

  这种整合组合处事詈骂常困难的使命,即使Hadoop不是框架中的一个人。Celtra公司供给了一个平台能够策画正在线显示和视频广。

  大数据技术是学什么的