当前位置:首页 > 新闻中心 > 公司新闻

大数据产物司理必备的数据开采常识概述(一)剖析之可视化

发布时间: 2022-05-29 06:37:23  来源:火狐平台开户 

  数据通过获取、存储、理解之后,最终目标照样为了给用户举办显示,以抵达计划依照的目标。那么怎么有用的将数据显示给用户呢?——数据可视化。

  以下实质承接上一篇著作大数据产物司理必备的数据开采学问概述(一)理解数据。

  数据通过获取、存储、理解,其最终目标是为了给用户举办显示,以抵达计划依照的目标。

  那么怎么有用的将数据显示给用户呢?数据可视化,旨正在合理愚弄图形洗刷有用的表达数据的寄义。

  本节咱们从一维到多维数据起初叙论极少基础数据可视化的示意方式,征求直方图、散点图、基于像素的本事、基础图符的本事、几何投影本事以及方针可视化和基于图形的可视化本事,以此叙论庞大数据对象和相闭的可视化显示。(文中学问多人摘自《数据开采》一书,感意思的同砚能够直接阅读此书)

  起初咱们先研讨常见的基础的统计描绘图形,征求分位数图、分位数-分位数图、直方图和散点图。这些图有帮于可视化地审视数据,看待数据预照料是有效的。前三种图显示一元散布(即,一个属性的数据),而散点图显示二元散布(即涉及两个属性)。

  分位数图,是一种观测单变量数据散布的简便有用方式。起初,它显示给定属性的所稀有据(应承用户评估总的境况和不寻常的映现);其次,它绘造分位数消息。

  分位数-分位数图,或q-q图对着另一个对应的分数,绘造一个单变量散布的分位数。它是一种强有力的可视化用具,使得用户能够观测从一个散布到另一个帆布是否漂移。

  如下图显示给定韶华段内两个分别部分出售的商品的单价数据的分位数-分位数图。每个点对应于每个数据集的肖似的分位数,并对该分位数显示部分1和部分2的出售商品单价。

  通过上图,正在Q1咱们看到部分1的出售的商品单价部分2低。换言之,部分1出售的商品25%低于或等于60美元,而正在部分2出售的商品50%低于或等于78美元,而正在部分2出售的商品50%低于或等于85美元。

  大凡地,咱们细心到部分1的散布相看待部分2的一个漂移,由于部分1的出售的商品单价趋势于部分2低。

  尽量直方图被通常使用,然则看待对照单变量观测组,它也许不如分位数图、q-q图和盒方图有用。

  散点图,是确定两个数值变量之间看上去是否存正在干系、形式或趋向的最有用的图模式样之一。

  用于观测点镞和离群点,或侦察闭联干系的也许性。如下图,看待两个属性X,Y,即使标绘点的形式从左下到右上倾斜,则意味X的值随Y的值加添而加添,暗指正闭联,即使标绘点的形式从左上到右下倾斜,则意味X随Y值减幼而加添,暗指负闭联。能够画一条最佳拟合的线,研讨变量之间的闭联性。

  基础的数据描绘图形显示(如分位数图、直方图和散点图)供给了数据总体境况的有价钱的洞察,有帮于识别噪声和离群点,对数据清算万分有效。

  前面叙论的是单变量数。