5个快速而简单的数据可视化方法和Python代码

2024-05-09 14:45:36

作者：George Seif

编译：ronghuaiyang

导读

数据可视化的方法，做大数据的人不可错过，直接把代码喂给你。

数据可视化是数据科学家工作的重要组成部分。在项目的早期阶段，你通常会进行探索性数据分析(EDA)，以获得对数据的一些见解。创建可视化确实有助于使事情更清晰和更容易理解，特别是对于更大的、高维的数据集。在项目接近尾声时，以一种清晰、简洁和引人注目的方式展示最终结果是非常重要的，这样你的受众(通常是非技术客户)就更加容易理解。

Matplotlib是一个流行的Python库，可以很容易地创建数据可视化。然而，每次执行新项目时，设置数据、参数、图形和绘图都会变得非常混乱和乏味。在这篇博客文章中，我们将研究5种数据可视化，并使用Python的Matplotlib为它们编写一些快速简单的函数。与此同时，这里有一个很棒的图表，可以帮助你为工作选择合适的可视化工具！

为给定的情况选择适当的数据可视化技术的图表

散点图

散点图非常适合显示两个变量之间的关系，因为你可以直接看到数据的原始分布。你还可以通过对组进行简单的颜色编码来查看不同组数据的这种关系，如下面的第一个图所示。想要可视化三个变量之间的关系吗？完全没有问题！只需使用另一个参数，如点大小，对第三个变量进行编码，如下面的图2所示。我们刚刚讨论的所有这些也与第一个图表一致。

用颜色分组的散点图

第三个变量，国家大小通过彩色分组和大小编码散点图

现在来看代码。我们首先使用别名“plt”导入Matplotlib的pyplot。为了创建一个新的plot图，我们将其称为“pl .subplot()”。我们将x轴和y轴数据传递给函数，然后将它们传递给“ax.scatter()”来绘制散点图。我们还可以设置点大小、点颜色和透明度。你甚至可以把y轴设成对数刻度。然后，为该图设置标题和轴标签。这是一个很容易使用的函数，它从头到尾创建了一个散点图！

import matplotlib.pyplot as plt
import numpy as np
def scatterplot(x_data, y_data, x_label='', y_label='', title='', color = 'r', yscale_log=False):
# Create the plot object
_, ax = plt.subplots()
# Plot the data, set the size (s), color and transparency (alpha)
# of the points
ax.scatter(x_data, y_data, s = 10, color = color, alpha = 0.75)
if yscale_log == True:
ax.set_yscale('log')
# Label the axes and provide a title
ax.set_title(title)
ax.set_xlabel(x_label)
ax.set_ylabel(y_label)

折线图

当你能清楚地看到一个变量随另一个变量的变化很大时，最好使用折线图。它们有高协方差。让我们看看下面的图来说明。我们可以清楚地看到，随着时间的推移，所有专业的百分比都有很大的变化。用散点图来画这些会非常混乱，很难理解和理解发生了什么。直线图非常适合这种情况，因为它们基本上可以快速总结为两个变量(百分比和时间)的协方差。同样，我们也可以使用颜色编码分组。从我们的第一个图表开始，折线图就属于“超时”类别。

折线图的例子

这是折线图的代码。这与上面的散点图非常相似。只有一些变量的小变化。

def lineplot(x_data, y_data, x_label='', y_label='', title=''):    # Create the plot object    _, ax = plt.subplots()    # Plot the best fit line, set the linewidth (lw), color and    # transparency (alpha) of the line    ax.plot(x_data, y_data, lw = 2, color = '#539caf', alpha = 1)    # Label the axes and provide a title    ax.set_title(title)    ax.set_xlabel(x_label)    ax.set_ylabel(y_label)

直方图

直方图对于查看(或真正发现)数据点的分布非常有用。请查看下面的直方图，我们在其中绘制了频率直方图和IQ直方图。我们可以清楚地看到中心的浓度和中值。我们还可以看到它服从高斯分布。使用条形图(而不是散点图)可以让我们清楚地看到每个存储箱的频率之间的相对差异。使用箱子(离散化)真的帮助我们看到“大局”，如果我们使用没有离散箱子的所有数据点，在可视化中可能会有很多噪音，使我们很难看到真正发生了什么。

直方图的例子

Matplotlib中直方图的代码如下所示。有两个参数需要注意。首先，' n_boxes '参数控制我们需要多少个离散的箱子来制作我们的直方图。更多的箱子会给我们更好的信息，但也可能引入噪音，让我们远离大局，另一方面，更少的箱子给我们一个更“鸟瞰”和一个更大的画面，发生了什么，但是没有更详细的细节。其次，“累积”参数是一个布尔值，它允许我们选择直方图是否是累积的。这基本上是选择概率密度函数(PDF)或累积密度函数(CDF)。

def histogram(data, n_bins, cumulative=False, x_label = '', y_label = '', title = ''):
_, ax = plt.subplots()
ax.hist(data, n_bins = n_bins, cumulative = cumulative, color = '#539caf')
ax.set_ylabel(y_label)
ax.set_xlabel(x_label)
ax.set_title(title)

假设我们要比较数据中两个变量的分布。有人可能会认为你需要制作两个单独的直方图，并将它们并排放在一起进行比较。但是，实际上有一种更好的方法：我们可以用不同的透明度覆盖直方图。看看下图。均匀分布的透明度设为0.5，这样我们就能看到它后面是什么。这允许直接在同一个图上查看这两个分布。

叠加直方图

对于叠加直方图，需要在代码中设置一些东西。首先，我们设置水平范围以适应这两个变量分布。根据这个范围和所需的箱子数量，我们实际上可以计算出每个箱子的宽度。最后，我们在同一块图上绘制两个直方图，其中一个稍微透明一些。

# Overlay 2 histograms to compare themdef overlaid_histogram(data1, data2, n_bins = 0, data1_name='', data1_color='#539caf', data2_name='', data2_color='#7663b0', x_label='', y_label='', title=''):    # Set the bounds for the bins so that the two distributions are fairly compared    max_nbins = 10    data_range = [min(min(data1), min(data2)), max(max(data1), max(data2))]    binwidth = (data_range[1] - data_range[0]) / max_nbins    if n_bins == 0        bins = np.arange(data_range[0], data_range[1] + binwidth, binwidth)    else:         bins = n_bins    # Create the plot    _, ax = plt.subplots()    ax.hist(data1, bins = bins, color = data1_color, alpha = 1, label = data1_name)    ax.hist(data2, bins = bins, color = data2_color, alpha = 0.75, label = data2_name)    ax.set_ylabel(y_label)    ax.set_xlabel(x_label)    ax.set_title(title)    ax.legend(loc = 'best')

条形图

当你试图可视化分类数据，有几个(可能小于10)类别，这时，条形图是最有效的。如果我们有太多的类别，那么这些条形图会非常混乱，难以理解。它们非常适合分类数据，因为你可以很容易地通过条形图大小看到类别之间的差异。类别也很容易通过颜色编码来划分。我们将看到三种不同类型的条形图：常规条形图、分组条形图和堆叠条形图。在我们进行的过程中，请查看下图中的代码。

常规的条形图如下面的第一个图所示。在' barplot() '函数中，' xdata '表示x轴上的标记，' ydata '表示y轴上的条高。误差条是以每个栏为中心的一条额外的线，用来显示标准差。

分组条形图允许我们比较多个分类变量。查看下面的第二个条形图。我们要比较的第一个变量是各组得分的变化情况。我们还将性别本身与颜色编码进行了比较。看一下代码，' ydatalist '变量现在实际上是列表的列表，其中每个子列表表示不同的组。然后我们循环遍历每一组，对于每一组，我们在x轴上画出每一个刻度的横杠，每一组也用颜色进行编码。

堆叠的条形图对于可视化不同变量的分类构成非常有用。在下面的堆叠条形图中，我们比较了每天的服务器负载。通过使用颜色编码，我们可以很容易地看到和理解哪些服务器每天的工作量最大，以及负载与其他服务器的负载相比如何。其代码遵循与分组条形图相同的样式。我们循环遍历每一组，但是这次我们在旧的条形图上绘图，而不是在它们旁边画新条形图。

常规条形图

分组条形图

堆叠条形图

def barplot(x_data, y_data, error_data, x_label='', y_label='', title=''):
_, ax = plt.subplots()
# Draw bars, position them in the center of the tick mark on the x-axis
ax.bar(x_data, y_data, color = '#539caf', align = 'center')
# Draw error bars to show standard deviation, set ls to 'none'
# to remove line between points
ax.errorbar(x_data, y_data, yerr = error_data, color = '#297083', ls = 'none', lw = 2, capthick = 2)
ax.set_ylabel(y_label)
ax.set_xlabel(x_label)
ax.set_title(title)
def stackedbarplot(x_data, y_data_list, colors, y_data_names='', x_label='', y_label='', title=''):
_, ax = plt.subplots()
# Draw bars, one category at a time
for i in range(0, len(y_data_list)):
if i == 0:
ax.bar(x_data, y_data_list[i], color = colors[i], align = 'center', label = y_data_names[i])
else:
# For each category after the first, the bottom of the
# bar will be the top of the last category
ax.bar(x_data, y_data_list[i], color = colors[i], bottom = y_data_list[i - 1], align = 'center', label = y_data_names[i])
ax.set_ylabel(y_label)
ax.set_xlabel(x_label)
ax.set_title(title)
ax.legend(loc = 'upper right')
def groupedbarplot(x_data, y_data_list, colors, y_data_names='', x_label='', y_label='', title=''):
_, ax = plt.subplots()
# Total width for all bars at one x location
total_width = 0.8
# Width of each individual bar
ind_width = total_width / len(y_data_list)
# This centers each cluster of bars about the x tick mark
alteration = np.arange(-(total_width/2), total_width/2, ind_width)
# Draw bars, one category at a time
for i in range(0, len(y_data_list)):
# Move the bar to the right on the x-axis so it doesn't
# overlap with previously drawn ones
ax.bar(x_data + alteration[i], y_data_list[i], color = colors[i], label = y_data_names[i], width = ind_width)
ax.set_ylabel(y_label)
ax.set_xlabel(x_label)
ax.set_title(title)
ax.legend(loc = 'upper right')

箱线图

我们之前研究过直方图它很好地可视化了变量的分布。但如果我们需要更多的信息呢？也许我们想更清楚地了解标准差？也许中值和均值有很大不同，所以有很多离群值？如果有这么大的歪斜，而且很多值都集中在一边呢？

这就是箱线图的作用。箱线图给出了上面所有的信息。实线盒的底部和顶部总是第一和第三四分位数(25%和75%的数据)，而框内的带始终是第二四分位数(中位数)。虚线加上最后的条，从框中延伸出来显示数据的范围。

由于每个组/变量都绘制了箱线图，所以设置起来非常简单。' xdata '是组/变量的列表。Matplotlib函数' boxplot() '为' ydata '的每一列或序列' ydata '中的每个向量绘制一个箱线图，因此，“xdata”中的每个值对应于“y_data”中的列/向量。

箱线图的例子

def boxplot(x_data, y_data, base_color='#539caf', median_color='#297083', x_label='', y_label='', title=''):    _, ax = plt.subplots()    # Draw boxplots, specifying desired style    ax.boxplot(y_data               # patch_artist must be True to control box fill               , patch_artist = True               # Properties of median line               , medianprops = {'color': median_color}               # Properties of box               , boxprops = {'color': base_color, 'facecolor': base_color}               # Properties of whiskers               , whiskerprops = {'color': base_color}               # Properties of whisker caps               , capprops = {'color': base_color})    # By default, the tick label starts at 1 and increments by 1 for    # each box drawn. This sets the labels to the ones we want    ax.set_xticklabels(x_data)    ax.set_ylabel(y_label)    ax.set_xlabel(x_label)    ax.set_title(title)

总结

这里有5个使用Matplotlib的快速和简单的数据可视化。把东西抽象成函数总是让你的代码更容易阅读和使用！我希望你喜欢这篇文章，并学到一些新的和有用的东西。

—END—

英文原文：https://towardsdatascience.com/5-quick-and-easy-data-visualizations-in-python-with-code-a2284bae952f

数据分析入门系列教程-常用图表

作者:周萝卜来源:萝卜大杂烩今天我们来学习下数据可视化,其实在前面的章节中,我们也接触到了一些数据可视化的知识,在分析数据集的时候,有效的可视化图表,可以帮助我们更好的了解数据. 常用的可视化图表 ...
六种数据分析的基本可视化

Matplotlib实用指南数据可视化是数据科学中非常重要的一部分.在探索和理解数据时非常有用.在某些情况下,可视化在传达信息方面比普通数字要好得多. 使用数据可视化技术可以轻松发现变量之间的关系, ...
啥？Python竟然也可以制作萌萌的手绘图表

阿狗程序员大佬昨天大家可能已经习惯了用Matplotlib和seaborn来制作不同的图表,但是今天要介绍一个非常酷的Python手绘风格的可视化包:cutecharts. 这个包可以用来生成以 ...
图表——传达数据信息的信使

本文描述如何使用图表来呈现读者易于理解的复杂信息.本译文未将原文图形举例给出.对图形举例请感兴趣的读者可阅读原文. The Writing Center, Figures and Charts, Un ...
5 种快速易用的 Python Matplotlib 数据可视化方法

Python编程学习圈 2021-09-26 数据可视化是数据科学家工作的重要部分.在项目的早期阶段,我们通常需要进行探索性数据分析来获得对数据的洞察.通过数据可视化可以让该过程变得更加清晰易懂,尤其 ...
《数据可视化基础》第四章：可视化图形推荐

以下部分是基于<Fundamentals of Data Visualization>学习笔记,要是有兴趣的话,可以直接看原版书籍:https://serialmentor.com/dat ...
(1条消息) python常见图形代码可视化大全整理（包括动图）更新中...

目录一.离散型变量的可视化 1 饼图 1.1 matplotlib模块 1.2 panda模块 2 条形图 2.1 matplotlib模块 2.1.1 垂直或水平条形图 2.1.2 堆叠条形图 2 ...
年入20万的商业版油条和面法，快速，简单，快捷，省力，男女可做

年入20万的商业版油条和面法，快速，简单，快捷，省力，男女可做
菜鸟记131-Power Query，让数据查询更简单--两数据表简单查询应用

关键词:EXCEL2016:数据库:PowerQuery:查询:操作难度**** 前几天小菜和您分享了ACCESS的简单应用的两个案例请参阅<菜鸟记123-ACCESS数据库简单应用1-两数据 ...
快速把多列数据变为一列数据

如图1,一张表格中有多列数据,想把这些数据全部复制粘帖到一列,每列数据行数不一样.如果一列列数据选中后复制粘帖,很慢,这里介绍三种方法快速实现. 图 1 方法一:利用剪贴板首先,我们打开" ...
量子点漆可以使飞机检查过程变得快速，简单

当用紫外线扫描时,涂料可以迅速显示出其下面表面的应变现象胶体量子点的图形,其中可以看到内核(粉红色),外壳(黄色)和聚合物配体(黑色线). 未来的技术人员仅通过相机快速扫描,就能够测试飞机机身的适航 ...
没有想象的那么难，教你做简单的数据透视~

没有想象的那么难，教你做简单的数据透视~
彭壮：2021年，快速轻松简单赚钱过时了，你需要安全！

彭壮：2021年，快速轻松简单赚钱过时了，你需要安全！
树枝生根变成树苗比嫁接更快速更简单的园艺技巧手作花卉

树枝生根变成树苗比嫁接更快速更简单的园艺技巧手作花卉
【步骤图】冬天蒸馒头这样发面快速又简单蒸出的馒头蓬松煊软又有嚼劲儿附细节视频详解的做法

作者:三月小厨天气越来越冷了,在家蒸包子蒸馒头发面成了一个大难题,今天分享一个简单快速发面的小窍门儿,让你在家冬天快速做馒头蒸包子. 用料面粉500克酵母5克白糖10克温水260克冬天蒸馒头这样 ...
财位正确的找法，快速，简单！

财位正确找法-七运二十四个方位,总有一款和你的房子对得上号．第一步:要知道你家房子的出生时间,和人一样,你要知道房子的落地八字.现在一般住的都是六运,七运,八运房,为了简单易学,这里只写这三个运的年份 ...

5个快速而简单的数据可视化方法和Python代码

散点图

折线图

直方图

条形图

箱线图

总结

相关推荐