实现海量数据分析及可视化的简便方法

DPVg_AI_era 2018-08-07 5104

电子说

1.3w人已加入

描述

【新智元导读】近期，Kaggle发布了新的数据分析及可视化工具——Kaggle Kerneler bot，用户只需上传数据集，便可用Python为用户自动获取相关的深度数据分析结果。本文将带领读者体验一下这款便捷而又高效的工具。

Kaggle Kerneler bot是一个自动生成的kernel，其中包含了演示如何读取数据以及分析工作的starter代码。用户可以进入任意一个已经发布的项目，点击顶部的“Fork Notebook”来编辑自己的副本。接下来，小编将以最热门的两个项目作为例子，带领读者了解该如何使用这款便捷的工具。

好的开始是成功的一半！

要开始这个探索性分析（exploratory analysis），首先需要导入一些库并定义使用matplotlib绘制数据的函数。但要注意的是，并不是所有的数据分析结果图像都能够呈现出来，这很大程度上取决于数据本身（Kaggle Kerneler bot只是一个工具，不可能做到Jeff Dean或者Kaggle比赛选手们那么完美的结果）。

In [1]：

from mpl_toolkits.mplot3d import Axes3Dfrom sklearn.decomposition import PCAfrom sklearn.preprocessing import StandardScalerimport matplotlib.pyplot as plt # plottingimport numpy as np # linear algebraimport os # accessing directory structureimport pandas as pd # data processing, CSV file I/O (e.g. pd.read_csv)

在本例中，一共输入了12个数据集。

In [2]：

print(os.listdir('../input'))print(os.listdir('../input/moeimouto-faces/moeimouto-faces/007_nagato_yuki'))print(os.listdir('../input/moeimouto-faces/moeimouto-faces/046_alice_margatroid'))print(os.listdir('../input/moeimouto-faces/moeimouto-faces/065_sanzenin_nagi'))print(os.listdir('../input/moeimouto-faces/moeimouto-faces/080_koizumi_itsuki'))print(os.listdir('../input/moeimouto-faces/moeimouto-faces/096_golden_darkness'))print(os.listdir('../input/moeimouto-faces/moeimouto-faces/116_pastel_ink'))print(os.listdir('../input/moeimouto-faces/moeimouto-faces/140_seto_san'))print(os.listdir('../input/moeimouto-faces/moeimouto-faces/144_kotegawa_yui'))print(os.listdir('../input/moeimouto-faces/moeimouto-faces/164_shindou_chihiro'))print(os.listdir('../input/moeimouto-faces/moeimouto-faces/165_rollo_lamperouge'))print(os.listdir('../input/moeimouto-faces/moeimouto-faces/199_kusugawa_sasara'))print(os.listdir('../input/moeimouto-faces/moeimouto-faces/997_ana_coppola'))

接下里，用户在编辑界面中会看到四个已经编好的代码块，它们定义了绘制数据的函数。而在发布后的页面，这些代码块会被隐藏，如下图所示，只需单击已发布界面中的“code”按钮就可以显示隐藏的代码。

准备就绪！读取数据！

首先，让我们先看一下输入中的第一个数据集：

In ［7］：

nRowsRead = 100 # specify ‘None’ if want to read whole file# color.csv may have more rows in reality， but we are only loading/previewing the first 100 rowsdf1 = pd.read_csv（‘。。/input/moeimouto-faces/moeimouto-faces/080_koizumi_itsuki/color.csv’， delimiter=‘，’， nrows = nRowsRead）df1.dataframeName = ‘color.csv’nRow， nCol = df1.shapeprint（f‘There are {nRow} rows and {nCol} columns’）

那么数据长什么样子呢？

In ［8］：

df1.head（5）

Out ［8］：

可视化