暂无图片
暂无图片
暂无图片
暂无图片
暂无图片

Python中的大熊猫(Pandas)!

健谈始于戊戌年 2021-07-01
5856
Python是当前最流行的计算机语言。Pandas是Python语言中一个重要的模块。尽管Pandas是英语单词大熊猫的复数,但是实际上Pandas和大熊猫毫无关系。

Pandas是Python 数据分析库(Data analysis library)。它可以帮助我们完成对数据的排序、重组、清洗等工作。除此以外,Pandas还有一些功能:

* 处理数据缺失(Missing data);
在数据框架(Data frame)中添减行列;
自动进行数据对齐(Data alignment);
进行数据分类;
对数据进行统计和时间序列分析。

要使用Pandas,首先就要调用Pandas。在Python中通常会把Pandas简写为pd:

import pandas as pd

数据框架是Pandas的基础。简单地讲,数据框架就是一个表格,如图1所示。

图1.数据框架(Data Frame)
                           
数据框架通过行列来记录数据。如果数据框架只有一行或者一列,那就被称为系列(Series)。我们来看一个例子。
 
1. 读取数据

首先,我们来看一下如何利用Python读取CSV的数据。举例来说,我们来调用天气数据。

weather = pd.read_csv('./data/weather.csv')
weather.head()


这是某地2012年1月1日每个小时的气温、露点、湿度、风速、可见度、STN压力和天气的情况。由于使用了head(),所以只显示weather的了前5行。

我们利用Pandas自带的函数,可以进一步了解这些数据。我们可以发现在weather包括8784行8列数据。我们还可以看出其中的数据类型。

weather.info()


 我们还可以对数据做统计分析,计算数据的平均值、标准差、最大值、最小值等等。

weather.describe()

 

2.从数据框架中获取部分数据

然而在实际的工作中,我们可能需要重点分析某一列数据。因此,我们就需要从数据框架中读取这一个系列的数据。我们可以看到前5个气温数据。
 
weather['Temp (C)'].head()
 
查找某一行数据
我们再深入一步,用.iloc来分析第一行的数据。

weather.iloc[0]

 

还可以分析更多行,
weather.iloc[10:13]

 
有时候,我们需要分析某列数据,怎么办呢?可以这样:

weather[['Temp (C)',"Dew Point Temp(C)"]].head()


这样就调用了气温和露点数据的前5列数据。
 
如果想要某行某列的数据,怎么办?

weather.loc[3:8, ['Temp (C)',"Dew PointTemp (C)"]]


不过要注意,这里用到了loc,而不是iloc。它们之间有一些区别,iloc是指针定位(index location),loc是标记定位(label location)。我们在这里就不展开讲了。
 
除了以上的一些功能以外,Pandas还有过滤数据、统计分析、创建新行列等功能。当然,数据分析最重要的目标之一是可视化,Pandas也可以画图。有关这些内容,我们下次再做介绍。
文章转载自健谈始于戊戌年,如果涉嫌侵权,请发送邮件至:contact@modb.pro进行举报,并提供相关证据,一经查实,墨天轮将立刻删除相关内容。

评论