pandas数据分析包简介
pandas是基于numpy的一个数据分析包.它的数据结构与numpy的ndarry数据结构类似,它的核心数据结构为series(一维数据结构)和datafram(二维数据结构)。
pandas 的操作流程
1.表格数据的增删改查
2.实现多表格处理
3.数据清洗操作:
缺失值,重复值,异常值,数据标准化,数据转换操作,
4.实现excel的特殊操作,生成透视表,交叉表
5.完成统计分析
构建dataframe
# 方法一df = pd.DataFrame(data=[['ss', 20, '男'], ['hh',20 , '男']],index = ['a','b'],colums=['name', 'age', 'sex'])# 方法二df = pd.DataFrame(data={'name': ['ss', 'lx'], 'sex': ['男', '女'], 'age': [20, 21], 'class': ['0831', '0931']},index=['a', 'b'])12345
dataframe的属性
因为pandas基于numpy,因此,numpy的ndarray的属性,dataframe也同样具有,
df.shape # 结构df.ndim # 维度df.size # 数量df.dtypes # 元素的数据类型df.columns # 列索引df.index # 行索引df.values # 元素1234567
df 的增删改查
df的查找
切一列值方法:ser = df['name']切多列值的方法:df[['name','age']][:2]索引名取值df.loc[行索引名称/条件, 列的索引名称]条件切片mask = df['age'] > 18df.loc[mask, 'name']索引取值df.iloc[行的位置索引, 列的位置索引]1234567891011
df 增加
增加一列df['address'] = ['北京','上海','北京'] # 修改原df增加一行df_mini = pd.DataFrame(data={'name':['ss','lx'],'age':[20, 18],'sex':['男','女'],'class':['0831','0830']},index=['a','b'])df3 = df.append(df_mini,ignore_index=True )#ignore_index: 表示忽略原始索引,重新设置索引123456789
df删除
# 删除列,inplace: 表示是否对原表进行修改,True为直接修改原始表格, False为不修改;df3.drop(labels=['address','class'], axis=1)12
df更改数值
df.loc[df['name']=='lx', 'class'] = '有问题'
统计分析方法
pandas用到的统计分析方法大多是numpy中的数据分析方法
np.mean(df['age'])np.ptp(df['age'])
pandas中的方法
df['age'].min() # 最小值df['age'].max() # 最大值df['age'].std() # 极差df['age'].argmax()# 只能在series中使用df['name'],mode() # 众数df['name'].count() # 非空数目df['name'].value_counts() # 只能在series中使用1234567
Exel文件的读取
pandas可以读取多种数据类型,这里介绍下读取excel数据的操作方法
pd.read_excel(r'文件路径')

文章转载自泰迪教育,如果涉嫌侵权,请发送邮件至:contact@modb.pro进行举报,并提供相关证据,一经查实,墨天轮将立刻删除相关内容。




