python-数据分析--案例分析：美国各州人口数据分析 - 好文

目标：找到美国人口密度最大的5个州

import numpy as np import pandas as pd from pandas import Series, DataFrame
#首先导入文件，并查看数据样本 s_abb = pd.read_csv('data/state-abbrevs.csv') s_abb.head()s_pop
= pd.read_csv('data/state-population.csv') s_pop.head()s_areas =
pd.read_csv('data/state-areas.csv') s_areas.head()abb_pop =
pd.merge(s_abb,s_pop,how='outer',left_on='abbreviation',
right_on='state/region')#删除重复的一列 abb_pop = abb_pop.drop('abbreviation',axis=1)
abb_popabb_pop.isnull().any(axis=0)#查看存在缺失数据的列
#使用.isnull().any()，只要某一列存在一个丢失数据，就会显示True
#找到有哪些state/region使得state的值为NaN，使用unique()查看非重复值
abb_pop[abb_pop['state'].isnull()]['state/region'].unique()
#获取到state/region==PR的副本 abb_pop_PR =
abb_pop[abb_pop['state/region']=='PR'].copy() #对副本进行赋值操作 abb_pop_PR['state'] =
'PUERTO' #再把副本的值赋值给原始的表abb_pop abb_pop[abb_pop['state/region'] == 'PR'] =
abb_pop_PR#获取到state/region==USA的副本 abb_pop_USA =
abb_pop[abb_pop['state/region'] == 'USA'].copy() #对副本进行赋值操作
abb_pop_USA['state'] = 'America' #再把副本的值赋值给原始的表abb_pop
abb_pop[abb_pop['state/region'] == 'USA'] = abb_pop_USA
#为找到的这些state/region的state项补上正确的值， #这样我们便可以去除掉state这一列所有的NaN #这个就是清除缺失数据的方法！
total = pd.merge(s_areas,abb_pop,how='left') total[total.isnull().any(axis=1)]
total.drop(2448,axis=0)pop_density = total['population']/total['area (sq. mi)']
pop_density#找出2010年的全民人口数据，df.query(查询语句) total_2010 =
total.query("year==2010.0 & ages=='total'") total_2010.head()
total_2010.set_index("state",inplace=True) density =
total_2010['population']/total_2010['area (sq. mi)']
density.sort_values(ascending=False).head()##要点总结 #1，统一使用loc[]索引
#2，善于使用.isnull().any()找到存在的NaN的列 #3，善于使用.unique()确定该列中哪些key是我们需要的
#4，一般使用外合并，目的只有一个：宁愿该列都是NaN，也不要丢弃其他列数据

热门工具换一换