05-python数据分析实例-全球气候变暖 · python数据分析

# 全球气候变暖分析 ## 数据集 > 数据集 [世界银行气候变化数据集](https://data.worldbank.org/topic/climate-change?end=2011&start=1990) ### 1. Data 表 > 表中包含`12645`条记录，是按各个国家统计的，与气候变化相关的数据。其中： * __Country code__ ：国家代码 * __Country name__ ：国家名称 * __Series code__：数据类别代码 * __Series name__ ：数据类别名称 * 接下来是从 1990 年 - 2011 年分年度的各项统计数据 `Data 表预览如下：` ![](https://box.kancloud.cn/363fde68ed97ef3758ae339cd4dba8cb_1440x647.png) ### 2. Country 表 > Country 表中包含有各个国家的信息。其中： * __Country code__ ：国家代码 * __Country name__：国家名称 * __Capital city__ ：首都名称 * __Region__ ：国家所在区域 * __Income group__ ：国家收入群体类别划分 * __Lending category__ ：在世界银行中的贷款类别 `Country 表预览如下：` ![](https://box.kancloud.cn/fe0f9eb805598aa7339a218eda7aeb35_1440x647.png) ### 3. Series 表 > Series 表中包含了 Data 表中对应的数据的简介，也就是 Data 表中对应的数据类别的定义、代号等。可以通过 Series 表了解前序两张表格中的代号信息。 ![](https://box.kancloud.cn/b57f3e15993828a5e4e502365f0b8506_1440x647.png) ## 各国历年二氧化碳 CO2 排放量统计分析 ### 目标 > 通过对气候变化数据集中的 3 个数据表关联分析，得到各收入群体（Income group ）二氧化碳 CO2 的排放（Series code: EN.ATM.CO2E.KT）总量，以及各群体排放量最高和最低的国家名称及相应的排放量。 ### 结果示意图 > 需要得到如下图所示的 Dataframe，并将该 Dataframe 作为函数的返回值 ![](https://box.kancloud.cn/919d94b0e442f298439f6621142f9112_820x176.png) * 索引列为 5 个收入群体分类名称。 * `Sum emissions` 表示相应收入群体（Income group）的总排放量 * `Highest emission country` 为相应收入群体里排放量最高的国家名称（Country name）。 * `Highest emissions`为排放量最高的国家对应的排放量数值。 * `Lowest emission country` 为相应收入群体里排放量最低的国家名称。 * `Lowest emissions` 为排放量最低的国家对应的排放量数值。 ### 要求 * 你需要对有缺失值的年份数据进行填充，使用近邻数据填充。 * 不统计原始数据全部缺失的国家，也就是排放量最低的国家对应的排放量数值不会为 0。 ## 各国 CO2 排放量与 GDP 总值关联分析 ### 目标 > 我们都知道，工业生产往往意味着大量的温室气体排放，而温室气体排放是导致气候变化的重要原因之一。我们选择探究工业生产与温室气体排放之间的关系。 > 我们粗略地以国民生产总值 GDP 作为工业生产的量化指标，二氧化碳 CO2 作为温室气体的排放的量化指标。 * 使用 Pandas 统计`各国历年`二氧化碳排放总量以及 GDP 的总量，最终通过 Matplotlib 绘制 `各国 CO2 总量` 与对应 `GDP 总量` 的关系曲线图。其中： GDP 数值的 `Series code` 为：`NY.GDP.MKTP.CD` CO2 排放数值的 `Series code` 为：`EN.ATM.CO2E.KT` ### 要求 * 绘制图标题、横轴标题、纵轴标题、以及图例。纵坐标显示规约数据自动显示的刻度即可，横坐标刻度需使用国家代码。由于国家名称较多，绘图时，横轴坐标刻度仅保留联合国安理会五大常任理事国的国家代码（中，美，俄，法，英）。 * 当某些年份数据缺失时，使用该国家近邻年份的数据进行填充。当某国家对应的数据全部缺失时，即没有相邻数据用于参考，那么使用 0 进行填充。 * CO2 总量与 GDP 总量在数值上差距悬殊，为了保证绘制到同一张图时具有良好的观赏性，必须针对两类数据进行归一化处理。使用 Min-Max 标准化算法对绘图数据进行归一化处理，算法公式详见提示语。 * 为了验证绘图的正确性，请务必在绘图前添加子图对象，并将 fig 对象作为函数的返回值。你可以直接使用 plt.subplot() * 为了验证绘图数据的正确性，请务必将计算所得的中国 Min-Max 归一化后的 CO2 和 GDP 数据(保留 3 位小数) 作为列表返回。 ### 结果示意图 > 需要使用 Matplotlib 进行绘图，绘制的示意图如下： ![](https://box.kancloud.cn/ec0dbd0c206ccbb5ef02de87d67cba61_446x296.png) ## 相关参考网站 [java&python](http://www.codertopic.com/?p=2109) [股票九斗](https://m.joudou.com/new-secuinfo?id=000651.SZ&name=格力电器) [国内汽车数据分析公司](https://www.so.car/) [汽车数据检索](https://veaicle.com/wechat/car.php) [kaggle](http://www.kaggle.com/) [Start here! Predict survival on the Titanic and get familiar with ML basics](https://www.kaggle.com/c/titanic/kernels) [Titanic Data Science Solutions ](https://www.kaggle.com/startupsci/titanic-data-science-solutions) [Data Scientists on Github](https://www.analyticsvidhya.com/blog/2016/09/most-active-data-scientists-free-books-notebooks-tutorials-on-github/)