《利用Python进行数据分析》是一本非常经典的数据分析学习资料,由Wes McKinney编写。
本书主要介绍了如何使用Python进行数据处理和分析,从而帮助读者更好地理解数据分析的过程,同时也提供了一些实用的工具和技巧。
第一部分介绍了NumPy、Pandas和IPython等Python库的基本使用方法
这些库都是进行数据处理和分析的重要工具。其中,NumPy是用于进行数值计算的基础库,
Pandas是处理结构化数据的高效工具,而IPython则是一个交互式的Python环境,可以帮助用户更方便地使用Python。
第二部分介绍了数据清洗和数据准备的相关内容
包括缺失数据的处理、重复数据的去除、数据的转换和数据的合并等。这些技能对于数据分析和建模都是至关重要的。
第三部分介绍了数据分析和建模的基本流程
包括数据的可视化、聚合、分组和透视等。其中,可视化是数据分析中非常重要的一环,可以帮助用户更好地理解数据的特征和规律。
第四部分介绍了时间序列分析和金融数据分析的相关内容
这些内容主要是针对需要进行时间序列分析和金融数据分析的读者而设计的。
最后,本书还介绍了一些其他的主题,例如如何使用Python进行机器学习、如何使用Python进行Web应用程序开发等。
《利用Python进行数据分析》是一本非常优秀的数据分析学习资料,不仅介绍了Python的相关技术和工具,
同时还提供了一些实用的应用场景和案例。通过学习本书,读者可以更好地掌握数据分析的基本技能,从而在实际工作中更加高效地处理和分析数据。
说句真心话,我非常感谢有机会翻译这本书,所以这可算是第一篇我自己真正想写的译者序。
虽然之前也翻译过好几本书,但都没有这次的感悟这么多、这么深!这本书是我花精力和时间最多,
同时也是最不满意的一本,就是因为这些感悟——我始终觉得,如果再多点时间的话,我还可以翻译得更好。
本书的内容非常好,至少有一点非常好——集中火力对付特定的应用领域。市面上介绍编程的书多如牛毛,
但几乎没有几本书是针对特定应用场景的。这本书对新手来说绝对是福音,
因为每看完一点就可以马上将自己手上的工作直接拿来当例子练手,这种立竿见影的学习效果,绝对会增强新手的学习信心。
本书内容虽好,但由于作者是编辑界牛人,平时的工作肯定不少,写书方面的精力自然就不可能太多。
加之美式英语本来就很口语化,导致原书口水话非常多,有些地方的从句跟绕口令似的。
我在翻译的过程中尽量排除了一些,两次校稿的过程中又删除或大幅修改了一些废话,虽然这种“口水话”还存在不少,
但至少不会对阅读造成太大影响。此外,在翻译的过程中发现了不少小问题,用词方面的错误几乎都是直接改的(小部分写了译者注,
因为编辑要求我尽量标出一些来以便核对),而其他错误则几乎全部采用译者注的形式说明,
还有一些原文有歧义或不详尽的地方也通过译者注的形式给出了简单说明。
本书共12章,除非你已经什么都会了,否则我建议全部阅读。
如果没有学过Python,建议先看看本书后面的附录。本书所用到的Python编程基础知识很少,所以只看那个附录完全
示例代码的使用
本书提供代码的目的是帮你快速完成工作。一般情况下,你可以在你的程序或文档中使用本书中的代码,
而不必取得我们的许可,除非你想复制书中很大一部分代码。例如,你在编写程序时,
用到了本书中的几个代码片段,这不必取得我们的许可。但若将O'Reilly图书中的代码制作成光盘并进行出售或传播,
则需获得我们的许可。引用示例代码或书中内容来解答问题无需许可。将书中很大一部分的示例代码用于你个人的产品文档,这需要我们的许可。
如果你引用了本书的内容并标明版权归属声明,我们对此表示感谢,但这不是必需的。
版权归属声明通常包括:标题、作者、出版社和ISBN号,例如:“Python forData Analysis by William Wesley McKinney (O'Reilly).
Copyright 2013 William WesleyMcKinney, 978-1-449-31979-3”。
如果你认为你对示例代码的使用已经超出上述范围,或者你对是否需要获得示例代码的授权还不清楚,请随时联系我们:www.fniki.com。
为什么要使用Python进行数据分析
许许多多的人(包括我自己)都很容易爱上Python这门语言。自从1991年诞生以来,
Python现在已经成为最受欢迎的动态编程语言之一,其他还有Perl、Ruby等。
由于拥有大量的Web框架(比如Rails (Ruby)和Django (Python) ),最近几年非常流行使用Python和Ruby进行网站建设工作。
这些语言常被称作脚本(scripting)语言,因为它们可以用于编写简短而粗糙的小程序(也就是脚本)。
我个人并不喜欢“脚本语言”这个术语,因为它好像在说这些语言无法用于构建严谨的软件。
在众多解释型语言中,Python最大的特点是拥有一个巨大而活跃的科学计算(scientific computing)社区。
进入21世纪以来,在行业应用和学术研究中采用Python进行科学计算的势头越来越猛。
在数据分析和交互、探索性计算以及数据可视化等方面,Python将不可避免地接近于其他开源和商业的领域特定编程语言/工具,
如R、MATLAB、SAS、 Stata等。近年来,由于Python有不断改良的库(主要是pandas) ,使其成为数据处理任务的一大替代方案。
结合其在通用编程方面的强大实力,我们完全可以只使用Python这一种语言去构建以数据为中心的应用程序。
下面是《利用Python进行数据分析》教材目录:
第1章准备工作
本书主要内容
为什么要使用Python进行数据分析
重要的Python库
安装和设置
社区和研讨会使用本书
第2章引言
来自bit.ly的1.usa.gov数据
MovieLens 1M数据集
1880—2010年间全美婴儿姓名
小结及展望
第3章IPython:一种交互式计算和开发环境
IPython基础
内省
使用命令历史
与操作系统交互
软件开发工具
IPython HTML Notebook
利用IPython提高代码开发效率的几点提示
高级IPython功能
第4章NumPy基础:数组和矢量计算
NumPy的ndarray :一种多维数组对象
通用函数:快速的元素级数组函数
利用数组进行数据处理
用于数组的文件输入输出
线性代数
随机数生成
范例:随机漫步
第5章pandas入门
pandas的数据结构介绍
基本功能
汇总和计算描述统计
处理缺失数据
层次化索引
其他有关pandas的话题
第6章数据加载、存储与文件格式
读写文本格式的数据
二进制数据格式
使用HTML和Web API
使用数据库
第7章数据规整化:清理、转换、合并、重塑
合并数据集.
重塑和轴向旋转
数据转换
字符串操作
示例:USDA食品数据库
第8章绘图和可视化
matplotlib API入门
pandas中的绘图函数
绘制地图:图形化显示海地地震危机数据
Python图形化工具生态系统
第9章数据聚合与分组运算
GroupBy技术
数据聚合
分组级运算和转换
透视表和交叉表
示例:2012联邦选举委员会数据库
第10章时间序列
日期和时间数据类型及工具
时间序列基础
日期的范围、频率以及移动
时区处理
时期及其算术运算
重采样及频率转换
时间序列绘图
移动窗口函数
性能和内存使用方面的注意事项
第11章金融和经济数据应用
数据规整化方面的话题
分组变换和分析
更多示例应用
第12章NumPy高级应用
ndarray对象的内部机理
高级数组操作
广播
ufunc高级应用
结构化和记录式数组
更多有关排序的话题
NumPy的matrix类
高级数组输入输出
性能建议
教材内容部分展示:
| 利用python进行数据分析 阿里网盘 课程大小:0.00字节 |
提取码:**** (购买后可见) |
下载 |