本书关注的是利用Python操作、处理、清洗和操作数据时的基本要点。
我的目标是提供一份Python编程语言以及Python面向数据的类库生态系统和工具的指南,该指南将精助你成为一个高效的数据分析师。
尽管“数据分析”出现在书名里,但本书并不专注于数据分析方法论。
重要的Python库:
- NumPy
- [pandas](http://pandas.pyda ta.org)
- matplotlib
- IPython
- Jupyter
- SciPy
- scikit-learn
- statsmodels
安装:
- Anaconda安装器
- 安装Anaconda并不包含的额外Python包:
- conda install package_name
- pip install package_name
- 使用conda update命令来更新包:
- conda update package_name
- pip install --upgrade package_name
社区和会议:
科学、数据相关的Python邮件列表对于解决问题也非常有帮助
- pydata:与数据分析和pandas相关的谷歌群组列表
- pystatsmodels:与statsmodels和pandas相关的问题
- scikit-learn邮件列表(scikit--learn(@python.org)以及Python机器学习相关内容
- numpy-discussion:NumPy相关问题
- scipy-user:与SciPy或科学相关的Python问题
- 没有给出上述邮件列表的URL以免以后发生变更,这些URL很容通过互联网搜索找到
- PyCon和EuroPython:北美和欧洲的两大主要Python会议
- SciPy和EuroSciPy:北美和欧洲面向科学计算的会议
- PyData:全世界范围内一系列区域性的会议,主题为数据科学和数据分析用例
- 国际和地区性的PyCon会议(参见htp://pycon.org上的完整列表)