book

Pandas for Everyone: Python Data Analysis, First Edition

by Daniel Y. Chen

December 2017

Beginner to intermediate

410 pages

12h 45m

English

Addison-Wesley Professional

Read now

Unlock full access

1.1 Introduction1.2 Loading Your First Data Set1.3 Looking at Columns, Rows, and Cells1.4 Grouped and Aggregated Calculations1.5 Basic Plot1.6 Conclusion
2.1 Introduction2.2 Creating Your Own Data2.3 The Series2.4 The DataFrame2.5 Making Changes to Series and DataFrames2.6 Exporting and Importing Data2.7 Conclusion
3.1 Introduction3.2 Matplotlib3.3 Statistical Graphics Using matplotlib3.4 Seaborn3.5 Pandas Objects3.6 Seaborn Themes and Styles3.7 Conclusion
4.1 Introduction4.2 Tidy Data4.3 Concatenation4.4 Merging Multiple Data Sets4.5 Conclusion
5.1 Introduction5.2 What Is a NaN Value?5.3 Where Do Missing Values Come From?5.4 Working With Missing Data5.5 Conclusion
6.1 Introduction6.2 Columns Contain Values, Not Variables6.3 Columns Contain Multiple Variables6.4 Variables in Both Rows and Columns6.5 Multiple Observational Units in a Table (Normalization)6.6 Observational Units Across Multiple Tables6.7 Conclusion
7.1 Introduction7.2 Data Types7.3 Converting Types7.4 Categorical Data7.5 Conclusion
8.1 Introduction8.2 Strings8.3 String Methods8.4 More String Methods8.5 String Formatting8.6 Regular Expressions (RegEx)8.7 The regex Library8.8 Conclusion
9.1 Introduction9.2 Functions9.3 Apply (Basics)9.4 Apply (More Advanced)9.5 Vectorized Functions9.6 Lambda Functions9.7 Conclusion
10.1 Introduction10.2 Aggregate10.3 Transform10.4 Filter10.5 The pandas.core.groupby .DataFrameGroupBy Object10.6 Working With a MultiIndex10.7 Conclusion
11.1 Introduction11.2 Python’s datetime Object11.3 Converting to datetime11.4 Loading Data That Include Dates11.5 Extracting Date Components11.6 Date Calculations and Timedeltas11.7 Datetime Methods11.8 Getting Stock Data11.9 Subsetting Data Based on Dates11.10 Date Ranges11.11 Shifting Values11.12 Resampling11.13 Time Zones11.14 Conclusion
12.1 Introduction12.2 Simple Linear Regression12.3 Multiple Regression12.4 Keeping Index Labels From sklearn12.5 Conclusion
13.1 Introduction13.2 Logistic Regression13.3 Poisson Regression13.4 More Generalized Linear Models13.5 Survival Analysis13.6 Conclusion
14.1 Introduction14.2 Residuals14.3 Comparing Multiple Models14.4 k-Fold Cross-Validation14.5 Conclusion
15.1 Introduction15.2 Why Regularize?15.3 LASSO Regression15.4 Ridge Regression15.5 Elastic Net15.6 Cross-Validation15.7 Conclusion
16.1 Introduction16.2 k-Means16.3 Hierarchical Clustering16.4 Conclusion
17.1 The (Scientific) Computing Stack17.2 Performance17.3 Going Bigger and Faster
18.1 It’s Dangerous to Go Alone!18.2 Local Meetups18.3 Conferences18.4 The Internet18.5 Podcasts18.6 Conclusion
A.1 Installing AnacondaA.2 Uninstall Anaconda
B.1 InstallationB.2 Basics
D.1 Command Line and Text EditorD.2 Python and IPythonD.3 JupyterD.4 Integrated Development Environments (IDEs)
G.1 Updating Packages
O.1 Default ParametersO.2 Arbitrary Parameters

Content preview from Pandas for Everyone: Python Data Analysis, First Edition

16. Clustering

16.1 Introduction

Machine learning methods can generally be classified into two main categories of models, supervised learning and unsupervised learning. Thus far, we have been working on supervised learning models, since we train our models with a target y or response variable. In other words, in the training data for our models, we know the “correct” answer. Unsupervised models are modeling techniques in which the “correct” answer is unknown. Many of these methods involve clustering, where the two main methods are k-means clustering and hierarchical clustering.

16.2 k-Means

The technique known as k-means works by first selecting how many clusters, k, exist in the data. The algorithm randomly selects k points in the data and ...