book

Machine Learning for Business Analytics, 2nd Edition

Name: Machine Learning for Business Analytics, 2nd Edition
ISBN: 9781119903833

by Peter C. Bruce, Mia L. Stephens, Galit Shmueli, Muralidhara Anandamurthy, Nitin R. Patel

May 2023

Beginner to intermediate

608 pages

18h 48m

English

Wiley

Read now

Unlock full access

COVER
TITLE PAGE
COPYRIGHT
FOREWORD
PREFACE
NOTES
ACKNOWLEDGMENTS
PART I: PRELIMINARIES
1 INTRODUCTION
1.1 WHAT IS BUSINESS ANALYTICS?1.2 WHAT IS MACHINE LEARNING?1.3 MACHINE LEARNING, AI, AND RELATED TERMS1.4 BIG DATA1.5 DATA SCIENCE1.6 WHY ARE THERE SO MANY DIFFERENT METHODS?1.7 TERMINOLOGY AND NOTATION1.8 ROAD MAPS TO THIS BOOK
2 OVERVIEW OF THE MACHINE LEARNING PROCESS
2.1 INTRODUCTION2.2 CORE IDEAS IN MACHINE LEARNING2.3 THE STEPS IN A MACHINE LEARNING PROJECT2.4 PRELIMINARY STEPS2.5 PREDICTIVE POWER AND OVERFITTING2.6 BUILDING A PREDICTIVE MODEL WITH JMP Pro 2.7 USING JMP Pro FOR MACHINE LEARNING2.8 AUTOMATING MACHINE LEARNING SOLUTIONS 2.9 ETHICAL PRACTICE IN MACHINE LEARNINGNOTES
PART II: DATA EXPLORATION AND DIMENSION REDUCTION

3 DATA VISUALIZATION
3.1 INTRODUCTION 3.2 DATA EXAMPLES3.3 BASIC CHARTS: BAR CHARTS, LINE GRAPHS, AND SCATTER PLOTS3.4 MULTIDIMENSIONAL VISUALIZATION3.5 SPECIALIZED VISUALIZATIONS3.6 SUMMARY: MAJOR VISUALIZATIONS AND OPERATIONS, ACCORDING TO MACHINE LEARNING GOALNOTES
4 DIMENSION REDUCTION
4.1 INTRODUCTION4.2 CURSE OF DIMENSIONALITY4.3 PRACTICAL CONSIDERATIONS4.4 DATA SUMMARIES4.5 CORRELATION ANALYSIS4.6 REDUCING THE NUMBER OF CATEGORIES IN CATEGORICAL VARIABLES4.7 CONVERTING A CATEGORICAL VARIABLE TO A CONTINUOUS VARIABLE4.8 PRINCIPAL COMPONENT ANALYSIS4.9 DIMENSION REDUCTION USING REGRESSION MODELS4.10 DIMENSION REDUCTION USING CLASSIFICATION AND REGRESSION TREESNOTES
PART III: PERFORMANCE EVALUATION
5 EVALUATING PREDICTIVE PERFORMANCE
5.1 INTRODUCTION5.2 EVALUATING PREDICTIVE PERFORMANCE5.3 JUDGING CLASSIFIER PERFORMANCE5.4 JUDGING RANKING PERFORMANCE5.5 OVERSAMPLING
PART IV: PREDICTION AND CLASSIFICATION METHODS
6 MULTIPLE LINEAR REGRESSION
6.1 INTRODUCTION6.2 EXPLANATORY VS. PREDICTIVE MODELING6.3 ESTIMATING THE REGRESSION EQUATION AND PREDICTION6.4 VARIABLE SELECTION IN LINEAR REGRESSIONNOTES
7 k‐NEAREST NEIGHBORS (k‐NN)
7.1 THE k‐NN CLASSIFIER (CATEGORICAL OUTCOME)7.2 K‐NN FOR A NUMERICAL RESPONSE7.3 ADVANTAGES AND SHORTCOMINGS OF K‐NN ALGORITHMSNOTES
8 THE NAIVE BAYES CLASSIFIER
8.1 INTRODUCTION8.2 APPLYING THE FULL (EXACT) BAYESIAN CLASSIFIER8.3 SOLUTION: NAIVE BAYES8.4 ADVANTAGES AND SHORTCOMINGS OF THE NAIVE BAYES CLASSIFIER
9 CLASSIFICATION AND REGRESSION TREES
9.1 INTRODUCTION9.2 CLASSIFICATION TREES9.3 GROWING A TREE FOR RIDING MOWERS EXAMPLE9.4 EVALUATING THE PERFORMANCE OF A CLASSIFICATION TREE9.5 AVOIDING OVERFITTING9.6 CLASSIFICATION RULES FROM TREES9.7 CLASSIFICATION TREES FOR MORE THAN TWO CLASSES9.8 REGRESSION TREES9.9 ADVANTAGES AND WEAKNESSES OF A SINGLE TREE9.10 IMPROVING PREDICTION: RANDOM FORESTS AND BOOSTED TREESNOTES
10 LOGISTIC REGRESSION
10.1 INTRODUCTION10.2 THE LOGISTIC REGRESSION MODEL10.3 EXAMPLE: ACCEPTANCE OF PERSONAL LOAN10.4 EVALUATING CLASSIFICATION PERFORMANCE10.5 VARIABLE SELECTION10.6 LOGISTIC REGRESSION FOR MULTI‐CLASS CLASSIFICATION10.7 EXAMPLE OF COMPLETE ANALYSIS: PREDICTING DELAYED FLIGHTS Notes
11 NEURAL NETS
11.1 INTRODUCTION11.2 CONCEPT AND STRUCTURE OF A NEURAL NETWORK11.3 FITTING A NETWORK TO DATA11.4 USER INPUT IN JMP Pro 11.5 EXPLORING THE RELATIONSHIP BETWEEN PREDICTORS AND OUTCOME11.6 DEEP LEARNING 11.7 ADVANTAGES AND WEAKNESSES OF NEURAL NETWORKSNOTES
12 DISCRIMINANT ANALYSIS
12.1 INTRODUCTION12.2 DISTANCE OF AN OBSERVATION FROM A CLASS12.3 FROM DISTANCES TO PROPENSITIES AND CLASSIFICATIONS12.4 CLASSIFICATION PERFORMANCE OF DISCRIMINANT ANALYSIS12.5 PRIOR PROBABILITIES12.6 CLASSIFYING MORE THAN TWO CLASSES12.7 ADVANTAGES AND WEAKNESSESNOTES
13 GENERATING, COMPARING, AND COMBINING MULTIPLE MODELS
13.1 ENSEMBLES 13.2 AUTOMATED MACHINE LEARNING (AUTOML)13.3 SUMMARYNOTE
PART V: INTERVENTION AND USER FEEDBACK
14 INTERVENTIONS: EXPERIMENTS, UPLIFT MODELS, AND REINFORCEMENT LEARNING
14.1 INTRODUCTION14.2 A/B TESTING 14.3 UPLIFT (PERSUASION) MODELING14.4 REINFORCEMENT LEARNING14.5 SUMMARYNOTES
PART VI: MINING RELATIONSHIPS AMONG RECORDS
15 ASSOCIATION RULES AND COLLABORATIVE FILTERING
15.1 ASSOCIATION RULES15.2 COLLABORATIVE FILTERING 15.3 SUMMARYNOTES
16 CLUSTER ANALYSIS
16.1 INTRODUCTION16.2 MEASURING DISTANCE BETWEEN TWO RECORDS16.3 MEASURING DISTANCE BETWEEN TWO CLUSTERS16.4 HIERARCHICAL (AGGLOMERATIVE) CLUSTERING16.5 NONHIERARCHICAL CLUSTERING: THE K‐MEANS ALGORITHMNOTE
PART VII: FORECASTING TIME SERIES
17 HANDLING TIME SERIES
17.1 INTRODUCTION 17.2 DESCRIPTIVE VS. PREDICTIVE MODELING17.3 POPULAR FORECASTING METHODS IN BUSINESS17.4 TIME SERIES COMPONENTS17.5 DATA PARTITIONING AND PERFORMANCE EVALUATIONNOTES
18 REGRESSION‐BASED FORECASTING
18.1 A MODEL WITH TREND 18.2 A MODEL WITH SEASONALITY18.3 A MODEL WITH TREND AND SEASONALITY18.4 AUTOCORRELATION AND ARIMA MODELS Notes
19 SMOOTHING AND DEEP LEARNING METHODS FOR FORECASTING
19.1 INTRODUCTION 19.2 MOVING AVERAGE19.3 SIMPLE EXPONENTIAL SMOOTHING19.4 ADVANCED EXPONENTIAL SMOOTHING19.5 DEEP LEARNING FOR FORECASTINGNOTES
PART VIII: DATA ANALYTICS
20 TEXT MINING
20.1 INTRODUCTION 20.2 THE TABULAR REPRESENTATION OF TEXT: DOCUMENT–TERM MATRIX AND “BAG‐OF‐WORDS”20.3 BAG‐OF‐WORDS VS. MEANING EXTRACTION AT DOCUMENT LEVEL20.4 PREPROCESSING THE TEXT20.5 IMPLEMENTING MACHINE LEARNING METHODS20.6 EXAMPLE: ONLINE DISCUSSIONS ON AUTOS AND ELECTRONICS20.7 EXAMPLE: SENTIMENT ANALYSIS OF MOVIE REVIEWS20.8 SUMMARYNOTES
21 RESPONSIBLE DATA SCIENCE
21.1 INTRODUCTION 21.2 UNINTENTIONAL HARM21.3 LEGAL CONSIDERATIONS21.4 PRINCIPLES OF RESPONSIBLE DATA SCIENCE21.5 A RESPONSIBLE DATA SCIENCE FRAMEWORK21.6 DOCUMENTATION TOOLS21.7 EXAMPLE: APPLYING THE RDS FRAMEWORK TO THE COMPAS EXAMPLE21.8 SUMMARYNOTES
PART IX: CASES
22 CASES
22.1 CHARLES BOOK CLUB 22.2 GERMAN CREDIT22.3 TAYKO SOFTWARE CATALOGER 22.4 POLITICAL PERSUASION 22.5 TAXI CANCELLATIONS 22.6 SEGMENTING CONSUMERS OF BATH SOAP 22.7 CATALOG CROSS‐SELLING 22.8 DIRECT‐MAIL FUNDRAISING22.9 TIME SERIES CASE: FORECASTING PUBLIC TRANSPORTATION DEMAND22.10 LOAN APPROVAL NOTES
REFERENCES
DATA FILES USED IN THE BOOK
INDEX
END USER LICENSE AGREEMENT

Content preview from Machine Learning for Business Analytics, 2nd Edition

20 TEXT MINING

In this chapter, we introduce unstructured text as a form of data. First, we discuss a tabular representation of text data in which each column is a word, each row is a document, and each cell is a 0 or 1, indicating whether that column's word is present in that row's document. Then, we consider how to move from unstructured documents to this structured matrix. Finally, we illustrate how to integrate this process into the standard machine learning procedures covered in earlier parts of the book.

Text Mining in JMP: The Text Explorer platform in JMP is used for text mining. Some basic methods for exploring unstructured text data are available in the standard version of JMP. However, JMP Pro is required for most of the topics introduced in this chapter.

20.1 INTRODUCTION¹

Up to this point, and in machine learning in general, we have been primarily dealing with three types of data: numerical, binary (true/false), and multicategory.

In some common predictive analytics applications, though, data come in text form. An Internet service provider, for example, might want to use an automated algorithm to classify support tickets as urgent or routine so that the urgent ones can receive immediate human review. A law firm facing a massive discovery process (review of large numbers of documents) would benefit from a document review algorithm that could classify documents as relevant or irrelevant. In both of these cases, the predictor attributes (features) are embedded ...

Become an O’Reilly member and get unlimited access to this title plus top books and audiobooks from O’Reilly and nearly 200 top publishers, thousands of courses curated by job role, 150+ live events each month,
and much more.

Read now

Unlock full access

More than 5,000 organizations count on O’Reilly

O’Reilly covers everything we've got, with content to help us build a world-class technology community, upgrade the capabilities and competencies of our teams, and improve overall team performance as well as their engagement.

Julian F.

Head of Cybersecurity

I wanted to learn C and C++, but it didn't click for me until I picked up an O'Reilly book. When I went on the O’Reilly platform, I was astonished to find all the books there, plus live events and sandboxes so you could play around with the technology.

Addison B.

Field Engineer

I’ve been on the O’Reilly platform for more than eight years. I use a couple of learning platforms, but I'm on O'Reilly more than anybody else. When you're there, you start learning. I'm never disappointed.

Amir M.

Data Platform Tech Lead

I'm always learning. So when I got on to O'Reilly, I was like a kid in a candy store. There are playlists. There are answers. There's on-demand training. It's worth its weight in gold, in terms of what it allows me to do.

Mark W.

Embedded Software Engineer

Publisher Resources

ISBN: 9781119903833Purchase Link

Cloud Computing

Data Engineering

Data Science

AI & ML

Programming Languages

Software Architecture

IT/Ops

Security

Design

Business

Soft Skills

Machine Learning for Business Analytics, 2nd Edition

by Peter C. Bruce, Mia L. Stephens, Galit Shmueli, Muralidhara Anandamurthy, Nitin R. Patel

20 TEXT MINING

20.1 INTRODUCTION¹

Become an O’Reilly member and get unlimited access to this title plus top books and audiobooks from O’Reilly and nearly 200 top publishers, thousands of courses curated by job role, 150+ live events each month,
and much more.