Rozdział 16. Regresja logistyczna

Wiele osób uważa, że geniusz od szaleństwa oddziela cienka linia. Moim zdaniem ta linia wcale nie jest cienka. To tak naprawdę olbrzymia przepaść.

— Bill Bailey

W rozdziale 1. poruszyliśmy problem dotyczący próby przewidzenia użytkowników serwisu DataSciencester, którzy są gotowi zapłacić za konta premium. Teraz przeanalizujemy go jeszcze raz.

Problem

Dokonaliśmy anonimizacji zbioru danych około 200 użytkowników. W zbiorze tym znajdują się informacje o ich zarobkach, latach doświadczenia w pracy analityka i informacja o założeniu płatnego konta (zobacz rysunek 16.1). Jak zwykle zmienne kategoryczne przedstawiamy za pomocą wartości — 0 przypisujemy użytkownikom bez konta premium, a 1 przypisujemy użytkownikom ...

Get Data science od podstaw now with O’Reilly online learning.

O’Reilly members experience live online training, plus books, videos, and digital content from 200+ publishers.