Rozdział 8. Oczyszczanie danych

Dotychczas ignorowaliśmy problem niechlujnie sformatowanych danych, ponieważ korzystaliśmy z dobrze przygotowanych źródeł i całkowicie odrzucaliśmy informacje, które różniły się od tego, czego oczekiwaliśmy. Jednak nieraz w trakcie ekstrakcji danych nie możemy sobie pozwolić na taką wybiórczość i kręcić nosem na to, skąd dane pochodzą lub jak wyglądają.

Z powodu nieprawidłowego stosowania znaków interpunkcyjnych, niespójnego używania dużych liter, podziałów wierszy i literówek takie niechlujne dane mogą stanowić poważny problem. W niniejszym rozdziale poznasz kilka narzędzi i technik zapobiegających temu problemowi w zarodku poprzez zmianę sposobu pisania kodu i oczyszczanie danych po ich umieszczeniu w bazie ...

Get Ekstrakcja danych z językiem Python now with the O’Reilly learning platform.

O’Reilly members experience books, live events, courses curated by job role, and more from O’Reilly and nearly 200 top publishers.