February 2019
Intermediate to advanced
272 pages
8h 26m
Polish
Dotychczas ignorowaliśmy problem niechlujnie sformatowanych danych, ponieważ korzystaliśmy z dobrze przygotowanych źródeł i całkowicie odrzucaliśmy informacje, które różniły się od tego, czego oczekiwaliśmy. Jednak nieraz w trakcie ekstrakcji danych nie możemy sobie pozwolić na taką wybiórczość i kręcić nosem na to, skąd dane pochodzą lub jak wyglądają.
Z powodu nieprawidłowego stosowania znaków interpunkcyjnych, niespójnego używania dużych liter, podziałów wierszy i literówek takie niechlujne dane mogą stanowić poważny problem. W niniejszym rozdziale poznasz kilka narzędzi i technik zapobiegających temu problemowi w zarodku poprzez zmianę sposobu pisania kodu i oczyszczanie danych po ich umieszczeniu w bazie ...