Rozdział 7. Praca z danymi tekstowymi
W rozdziale 4. omówiliśmy dwa rodzaje cech, które mogą reprezentować właściwości danych: cechy ciągłe, opisujące ilość, oraz cechy jakościowe, będące pozycjami z ustalonej listy. Istnieje trzeci rodzaj cech, który można znaleźć w wielu zastosowaniach, czyli tekst. Jeśli np. chcemy zaklasyfikować wiadomość e-mail jako prawdziwą wiadomość e-mail lub spam, jej treść z pewnością będzie zawierała ważne informacje dla tego zadania klasyfikacji. A może chcemy poznać opinię polityka na temat imigracji? Wówczas przydatnych informacji mogą dostarczyć przemówienia lub tweety tej osoby. W przypadku obsługi klienta możemy chcieć się dowiedzieć, czy wiadomość jest reklamacją, czy zapytaniem. Dzięki zidentyfikowaniu rodzaju ...
Get Machine learning, Python i data science now with the O’Reilly learning platform.
O’Reilly members experience books, live events, courses curated by job role, and more from O’Reilly and nearly 200 top publishers.