Rozdział 16. Proces trenowania

Wiesz już, jak można tworzyć najnowocześniejsze architektury w przypadku widzenia komputerowego, przetwarzania języka naturalnego, analizy tabelarycznej i filtrowania zespołowego, a także potrafisz sprawnie trenować modele. A więc to by było na tyle, prawda? W żadnym razie! Powinniśmy jeszcze dokładnie przeanalizować sam proces trenowania.

W rozdziale 4. wyjaśniliśmy podstawy działania stochastycznego spadku wzdłuż gradientu: dostarcz minipaczkę do modelu, porównaj ją z celem za pomocą funkcji straty, a następnie według poniższego wzoru oblicz gradienty tej funkcji w odniesieniu do każdej z wag przed ich zaktualizowaniem:

new_weight = weight - lr * weight.grad

Powyższą metodę zaimplementowaliśmy od podstaw w pętli ...

Get Deep learning dla programistów now with the O’Reilly learning platform.

O’Reilly members experience books, live events, courses curated by job role, and more from O’Reilly and nearly 200 top publishers.