Rozdział 1. Witajcie, transformery

W 2017 r. badacze z firmy Google opublikowali artykuł proponujący innowacyjną architekturę sieci neuronowej do modelowania sekwencyjnego[1]. Architektura ta, nazwana transformerem, przewyższała rekurencyjne sieci neuronowe (ang. recurrent neural network, RNN) w zadaniach tłumaczenia maszynowego zarówno pod względem jakości tłumaczenia, jak i kosztów treningu.

Jednocześnie efektywna metoda uczenia transferowego znana jako ULMFiT pokazała, że trenowanie sieci z długą pamięcią krótkotrwałą (ang. long short-term memory, LSTM) na bardzo dużym i zróżnicowanym korpusie pozwala tworzyć skuteczne klasyfikatory tekstu bez dużej ilości danych opatrzonych etykietami[2].

Postępy te przyczyniły się do powstania dwóch najlepiej ...

Get Przetwarzanie języka naturalnego z wykorzystaniem transformerów now with the O’Reilly learning platform.

O’Reilly members experience books, live events, courses curated by job role, and more from O’Reilly and nearly 200 top publishers.