Rozdział 1. Witajcie, transformery
W 2017 r. badacze z firmy Google opublikowali artykuł proponujący innowacyjną architekturę sieci neuronowej do modelowania sekwencyjnego[1]. Architektura ta, nazwana transformerem, przewyższała rekurencyjne sieci neuronowe (ang. recurrent neural network, RNN) w zadaniach tłumaczenia maszynowego zarówno pod względem jakości tłumaczenia, jak i kosztów treningu.
Jednocześnie efektywna metoda uczenia transferowego znana jako ULMFiT pokazała, że trenowanie sieci z długą pamięcią krótkotrwałą (ang. long short-term memory, LSTM) na bardzo dużym i zróżnicowanym korpusie pozwala tworzyć skuteczne klasyfikatory tekstu bez dużej ilości danych opatrzonych etykietami[2].
Postępy te przyczyniły się do powstania dwóch najlepiej ...
Get Przetwarzanie języka naturalnego z wykorzystaniem transformerów now with the O’Reilly learning platform.
O’Reilly members experience books, live events, courses curated by job role, and more from O’Reilly and nearly 200 top publishers.