IA generativa prática com transformadores e modelos de difusão
by Omar Sanseviero, Pedro Cuenca, Apolinário Passos, Jonathan Whitaker
Capítulo 2. Transformadores
Este trabalho foi traduzido com recurso a IA. Agradecemos o teu feedback e comentários: translation-feedback@oreilly.com
Muitos atribuem a mais recente vaga de avanços na IA generativa à introdução de uma classe de modelos denominados transformadores em 2017. As suas aplicações mais conhecidas são os poderosos modelos de linguagem de grande dimensão (LLMs), como o Llama e o GPT-4, utilizados por centenas de milhões de pessoas diariamente. Os transformadores tornaram-se a espinha dorsal das aplicações modernas de IA, alimentando tudo, desde chatbots e sistemas de pesquisa a tradução automática e resumo de conteúdos. Até se ramificaram para além do texto, fazendo ondas em campos como a Visão por Computador, geração de música e dobragem de proteínas. Neste capítulo, vamos explorar as principais ideias por trás dos transformadores e como eles funcionam, com foco em uma das aplicações mais comuns: modelagem de linguagem.
Antes de mergulharmos nos detalhes dos transformadores, vamos dar um passo atrás e entender o que é modelagem de linguagem. Na sua essência, um modelo de linguagem (LM) é um modelo probabilístico que aprende a prever a palavra seguinte (ou token) numa sequência com base nas palavras anteriores ou circundantes. Ao fazê-lo, capta a estrutura e os padrões subjacentes da língua, permitindo ao modelo gerar texto realista e coerente. Por exemplo, dada a frase "Comecei o meu dia a comer", um LM pode prever a palavra seguinte como "pequeno-almoço" ...
Become an O’Reilly member and get unlimited access to this title plus top books and audiobooks from O’Reilly and nearly 200 top publishers, thousands of courses curated by job role, 150+ live events each month,
and much more.
Read now
Unlock full access