Introdução
O lançamento do ChatGPT em 2022 foi um momento decisivo para o mundo da TI. Da noite para o dia, parecia que tudo havia mudado, não por causa de conceitos totalmente novos, mas devido ao crescimento exponencial dos parâmetros do modelo e à expansão maciça dos conjuntos de dados de treinamento. Os parâmetros do modelo — os pesos e vieses que o aprendeu duranteo treinamento — são frequentemente usados para medir a complexidade e a capacidade de um modelo. Mas as inovações arquitetônicas e a qualidade do treinamento são igualmente importantes para o desempenho real de um modelo. Essa combinação de parâmetros de escala e expansão de dados levou a IA a um novo território, com capacidades antes inimagináveis.
No mundo da física, as transições de fase descrevem momentos em que pequenas mudanças graduais levam repentinamente a mudanças dramáticas no comportamento — como a água se transformando em gelo. O surgimento de grandes modelos de linguagem (LLMs) segue esse mesmo padrão. Desde que a arquitetura Transformer foi introduzida em 2017, a IA vinha evoluindo constantemente, mas o salto no tamanho do modelo, no poder de computação e na escala dos dados de treinamento a levou além de um ponto de inflexão. Esses modelos começaram a exibir geração e processamento de texto semelhantes aos humanos, revolucionando setores inteiros e redefinindo nossas expectativas sobre o que a IA pode fazer. O gráfico na Figura I-1 mostra o crescimento desses parâmetros e as fontes de dados em expansão ...
Become an O’Reilly member and get unlimited access to this title plus top books and audiobooks from O’Reilly and nearly 200 top publishers, thousands of courses curated by job role, 150+ live events each month,
and much more.
Read now
Unlock full access