Capítulo 1. Introdução aos modelos de linguagem de grande dimensão
Este trabalho foi traduzido com recurso a IA. Agradecemos o teu feedback e comentários: translation-feedback@oreilly.com
O aumento da popularidade dos modelos de linguagem de grande dimensão (LLMs) não é acidental; estão a transformar a forma como interagimos com a tecnologia e a ultrapassar os limites do que os modelos de aprendizagem automática podem fazer.
Mas aqui está o senão: embora estes modelos sejam impressionantes, aumentá-los e geri-los na produção não é fácil. O salto de um projeto de pesquisa para uma ferramenta totalmente desenvolvida e fiável está cheio de obstáculos. Estamos a falar de satisfazer enormes requisitos computacionais, gerir dados complexos e garantir que tudo funciona sem problemas e de forma segura, quer estejas a alojar-te a ti próprio ou a utilizar modelos proprietários.
Antes de nos debruçarmos sobre os pormenores das operações do LLM, é importante compreender porquê e como surgiram estes modelos. Conhecer as suas origens e trajetória ajuda-nos a compreender os desafios que enfrentamos ao prever os seus comportamentos em produção.
A evolução dos LLMs reflecte uma série de inovações incrementais, cada uma abordando limitações específicas de modelos anteriores. Os primeiros modelos tinham um âmbito limitado e exigiam uma intervenção humana extensiva mesmo para tarefas básicas. Com os avanços na arquitetura, como a passagem das redes neuronais recorrentes (RNNs) para os transformadores, ...
Become an O’Reilly member and get unlimited access to this title plus top books and audiobooks from O’Reilly and nearly 200 top publishers, thousands of courses curated by job role, 150+ live events each month,
and much more.
Read now
Unlock full access