Capítulo 2. RAG Parte I: Indexar os teus dados
Este trabalho foi traduzido com recurso a IA. Agradecemos o teu feedback e comentários: translation-feedback@oreilly.com
No capítulo anterior, aprendeste sobre os blocos de construção importantes usados para criar uma aplicação LLM usando LangChain. Também construíste um chatbot de IA simples que consiste num prompt enviado para o modelo e na saída gerada pelo modelo. Mas há grandes limitações a este chatbot simples.
E se o teu caso de utilização exigir conhecimentos com os quais o modelo não foi treinado? Por exemplo, digamos que queres utilizar a IA para fazer perguntas sobre uma empresa, mas a informação está contida num PDF privado ou noutro tipo de documento. Embora tenhamos visto os fornecedores de modelos a enriquecerem os seus conjuntos de dados de formação para incluírem cada vez mais informações públicas do mundo (independentemente do formato em que estejam armazenadas), continuam a existir duas grandes limitações no corpus de conhecimento da LLM:
- Dados privados
-
Informação que não está disponível publicamente não está, por definição, incluída nos dados de treino dos LLMs.
- Atualidade
-
Treinar um LLM é um processo caro e demorado que pode durar vários anos, sendo a recolha de dados um dos primeiros passos. O resultado é o que se chama de corte de conhecimento, ou seja, uma data a partir da qual o LLM não tem conhecimento de eventos do mundo real; normalmente, esta seria a data em que o conjunto de treinamento foi finalizado. ...