Capítulo 5. Bases de dados vetoriais com FAISS e Pinecone
Este trabalho foi traduzido com recurso a IA. Agradecemos o teu feedback e comentários: translation-feedback@oreilly.com
Este capítulo introduz o conceito de embeddings e bases de dados de vectores, discutindo como podem ser utilizados para fornecer contexto relevante nos prompts.
Uma base de dados de vectores é uma ferramenta mais frequentemente utilizada para armazenar dados de texto de forma a permitir a consulta com base na semelhança ou no significado semântico. Esta tecnologia é utilizada para diminuir as alucinações (em que o modelo de IA inventa algo), referenciando dados com os quais o modelo não foi treinado, melhorando significativamente a precisão e a qualidade da resposta do LLM. Os casos de utilização de bases de dados vetoriais também incluem a leitura de documentos, a recomendação de produtos semelhantes ou a recordação de conversas anteriores.
Os vectores são listas de números que representam texto (ou imagens), que podes pensar como coordenadas para uma localização. O vetor para a palavra mouse usando o modelo text-embedding-ada-002 do OpenAI é uma lista de 1.536 números, cada um representando o valor de uma caraterística que o modelo de incorporação aprendeu no treinamento:
[-0.011904156766831875, -0.0323905423283577, 0.001950666424818337, ...]
Quando estes modelos são treinados, os textos que aparecem juntos nos dados de treino serão aproximados em valores, e os textos que não estão relacionados serão ...