Capítulo 5. Bases de dados vetoriais com FAISS e Pinecone
Este trabalho foi traduzido com recurso a IA. Agradecemos o teu feedback e comentários: translation-feedback@oreilly.com
Este capítulo introduz o conceito de embeddings e bases de dados de vectores, discutindo como podem ser utilizados para fornecer contexto relevante nos prompts.
Uma base de dados de vectores é uma ferramenta mais frequentemente utilizada para armazenar dados de texto de forma a permitir a consulta com base na semelhança ou no significado semântico. Esta tecnologia é utilizada para diminuir as alucinações (em que o modelo de IA inventa algo), referenciando dados com os quais o modelo não foi treinado, melhorando significativamente a precisão e a qualidade da resposta do LLM. Os casos de utilização de bases de dados vetoriais também incluem a leitura de documentos, a recomendação de produtos semelhantes ou a recordação de conversas anteriores.
Os vectores são listas de números que representam texto (ou imagens), que podes pensar como coordenadas para uma localização. O vetor para a palavra mouse usando o modelo text-embedding-ada-002 do OpenAI é uma lista de 1.536 números, cada um representando o valor de uma caraterística que o modelo de incorporação aprendeu no treinamento:
[-0.011904156766831875, -0.0323905423283577, 0.001950666424818337, ...]
Quando estes modelos são treinados, os textos que aparecem juntos nos dados de treino serão aproximados em valores, e os textos que não estão relacionados serão ...
Become an O’Reilly member and get unlimited access to this title plus top books and audiobooks from O’Reilly and nearly 200 top publishers, thousands of courses curated by job role, 150+ live events each month,
and much more.
Read now
Unlock full access