Chapitre 18. Gestion des doublons
Cet ouvrage a été traduit à l'aide de l'IA. Tes réactions et tes commentaires sont les bienvenus : translation-feedback@oreilly.com
18.0 Introduction
Les tables ou les ensembles de résultats contiennent parfois des lignes en double. Dans certains cas, c'estacceptable. Par exemple, si tu effectues un sondage en ligne qui enregistre la date et le numéro IP du client en même temps que les votes, les lignes en double peuvent être autorisées car il est possible qu'un grand nombre de votes semblent provenir du même numéro IP dans le cas d'un service Internet qui achemine le trafic de ses clients par l'intermédiaire d'un seul hôte proxy. Dans d'autres cas, les doublons sont inacceptables et tu dois prendre des mesures pour les éviter. Les opérations impliquées dans la gestion des lignes en double sont les suivantes :
Empêcher la création de doublons. Si chaque ligne d'un tableau est censée représenter une seule entité (comme une personne, un article dans un catalogue ou une observation spécifique dans une expérience), l'apparition de doublons empêche de se référer à chaque ligne sans ambiguïté, il est donc préférable de s'assurer que les doublons ne se produisent jamais.
Compte le nombre de doublons pour déterminer s'ils sont présents et dans quelle mesure.
Identifier les valeurs dupliquées (ou les lignes qui les contiennent) pour que tu puisses voir où elles se produisent.
Éliminer les doublons pour s'assurer que chaque ligne est unique. Il peut s'agir de supprimer ...
Become an O’Reilly member and get unlimited access to this title plus top books and audiobooks from O’Reilly and nearly 200 top publishers, thousands of courses curated by job role, 150+ live events each month,
and much more.
Read now
Unlock full access