Skip to content
Se connecter/S'inscrire
FDTK | From Data To Knowledge
  • Accueil
  • Cours
  • Blog
  • Pour entreprises
  • Plus
    • Tableau de bord
    • A propos de nous
    • Contactez-nous
0

Actuellement vide: $0,00

Continuer mes achats

FDTK | From Data To Knowledge
  • Accueil
  • Cours
  • Blog
  • Pour entreprises
  • Plus
    • Tableau de bord
    • A propos de nous
    • Contactez-nous

Comment détecter et supprimer les doublons avec R

Accueil » Blog » Comment détecter et supprimer les doublons avec R
Breadcrumb Abstract Shape
Breadcrumb Abstract Shape
Breadcrumb Abstract Shape
R

Comment détecter et supprimer les doublons avec R

  • novembre 7, 2025
  • Com 0

Dans tout projet de data cleaning, l’une des étapes les plus importantes est la détection et la suppression des doublons. Les doublons peuvent fausser les statistiques, biaiser les analyses et conduire à de mauvaises décisions. Heureusement, le langage R offre plusieurs approches simples et puissantes pour identifier et gérer les doublons efficacement.

Qu’est-ce qu’un doublon ?

Un doublon est une ligne ou un enregistrement qui apparaît plusieurs fois dans un jeu de données.
Par exemple, si vous avez deux lignes représentant le même individu ou la même transaction, vous avez un doublon.

Exemple :

idnomâgeville
1Paul28Kinshasa
2Marie34Lubumbashi
3Paul28Kinshasa

La première et la troisième ligne sont identiques : ce sont des doublons.

Étape 1 : Charger les données

Commençons par importer un petit jeu de données d’exemple dans R :

# Charger les librairies
library(dplyr)

# Exemple de données avec doublons
data <- data.frame(
  id = c(1, 2, 3, 4, 5, 3),
  nom = c("Paul", "Marie", "Jean", "Anne", "Luc", "Jean"),
  age = c(28, 34, 45, 29, 31, 45),
  ville = c("Kinshasa", "Lubumbashi", "Goma", "Kisangani", "Bukavu", "Goma")
)

data

Étape 2 : Détecter les doublons

Méthode de base avec duplicated()

La fonction duplicated() permet d’identifier les lignes répétées dans un data frame.

# Identifier les doublons
duplicated(data)

# Afficher les lignes dupliquées
data[duplicated(data), ]

Résultat : cette commande renvoie uniquement les lignes identiques à une autre déjà vue.

🧠 Astuce : détecter sur certaines colonnes

Parfois, deux lignes peuvent être considérées comme des doublons uniquement sur certaines colonnes (ex : nom + âge).

# Détecter les doublons sur les colonnes nom et âge
data[duplicated(data[, c("nom", "age")]), ]

Cela permet de repérer des individus qui apparaissent plusieurs fois avec les mêmes caractéristiques, même si d’autres colonnes diffèrent.

Étape 3 : Supprimer les doublons

Supprimer les doublons avec distinct() du package dplyr

dplyr simplifie grandement le nettoyage :

# Supprimer les doublons sur toutes les colonnes
data_clean <- data %>% distinct()

data_clean

Supprimer les doublons selon certaines colonnes

# Garder une seule ligne par combinaison nom + âge
data_clean <- data %>% distinct(nom, age, .keep_all = TRUE)

data_clean

L’option .keep_all = TRUE permet de conserver toutes les colonnes, même celles non utilisées pour détecter les doublons.

Étape 4 : Vérifier le résultat

# Vérifier qu’il n’y a plus de doublons
any(duplicated(data_clean))

Si cette commande renvoie FALSE, cela signifie que votre jeu de données est maintenant propre et sans doublons 🎉

Bonus : compter les doublons

Si vous souhaitez savoir combien de doublons se répètent et combien de fois, vous pouvez utiliser dplyr :

data %>%
  group_by(nom, age) %>%
  summarise(n = n()) %>%
  filter(n > 1)

Cela vous permet d’obtenir un résumé des doublons présents dans votre dataset.

En résumé

ÉtapeFonction cléDescription
1duplicated()Identifier les doublons
2data[duplicated(data), ]Afficher les lignes dupliquées
3distinct()Supprimer les doublons
4.keep_all = TRUEConserver toutes les colonnes

Conclusion

La détection et la suppression des doublons constituent une étape incontournable avant toute analyse de données.
Avec R et le package dplyr, vous pouvez effectuer ce travail rapidement, efficacement et de manière reproductible. Un dataset propre, c’est la base d’une analyse fiable et de résultats pertinents.

Partager sur :
Introduction à la collecte de données mobile

Laisser un commentaire Annuler la réponse

Votre adresse e-mail ne sera pas publiée. Les champs obligatoires sont indiqués avec *

Archives

  • novembre 2025

Categories

  • Collecte de données
  • R
  • Science de données

Recherche

Dernière publication

Thumb
Deployer son modele de Machine Learning sous
novembre 29, 2025
Thumb
Déployer son modèle de Machine Learning sous
novembre 27, 2025
Thumb
Introduction à la collecte de données mobile
novembre 26, 2025

Catégories

  • Collecte de données (1)
  • R (3)
  • Science de données (3)
fdtk

Rendre les compétences en science des données et intelligence artificielle accessibles et applicables.

Add: Kinshasa, Gombe, RDC
Tél: +243 893 119 109
Email: support@fdtk.org

Notre plateforme

  • A propos
  • Cours
  • Evénements

Liens

  • Contactez-nous
  • Blog
  • FAQ’s

Contacts

Inscrivez-vous à notre news letter pour ne rien manquer.

Icon-facebook Icon-linkedin2 Icon-twitter Icon-youtube
Copyright 2026 FDTK. Tous droits réservés
FDTK | From Data To Knowledge
Se connecterS'inscrire

Se connecter

Vous n'avez pas de compte ? S'inscrire
Mot de passe oublié ?

S'inscrire

Already have an account? Se connecter