Le Data Mining avec R

programming en R

Lexique

Qu’est-ce que le data mining?

Le data mining, dite processus de fouille ou exploration des données et qui permet de découvrir les connexions cachées et prédire les tendances futures, a une longue histoire.

Parfois appelé «découverte de connaissances dans les bases de données», le terme «exploration de données» ou Data Mining n’a été inventé que dans les années 1990.

Sa fondation comprend trois disciplines scientifiques imbriquées: la statistique (l’étude numérique des relations de données), l’intelligence artificielle (intelligence de type humain affichée par des logiciels et / ou des machines) et l’apprentissage automatique (algorithmes qui peuvent apprendre à partir des données pour faire des prédictions).

La technologie d’exploration de données continue d’évoluer pour suivre le potentiel illimité du Big Data et de la puissance de calcul abordable.

Au cours de la dernière décennie, les progrès de la puissance et de la vitesse de traitement nous ont permis de passer des pratiques manuelles, fastidieuses et chronophages à une analyse de données rapide, facile et automatisée.

Plus les ensembles de données collectés sont complexes, plus il y a du potentiel pour découvrir des informations pertinentes.

Qui est concerné ?

Les détaillants, les banques, les fabricants, les fournisseurs en télécommunications et les assureurs, entre autres, utilisent l’exploration de données pour découvrir des relations entre toutes leurs données, de l’optimisation des prix, des promotions et des données démographiques à la façon dont l’économie, les risques, la concurrence et les médias sociaux affectent leurs modèles commerciaux, leurs revenus et leurs opérations ainsi que les relations clients.

Pourquoi le data mining est-il important?

Alors pourquoi le data mining est-il important? Les chiffres sont stupéfiants – le volume de données produit double tous les deux ans. Les données non structurées représentent à elles seules 90% de l’univers numérique. Mais plus d’informations ne signifie pas nécessairement plus de connaissances.

Le data mining vous permet donc de:

Comprendre ce qui est pertinent, puis utiliser à bon escient ces informations pour évaluer les résultats probables.

Passez au crible tout le bruit chaotique et répétitif de vos données.

Accélérer le rythme de la prise de décisions éclairées.

POINTS CLÉS À RETENIR

-> Le data mining est le processus d’analyse d’un grand lot d’informations pour discerner les tendances et les modèles.

-> Le data mining peut être utilisé par les entreprises pour tout, de la découverte de ce que les clients s’intéressent ou souhaitent acheter à la détection de la fraude et au filtrage du spam.

-> Les programmes de data mining décomposent les modèles et les connexions dans les données en fonction des informations que les utilisateurs demandent ou fournissent.

Planning

Nous allons revoir dans cette étude en R, des concepts précédemment vus dans l’article écrit et disponible sur le lien le suivant :

Data Structures en R

Puis, dans ce premier chapitre nous allons canaliser nos efforts pour répondre à la question la suivante :

-> comment créer et lire des fichiers data et comment nous les sauvegardons ?

Dans notre second chapitre du data mining, nous nous familiariserons avec les méthodes d’exploration et de visualisation. Finalement, au cours de notre dernier episode, nous rentrerons dans la prédiction à travers une variété de structures de données et de mécaniques algorithmiques phares dans la pratique du data mining en R.

Révision sur les structures de données

Les vecteurs peuvent avoir des noms soit superposés à des données numériques existantes soit seuls.

data mining 1 — programming en r : révision

Chaque element enregistré au sein d’une structure, que ce soit un vector, une liste ou encore un data frame, peut être accédé à partir de son index. En R, le premier index est représenté par le chiffre 1. Nous pouvons également forcer l’indexation d’élément représentés par des valeurs numériques telles que des entiers par des noms en utilisant la fonction names().

Vous avez donc deux manières d’accéder les éléments de vos structures de données par leur addresses.

R ….. un language orienté objet.

R est un language orienté objet et plus précisément un language fonctionnellement orienté. Les matrices sont constituées de vecteurs et les dataframes sont constitués de vecteurs dans une matrice.

Dans une matrice comme dans un dataframe, les colones sont des vecteurs. Cette dernière doit aussi être composée d’éléments de même type. Per se, une matrice ne peut contenir des caractères et des nombres par exemple.

Voilà comment créer une matrice et comment la peupler avec des données :

data mining 5 — programming en r : révision

Une matrice doit être symétrique. Il est donc compliqué dans cette structure de données d’avoir un nombre de colonnes inégale au nombre de rangées et vice et versa.

Les vecteurs et les matrices, en R, sont une généralisation d’un ‘array’ ou tableau. Un vecteur est un array ou tableau à une dimension alors que la matrice, elle, est un ‘array’ à deux dimensions.

La liste est en revanche une collection ordonnée d’objets dont les éléments peuvent être accédé soit par leur nom soit par leur index.

data mining 2 — programming en r : révision

Chaque composant d’une liste peut être par lui-même une structure de données. On peut trouver au sein d’une liste, un vecteur, un data frame ou bien une autre liste.

data mining 3 — programming en r : révision

Il y a deux chemins pour accéder aux valeurs d’une liste, soit par son index, soit par sa dénomination.

data mining 4 — programming en r : révision

Un dataframe est comparable à un tableur constitué de rangées et de colones contenant des données.

Voyons ici un exemple pour la construction d’un tableur en utilisant la fonction data.frame().

data mining 6 — programming en r : révision

La lecture et apport de data

Nous allons voir maintenant comment importer et lire des fichiers en R.

scan()

Cette fonction pratique permet de lire des données dans un document et de lire un vecteur de valeurs qui retourne également un vecteur avec ses éléments.

scan() est utile pour lire un petit nombre de valeurs et peut également faciliter l’apport de données.

Quand nous utilisons cette fonction, le point de focus vire vers la console. Normalement dans R studio la flèche jusqu’ici apparaissait indiquant que cette dernière attendait l’insertion de valeur. Dans notre exemple, nous voyons apparaitre ‘1:’ indique que l’attente se fait pour entrer des données directement, permettant ainsi l’interactivité entre le programme et l’utilisateur.

data mining 7 — data mining avec r : lecture et écriture de fichier

Rentrant donc des éléments dans la console de RStudio :

data mining 8 — data mining avec r : lecture et écriture de fichier

RStudio calcule et notifie à l’utilisateur le nombre d’éléments rentrés via notre fonction.

Il est également possible de specifier avec l’argument ‘what’ le type de data que nous désirons insérer.

data mining 9 — data mining avec r : lecture et écriture de fichier

Maintenant, quand nous désirons lire un fichier classé dans notre ordinateur, nous pouvons procéder à la démarche la suivante :

data mining 10 — data mining avec r : lecture et écriture de fichier

Si nous désirons supprimer la première colonne de notre fichier pour ne voir apparaître uniquement que les noms sans leur âge, nous procéderons ainsi:

data mining 11 — data mining avec r : lecture et écriture de fichier

x est donc une liste dont le premier composant est null. Eliminons maintenant le composant null en convertissant cette liste en un vecteur simple.

data mining 12 — data mining avec r : lecture et écriture de fichier

Astuce |

Il est possible de sauvegarder l’access d’un fichier directement dans une variable pour faciliter son usage.

data mining 13 — data mining avec r : lecture et écriture de fichier

Ainsi, sa lecture se fait directement à partir du nom de la variable dans laquelle le fichier a été enregistré.

data mining 14 — data mining avec r : lecture et écriture de fichier

Pour conclure, voyons ici une manière encore plus simple d’accéder à un fichier de manière interactive simplement en appelant file.choose().

data mining 15 — data mining avec r : lecture et écriture de fichier

readline()

readline() est une autre fonction en R, qui nous permet de lire des données de façon interactive. Dans notre exemple ci-dessous, la phrase sélectionné nous est posée et nous y répondons. Ainsi notre réponse apparait. Ceci dit, elle disparait par la suite car nous ne l’avons pas assigné à quelconque variable.

Nous montrons maintenant l’approche complète avec assignation toujours ci-dessous et voyons donc ce qu’il se passe :

data mining 16 — data mining avec r : lecture et écriture de fichier

Cette dernière est pratique quand le programmeur ou data miner en R dépend de la réponse de l’utilisateur pour poursuivre son analyse.

read.table()

read.table s’utilise pour la lecture d’un fichier se terminant en .txt et dont les colones sont séparées par un espace.

Voilà comment l’utiliser lors de la lecture d’un fichier :

data mining 17 — data mining avec r : lecture et écriture de fichier

Quelques fonctions qui peuvent nous servir si nous nous sentons désorienter :

data mining 18 — data mining avec r : lecture et écriture de fichier

read.table convertit ipso facto un fichier text en dataframe, prêt à être manipuler via l’utilisation de fonctions.

read.csv()

read.csv s’utilise pour la lecture des fichiers csv dont les valeurs dans chaque colonne sont séparées par une virgule, comme par exemple dans ce screenshot ci-dessous :

data mining csv — data mining avec r : lecture et écriture de fichier

cette fonction assume que son argument ‘header’ est logiquement TRUE par conséquent, il n’est pas nécessaire de le mentionner comme nous l’avons fait dans read.table() précédemment.

data mining 19 — data mining avec r : lecture et écriture de fichier

read.csv tout comme read.table, convertit le fichier en lecture d’une trame de données.

Afin d’inspecter son fichier text ou csv, diverses fonctions existent en R :

L’écriture sauvegarde de données

Dans le cas où un dataframe est crée suite à la transformation d’un fichier lu dans notre espace de travail, il se peut que nous désirions le sauvegarder. Il convient donc de se familiariser avec les commandes de sauvegarde en R.

data mining 21 — data mining avec r : lecture et écriture de fichier

Une autre méthode très répandu en R pour accéder à des données, est via les fameux packages. Beaucoup de packages sont présents dans notre espace RStudio mais ne sont pas installés. Il faut donc d’abord les installer afin de les télécharger.

data mining 22 — data mining avec r : lecture et écriture de fichier

data mining 23 — data mining avec r : lecture et écriture de fichier

Grâce à la fonction View() nous pouvons rendre état du dataframe clouds dans notre espace de travail sur RStudio.

Conclusion

Nous connaissons désormais les grands axes de la lecture de données peu importe le type de fichier, text ou csv en language R. Vous serez désormais plus à l’aise pour passer à l’exploration et la visualisation de vos données lors de notre prochain article en R afin d’approfondir et de mettre en exergue les concepts énumérés en data mining lors de notre introduction.

programming en R

Lexique

Qu’est-ce que le data mining?

Qui est concerné ?

Pourquoi le data mining est-il important?

POINTS CLÉS À RETENIR

Planning

-> comment créer et lire des fichiers data et comment nous les sauvegardons ?

Révision sur les structures de données

R ….. un language orienté objet.

La lecture et apport de data

scan()

Astuce |

readline()

read.table()

read.csv()

L’écriture sauvegarde de données

About Dorian H Mekni

Fiche Métier Data Scientist 2026 : Salaire, Missions et Formations

Développement de jeux vidéo : Ce qu’il faut savoir

La Robotic Process automation, aux frontières du machine learning et de l’IA

10 modèles React gratuits que vous pouvez utiliser pour vos projets

Développer une application mobile pas à pas

Comment se former au métier de développeur informatique ?

Les erreurs courantes en C# à éviter pour exceller en tant que développeur

Tout savoir sur Angular 18

SEO et Webdesign : une association indispensable

Repenser Scrum pour libérer son potentiel

Le Prompt Engineering : L’art de converser avec l’intelligence artificielle

Rust – Le nouveau pilier de la Data Science

programming en R

Lexique

Qu’est-ce que le data mining?

Qui est concerné ?

Pourquoi le data mining est-il important?

POINTS CLÉS À RETENIR

Planning

-> comment créer et lire des fichiers data et comment nous les sauvegardons ?

Révision sur les structures de données

R ….. un language orienté objet.

La lecture et apport de data

scan()

Astuce |

readline()

read.table()

read.csv()

L’écriture sauvegarde de données

About Dorian H Mekni

Reader Interactions

Leave a Reply