• Skip to main content
  • Skip to header right navigation
  • Skip to after header navigation
  • Skip to site footer
  • Facebook
  • Twitter
  • Instagram
Lesjeudis

Blog Les Jeudis

Actualité Informatique et Digital

  • Annonces
    • Par région
    • Par métier
    • Par technologies
    • Par entreprise
    • Fiche métiers
  • Entreprises
  • News
  • Se connecter
  • Déposer CV
  • Recruteur
    • Connexion Recruteurs
    • Employeurs
    • Trouvez des CVs
    • Postez des offres
  • Categories du Blog
    • Développement
    • Réseaux et Systèmes
    • Digital
    • E-commerce
    • Marché de l’emploi
    • Conseils
    • Evénements
    • Design
    • Marketing
    • Interviews
    • —-
  • Annonces
    • Toutes nos offres d’emploi
    • par région
    • par métier
    • par technologies
    • par sociétés
    • Par Industries
    • Fiches Métiers
  • Entreprises
  • Tests
  • offres recommandées
  • Se connecter
  • Déposez CV
  • Employeurs
    • Connexion recruteurs
    • Employeurs
    • Trouvez des CVs
    • Postez des offres
  • Développement
  • Réseaux et Systèmes
  • Digital
  • E-commerce
  • Marché de l’emploi
  • Conseils
  • Evénements
  • Design
data mining avec r featured banner

Le Data Mining avec R

31/08/2020 par Dorian H Mekni
programming en R

Lexique

data mining lexique
data mining avec r : lexique

Qu’est-ce que le data mining? 

Le data mining, dite processus de fouille ou exploration des données et qui permet de découvrir les connexions cachées et prédire les tendances futures, a une longue histoire.

Parfois appelé «découverte de connaissances dans les bases de données», le terme «exploration de données» ou Data Mining n’a été inventé que dans les années 1990.

Sa fondation comprend trois disciplines scientifiques imbriquées: la statistique (l’étude numérique des relations de données), l’intelligence artificielle (intelligence de type humain affichée par des logiciels et / ou des machines) et l’apprentissage automatique (algorithmes qui peuvent apprendre à partir des données pour faire des prédictions).

La technologie d’exploration de données continue d’évoluer pour suivre le potentiel illimité du Big Data et de la puissance de calcul abordable.

Au cours de la dernière décennie, les progrès de la puissance et de la vitesse de traitement nous ont permis de passer des pratiques manuelles, fastidieuses et chronophages à une analyse de données rapide, facile et automatisée.

Plus les ensembles de données collectés sont complexes, plus il y a du potentiel pour découvrir des informations pertinentes.

Qui est concerné ?

Les détaillants, les banques, les fabricants, les fournisseurs en télécommunications et les assureurs, entre autres, utilisent l’exploration de données pour découvrir des relations entre toutes leurs données, de l’optimisation des prix, des promotions et des données démographiques à la façon dont l’économie, les risques, la concurrence et les médias sociaux affectent leurs modèles commerciaux, leurs revenus et leurs opérations ainsi que les relations clients.

Pourquoi le data mining est-il important?

Alors pourquoi le data mining est-il important? Les chiffres sont stupéfiants – le volume de données produit double tous les deux ans. Les données non structurées représentent à elles seules 90% de l’univers numérique. Mais plus d’informations ne signifie pas nécessairement plus de connaissances.

Le data mining vous permet donc de:

  • Comprendre ce qui est pertinent, puis utiliser à bon escient ces informations pour évaluer les résultats probables.
  • Passez au crible tout le bruit chaotique et répétitif de vos données.
  • Accélérer le rythme de la prise de décisions éclairées.
POINTS CLÉS À RETENIR

-> Le data mining est le processus d’analyse d’un grand lot d’informations pour discerner les tendances et les modèles.

-> Le data mining peut être utilisé par les entreprises pour tout, de la découverte de ce que les clients s’intéressent ou souhaitent acheter à la détection de la fraude et au filtrage du spam.

-> Les programmes de data mining décomposent les modèles et les connexions dans les données en fonction des informations que les utilisateurs demandent ou fournissent.

Planning

Nous allons revoir dans cette étude en R, des concepts précédemment vus dans l’article écrit et disponible sur le lien le suivant : 

Data Structures en R

Puis, dans ce premier chapitre nous allons canaliser nos efforts pour répondre à la question la suivante : 

-> comment créer et lire des fichiers data et comment nous les sauvegardons ?

Dans notre second chapitre du data mining, nous nous familiariserons avec les méthodes d’exploration et de visualisation. Finalement, au cours de notre dernier episode, nous rentrerons dans la prédiction à travers une variété de structures de données et de mécaniques algorithmiques phares dans la pratique du data mining en R.

Révision sur les structures de données

Les vecteurs peuvent avoir des noms soit superposés à des données numériques existantes soit seuls.

data mining 1
programming en r : révision

Chaque element enregistré au sein d’une structure, que ce soit un vector, une liste ou encore un data frame, peut être accédé à partir de son index. En R, le premier index est représenté par le chiffre 1. Nous pouvons également forcer l’indexation d’élément représentés par des valeurs numériques telles que des entiers par des noms en utilisant la fonction names(). 

Vous avez donc deux manières d’accéder les éléments de vos structures de données par leur addresses. 

R ….. un language orienté objet.

R est un language orienté objet et plus précisément un language fonctionnellement orienté. Les matrices sont constituées de vecteurs et les dataframes sont constitués de vecteurs dans une matrice. 

Dans une matrice comme dans un dataframe, les colones sont des vecteurs. Cette dernière doit aussi être composée d’éléments de même type. Per se, une matrice ne peut contenir des caractères et des nombres par exemple. 

Voilà comment créer une matrice et comment la peupler avec des données :

data mining 5
programming en r : révision

Une matrice doit être symétrique. Il est donc compliqué dans cette structure de données d’avoir un nombre de colonnes inégale au nombre de rangées et vice et versa. 

Les vecteurs et les matrices, en R, sont une généralisation d’un ‘array’ ou tableau. Un vecteur est un array ou tableau à une dimension alors que la matrice, elle, est un ‘array’ à deux dimensions. 

La liste est en revanche une collection ordonnée d’objets dont les éléments peuvent être accédé soit par leur nom soit par leur index. 

data mining 2
programming en r : révision

Chaque composant d’une liste peut être par lui-même une structure de données. On peut trouver au sein d’une liste, un vecteur, un data frame ou bien une autre liste. 

data mining 3
programming en r : révision

Il y a deux chemins pour accéder aux valeurs d’une liste, soit par son index, soit par sa dénomination. 

data mining 4
programming en r : révision

Un dataframe est comparable à un tableur constitué de rangées et de colones contenant des données. 

Voyons ici un exemple pour la construction d’un tableur en utilisant la fonction data.frame(). 

data mining 6
programming en r : révision

La lecture et apport de data 

Nous allons voir maintenant comment importer et lire des fichiers en R.

scan()

Cette fonction pratique permet de lire des données dans un document et de lire un vecteur de valeurs qui retourne également un vecteur avec ses éléments. 

scan() est utile pour lire un petit nombre de valeurs et peut également faciliter l’apport de données. 

Quand nous utilisons cette fonction, le point de focus vire vers la console. Normalement dans R studio la flèche jusqu’ici apparaissait indiquant que cette dernière attendait l’insertion de valeur. Dans notre exemple, nous voyons apparaitre ‘1:’ indique que l’attente se fait pour entrer des données directement, permettant ainsi l’interactivité entre le programme et l’utilisateur. 

data mining 7
data mining avec r : lecture et écriture de fichier

Rentrant donc des éléments dans la console de RStudio : 

data mining 8
data mining avec r : lecture et écriture de fichier

RStudio calcule et notifie à l’utilisateur le nombre d’éléments rentrés via notre fonction. 

Il est également possible de specifier avec l’argument ‘what’ le type de data que nous désirons insérer. 

data mining 9
data mining avec r : lecture et écriture de fichier

Maintenant, quand nous désirons lire un fichier classé dans notre ordinateur, nous pouvons procéder à  la démarche la suivante : 

data mining 10
data mining avec r : lecture et écriture de fichier

Si nous désirons supprimer la première colonne de notre fichier pour ne voir apparaître uniquement que les noms sans leur âge, nous procéderons ainsi: 

data mining 11
data mining avec r : lecture et écriture de fichier

x est donc une liste dont le premier composant est null. Eliminons maintenant le composant null en convertissant cette liste en un vecteur simple. 

data mining 12
data mining avec r : lecture et écriture de fichier

Astuce | 

Il est possible de sauvegarder l’access d’un fichier directement dans une variable pour faciliter son usage. 

data mining 13
data mining avec r : lecture et écriture de fichier

Ainsi, sa lecture se fait directement à partir du nom de la variable dans laquelle le fichier a été enregistré. 

data mining 14
data mining avec r : lecture et écriture de fichier

Pour conclure, voyons ici une manière encore plus simple d’accéder à un fichier de manière interactive simplement en appelant file.choose(). 

data mining 15
data mining avec r : lecture et écriture de fichier

readline()

readline() est une autre fonction en R, qui nous permet de lire des données de façon interactive. Dans notre exemple ci-dessous, la phrase sélectionné nous est posée et nous y répondons. Ainsi notre réponse apparait. Ceci dit, elle disparait par la suite car nous ne l’avons pas assigné à quelconque variable. 

Nous montrons maintenant l’approche complète avec assignation toujours ci-dessous et voyons donc ce qu’il se passe : 

data mining 16
data mining avec r : lecture et écriture de fichier

Cette dernière est pratique quand le programmeur ou data miner en R dépend de la réponse de l’utilisateur pour poursuivre son analyse. 

read.table()

read.table s’utilise pour la lecture d’un fichier se terminant en .txt et dont les colones sont séparées par un espace. 

Voilà comment l’utiliser lors de la lecture d’un fichier :

data mining 17
data mining avec r : lecture et écriture de fichier

Quelques fonctions qui peuvent nous servir si nous nous sentons désorienter :

data mining 18
data mining avec r : lecture et écriture de fichier

read.table convertit ipso facto un fichier text en dataframe, prêt à être manipuler via l’utilisation de fonctions. 

read.csv()

read.csv s’utilise pour la lecture des fichiers csv dont les valeurs dans chaque colonne sont séparées par une virgule, comme par exemple dans ce screenshot ci-dessous : 

data mining csv
data mining avec r : lecture et écriture de fichier

cette fonction assume que son argument ‘header’ est logiquement TRUE par conséquent, il n’est pas nécessaire de le mentionner comme nous l’avons fait dans read.table() précédemment. 

data mining 19
data mining avec r : lecture et écriture de fichier

read.csv tout comme read.table, convertit le fichier en lecture d’une trame de données. 

Afin d’inspecter son fichier text ou csv, diverses fonctions existent en R : 

data mining 19
data mining avec r : lecture et écriture de fichier

L’écriture sauvegarde de données

Dans le cas où un dataframe est crée suite à la transformation d’un fichier lu dans notre espace de travail, il se peut que nous désirions le sauvegarder. Il convient donc de se familiariser avec les commandes de sauvegarde en R. 

data mining 21
data mining avec r : lecture et écriture de fichier

Une autre méthode très répandu en R pour accéder à des données, est via les fameux packages. Beaucoup de packages sont présents dans notre espace RStudio mais ne sont pas installés. Il faut donc d’abord les installer afin de les télécharger. 

data mining 22
data mining avec r : lecture et écriture de fichier
data mining 23
data mining avec r : lecture et écriture de fichier

Grâce à la fonction View() nous pouvons rendre état du dataframe clouds dans notre espace de travail sur RStudio.

Conclusion

Nous connaissons désormais les grands axes de la  lecture de données peu importe le type de fichier, text ou csv en language R. Vous serez désormais plus à l’aise pour passer à l’exploration et la visualisation de vos données lors de notre prochain article en R afin d’approfondir et de mettre en exergue les concepts énumérés en data mining lors de notre introduction.

Categorie: Développement, Marketing

About Dorian H Mekni

Dorian.H Mekni est un expert en Data Mining. Il est féru de techniques algorithmiques et de développement d’application mobiles en language natif : Swift | Kotlin.
Ce ‘Data Full-Stack’ travaille en freelance PRO.
Dorian est aussi membre et auteur chez Data Science Central pour lequel il publie des articles sur les Data Structures et Algorithmes: https://www.datasciencecentral.com/profiles/blog/list?user=31ps4xlxoljkx.

Previous Post:l'emploi sur le marché informatique en temps de covid19La reprise de l’emploi sur le marché informatique en temps de crise mondiale
Next Post:Comment utiliser le framework React JS

Reader Interactions

Laisser un commentaire

Votre adresse e-mail ne sera pas publiée. Les champs obligatoires sont indiqués avec *

Sidebar

Rechercher

Nos Meilleurs Articles

Bannière Securité PHP

Découvrez 9 importantes failles de sécurité de PHP ainsi que les moyens de les corriger

Bannière Langages de Programmation

Langages de programmation les mieux payés en 2023 : Top 10

Gatsby JS

JAMstack avec Gatsby, Netlify et Netlify CMS

Modeles React JS

10 modèles React gratuits que vous pouvez utiliser pour vos projets

les couches ou layers de la blockchain

Les layers de blockchain (L0, L1, L2, L3)

bannière Ingénieur développement

Ingénieur développement

un développeur de crypto devant l'ordinateur et le globe terrestre montrant différents symboles de crypto-monnaies

Le rapport sur l’activité des développeurs crypto

Des équipes de développeurs écoutent le MOE (Maîtrise d'œuvre) et la maîtrise d’ouvrage (MOA) valide les developpements informatiques menés par la maîtrise d’œuvre

MOA MOE : Quelles sont les différences ?

bases de données et tableaux de pagination sql

Pagination SQL : problèmes et solutions

ordinateur portable pro montrant code de programmation, services cloud et des charts statistiques

Le développement web et les développeurs web

Le processus du RPA (Robotic Process Automation)

La Robotic Process automation, aux frontières du machine learning et de l’IA

la jamstack: Javascript, APIs et code markup

La promesse de la Jamstack

Categories

  • Blockchain (11)
  • Conseils (51)
  • Design (39)
  • Développement (148)
  • Digital (305)
  • Divers (6)
  • E-commerce (12)
  • Evénements (24)
  • Fiche métier (1)
  • Formation (7)
  • Interviews (36)
  • Marché de l'emploi (59)
  • Marketing (127)
  • Méthodologie (9)
  • Réseaux et Systèmes (25)
  • Web (149)

Nos Categories

Blockchain

Conseils

Méthodologies

Design

Développement 

Digital

E-commerce

Evénements

Formation

interview

Marché de l’emploi

Marketing

Réseaux et Systèmes

Website

Candidats

Employment by region

Employment by profession

Emploi par technologie

Emploi par type de contrat

Tous les emplois

Fiches métiers informatiques

Nos Services

S’inscrire

Annonces

Magazine

Salon LesJeudis

Support

Nous contacter

Vous êtes recruteur ?

A Propos

Conditions générales d’utilisation

Politique de confidentialité

Droit d’accès aux données 

Personnelles

Social

Facebook

Twitter

Linkedi

Les Jeudis

© 2021 Groupe Les Jeudis