programming en R
Lexique
Qu’est-ce que le data mining?
Le data mining, dite processus de fouille ou exploration des données et qui permet de découvrir les connexions cachées et prédire les tendances futures, a une longue histoire.
Parfois appelé «découverte de connaissances dans les bases de données», le terme «exploration de données» ou Data Mining n’a été inventé que dans les années 1990.
Sa fondation comprend trois disciplines scientifiques imbriquées: la statistique (l’étude numérique des relations de données), l’intelligence artificielle (intelligence de type humain affichée par des logiciels et / ou des machines) et l’apprentissage automatique (algorithmes qui peuvent apprendre à partir des données pour faire des prédictions).
La technologie d’exploration de données continue d’évoluer pour suivre le potentiel illimité du Big Data et de la puissance de calcul abordable.
Au cours de la dernière décennie, les progrès de la puissance et de la vitesse de traitement nous ont permis de passer des pratiques manuelles, fastidieuses et chronophages à une analyse de données rapide, facile et automatisée.
Plus les ensembles de données collectés sont complexes, plus il y a du potentiel pour découvrir des informations pertinentes.
Qui est concerné ?
Les détaillants, les banques, les fabricants, les fournisseurs en télécommunications et les assureurs, entre autres, utilisent l’exploration de données pour découvrir des relations entre toutes leurs données, de l’optimisation des prix, des promotions et des données démographiques à la façon dont l’économie, les risques, la concurrence et les médias sociaux affectent leurs modèles commerciaux, leurs revenus et leurs opérations ainsi que les relations clients.
Pourquoi le data mining est-il important?
Alors pourquoi le data mining est-il important? Les chiffres sont stupéfiants – le volume de données produit double tous les deux ans. Les données non structurées représentent à elles seules 90% de l’univers numérique. Mais plus d’informations ne signifie pas nécessairement plus de connaissances.
Le data mining vous permet donc de:
- Comprendre ce qui est pertinent, puis utiliser à bon escient ces informations pour évaluer les résultats probables.
- Passez au crible tout le bruit chaotique et répétitif de vos données.
- Accélérer le rythme de la prise de décisions éclairées.
POINTS CLÉS À RETENIR
-> Le data mining est le processus d’analyse d’un grand lot d’informations pour discerner les tendances et les modèles.
-> Le data mining peut être utilisé par les entreprises pour tout, de la découverte de ce que les clients s’intéressent ou souhaitent acheter à la détection de la fraude et au filtrage du spam.
-> Les programmes de data mining décomposent les modèles et les connexions dans les données en fonction des informations que les utilisateurs demandent ou fournissent.
Planning
Nous allons revoir dans cette étude en R, des concepts précédemment vus dans l’article écrit et disponible sur le lien le suivant :
Puis, dans ce premier chapitre nous allons canaliser nos efforts pour répondre à la question la suivante :
-> comment créer et lire des fichiers data et comment nous les sauvegardons ?
Dans notre second chapitre du data mining, nous nous familiariserons avec les méthodes d’exploration et de visualisation. Finalement, au cours de notre dernier episode, nous rentrerons dans la prédiction à travers une variété de structures de données et de mécaniques algorithmiques phares dans la pratique du data mining en R.
Révision sur les structures de données
Les vecteurs peuvent avoir des noms soit superposés à des données numériques existantes soit seuls.
Chaque element enregistré au sein d’une structure, que ce soit un vector, une liste ou encore un data frame, peut être accédé à partir de son index. En R, le premier index est représenté par le chiffre 1. Nous pouvons également forcer l’indexation d’élément représentés par des valeurs numériques telles que des entiers par des noms en utilisant la fonction names().
Vous avez donc deux manières d’accéder les éléments de vos structures de données par leur addresses.
R ….. un language orienté objet.
R est un language orienté objet et plus précisément un language fonctionnellement orienté. Les matrices sont constituées de vecteurs et les dataframes sont constitués de vecteurs dans une matrice.
Dans une matrice comme dans un dataframe, les colones sont des vecteurs. Cette dernière doit aussi être composée d’éléments de même type. Per se, une matrice ne peut contenir des caractères et des nombres par exemple.
Voilà comment créer une matrice et comment la peupler avec des données :
Une matrice doit être symétrique. Il est donc compliqué dans cette structure de données d’avoir un nombre de colonnes inégale au nombre de rangées et vice et versa.
Les vecteurs et les matrices, en R, sont une généralisation d’un ‘array’ ou tableau. Un vecteur est un array ou tableau à une dimension alors que la matrice, elle, est un ‘array’ à deux dimensions.
La liste est en revanche une collection ordonnée d’objets dont les éléments peuvent être accédé soit par leur nom soit par leur index.
Chaque composant d’une liste peut être par lui-même une structure de données. On peut trouver au sein d’une liste, un vecteur, un data frame ou bien une autre liste.
Il y a deux chemins pour accéder aux valeurs d’une liste, soit par son index, soit par sa dénomination.
Un dataframe est comparable à un tableur constitué de rangées et de colones contenant des données.
Voyons ici un exemple pour la construction d’un tableur en utilisant la fonction data.frame().
La lecture et apport de data
Nous allons voir maintenant comment importer et lire des fichiers en R.
scan()
Cette fonction pratique permet de lire des données dans un document et de lire un vecteur de valeurs qui retourne également un vecteur avec ses éléments.
scan() est utile pour lire un petit nombre de valeurs et peut également faciliter l’apport de données.
Quand nous utilisons cette fonction, le point de focus vire vers la console. Normalement dans R studio la flèche jusqu’ici apparaissait indiquant que cette dernière attendait l’insertion de valeur. Dans notre exemple, nous voyons apparaitre ‘1:’ indique que l’attente se fait pour entrer des données directement, permettant ainsi l’interactivité entre le programme et l’utilisateur.
Rentrant donc des éléments dans la console de RStudio :
RStudio calcule et notifie à l’utilisateur le nombre d’éléments rentrés via notre fonction.
Il est également possible de specifier avec l’argument ‘what’ le type de data que nous désirons insérer.
Maintenant, quand nous désirons lire un fichier classé dans notre ordinateur, nous pouvons procéder à la démarche la suivante :
Si nous désirons supprimer la première colonne de notre fichier pour ne voir apparaître uniquement que les noms sans leur âge, nous procéderons ainsi:
x est donc une liste dont le premier composant est null. Eliminons maintenant le composant null en convertissant cette liste en un vecteur simple.
Astuce |
Il est possible de sauvegarder l’access d’un fichier directement dans une variable pour faciliter son usage.
Ainsi, sa lecture se fait directement à partir du nom de la variable dans laquelle le fichier a été enregistré.
Pour conclure, voyons ici une manière encore plus simple d’accéder à un fichier de manière interactive simplement en appelant file.choose().
readline()
readline() est une autre fonction en R, qui nous permet de lire des données de façon interactive. Dans notre exemple ci-dessous, la phrase sélectionné nous est posée et nous y répondons. Ainsi notre réponse apparait. Ceci dit, elle disparait par la suite car nous ne l’avons pas assigné à quelconque variable.
Nous montrons maintenant l’approche complète avec assignation toujours ci-dessous et voyons donc ce qu’il se passe :
Cette dernière est pratique quand le programmeur ou data miner en R dépend de la réponse de l’utilisateur pour poursuivre son analyse.
read.table()
read.table s’utilise pour la lecture d’un fichier se terminant en .txt et dont les colones sont séparées par un espace.
Voilà comment l’utiliser lors de la lecture d’un fichier :
Quelques fonctions qui peuvent nous servir si nous nous sentons désorienter :
read.table convertit ipso facto un fichier text en dataframe, prêt à être manipuler via l’utilisation de fonctions.
read.csv()
read.csv s’utilise pour la lecture des fichiers csv dont les valeurs dans chaque colonne sont séparées par une virgule, comme par exemple dans ce screenshot ci-dessous :
cette fonction assume que son argument ‘header’ est logiquement TRUE par conséquent, il n’est pas nécessaire de le mentionner comme nous l’avons fait dans read.table() précédemment.
read.csv tout comme read.table, convertit le fichier en lecture d’une trame de données.
Afin d’inspecter son fichier text ou csv, diverses fonctions existent en R :
L’écriture sauvegarde de données
Dans le cas où un dataframe est crée suite à la transformation d’un fichier lu dans notre espace de travail, il se peut que nous désirions le sauvegarder. Il convient donc de se familiariser avec les commandes de sauvegarde en R.
Une autre méthode très répandu en R pour accéder à des données, est via les fameux packages. Beaucoup de packages sont présents dans notre espace RStudio mais ne sont pas installés. Il faut donc d’abord les installer afin de les télécharger.
Grâce à la fonction View() nous pouvons rendre état du dataframe clouds dans notre espace de travail sur RStudio.
Conclusion
Nous connaissons désormais les grands axes de la lecture de données peu importe le type de fichier, text ou csv en language R. Vous serez désormais plus à l’aise pour passer à l’exploration et la visualisation de vos données lors de notre prochain article en R afin d’approfondir et de mettre en exergue les concepts énumérés en data mining lors de notre introduction.
Leave a Reply