Dans ce tutoriel, je donnerai une introduction de base à pandas. Oh, je ne parle pas du panda animal, mais d'une bibliothèque Python!
Comme mentionné sur le site web des pandas:
pandas est une bibliothèque Open Source sous licence BSD fournissant des structures de données hautes performances et faciles à utiliser, ainsi que des outils d'analyse des données pour le langage de programmation Python..
Ainsi, pandas
est une bibliothèque d’analyse de données qui dispose des structures de données nécessaires pour nettoyer les données brutes dans un format adapté à l’analyse (tableaux). Il est important de noter ici que depuis pandas
effectue des tâches importantes telles que l’alignement des données pour la comparaison et la fusion d’ensembles de données, la gestion des données manquantes, etc., est devenue une bibliothèque de facto pour le traitement de données de haut niveau en Python (statistiques, par exemple). bien, pandas
a été conçu à l’origine pour traiter des données financières, à condition que l’alternative courante soit l’utilisation d’un tableur (Microsoft Excel)..
La structure de données de base de pandas
est appelé Trame de données
, qui est une collection ordonnée de colonnes avec des noms et des types, ressemblant ainsi à une table de base de données où une seule ligne représente un seul cas (exemple) et les colonnes représentent des attributs particuliers. Il convient de noter ici que les éléments des différentes colonnes peuvent être de types différents..
Donc, l’essentiel est que le pandas
la bibliothèque nous fournit les structures de données et les fonctions nécessaires à l'analyse de données.
Voyons maintenant comment on peut installer pandas
sur nos machines et l'utiliser pour l'analyse des données. Le moyen le plus simple d'installer pandas
et éviter tout problème de dépendance est en utilisant Anaconda qui pandas
vient une partie de. Comme mentionné sur la page de téléchargement d'Anaconda:
Anaconda est une distribution Python totalement gratuite (y compris pour un usage commercial et une redistribution). Il comprend plus de 400 des packages Python les plus populaires pour la science, les mathématiques, l'ingénierie et l'analyse de données.
La distribution Anaconda est multi-plateforme, ce qui signifie qu’elle peut être installée sur des machines OS X, Windows et Linux. Je vais utiliser le programme d’installation OS X puisque je travaille sur un ordinateur Mac OS X El Capitan, mais vous pouvez bien entendu choisir le programme d’installation adapté à votre système d’exploitation. Je vais aller avec l'installateur graphique (attention, il est 339 Mo).
Anaconda Mac OS X Installer graphiqueAprès avoir téléchargé le programme d’installation, suivez simplement les étapes de l’assistant d’installation et vous êtes tous ensemble.!
Tout ce que nous devons faire maintenant pour utiliser pandas
est d'importer le paquet comme suit:
importer des pandas en tant que pd
J'ai mentionné l'un des trois pandas
structures de données ci-dessus, le Trame de données
. Je vais décrire cette structure de données dans cette section en plus des autres pandas
Structure de données, Séries
. Il existe une autre structure de données appelée Panneau
, mais je ne le décrirai pas dans ce tutoriel car il n’est pas aussi fréquemment utilisé, comme mentionné dans la documentation. Trame de données
est une structure de données 2D, Séries
est une structure de données 1D, et Panneau
est une structure de données 3D et supérieure.
le Trame de données
est une structure de données tabulaire composée de colonnes et de lignes ordonnées. Pour clarifier les choses, regardons l’exemple de la création d’un Trame de données
(table) d'un dictionnaire de listes. L'exemple suivant montre un dictionnaire composé de deux clés, prénom et Âge, et leur liste de valeurs correspondante.
pandas import comme pd import numpy comme np name_age = 'Nom': ['Ali', 'Bill', 'David', 'Hany', 'Ibtisam'], 'Age': [32, 55, 20, 43, 30] data_frame = pd.DataFrame (name_age) print data_frame
Si vous exécutez le script ci-dessus, vous devriez obtenir une sortie semblable à celle-ci:
Notez que le Trame de données
constructeur ordonne les colonnes par ordre alphabétique. Si vous souhaitez modifier l'ordre des colonnes, vous pouvez taper ce qui suit sous trame de données
au dessus de:
data_frame_2 = pd.DataFrame (name_age, columns = ['Name', 'Age'])
Pour voir le résultat, tapez simplement: print data_frame_2
.
Supposons que vous ne vouliez pas utiliser les étiquettes par défaut 0,1,2,… et que vous souhaitiez utiliser a, b, c,… à la place. Dans ce cas, vous pouvez utiliser indice
dans le script ci-dessus comme suit:
data_frame_2 = pd.DataFrame (name_age, columns = ['Name', 'Age'], index = ['a', 'b', 'c', 'd', 'e']
C'était très bien, n'est-ce pas? En utilisant Trame de données
, nous avons pu voir nos données organisées sous forme de tableau.
Séries
est la seconde pandas
structure de données que je vais parler. UNE Séries
est un objet unidimensionnel (1D) semblable à une colonne du tableau. Si nous voulons créer un Séries
pour une liste de noms, nous pouvons procéder comme suit:
series = pd.Series (['Ali', 'Bill', 'David', 'Hany', 'Ibtisam'], index = [1, 2, 3, 4, 5]) série imprimée
La sortie de ce script serait la suivante:
Notez que nous avons utilisé indice
pour étiqueter les données. Sinon, les étiquettes par défaut commenceront à partir de 0,1,2…
Dans cette section, je vais vous montrer des exemples de fonctions que nous pouvons utiliser avec Trame de données
et Séries
.
Les fonctions tête()
et queue()
nous permettent de visualiser un échantillon de nos données, en particulier lorsque nous avons un grand nombre d'entrées. Le nombre d'éléments affichés par défaut est 5, mais vous pouvez renvoyer le nombre personnalisé que vous aimez..
Disons que nous avons un Séries
composé de 20 000 éléments aléatoires (nombres):
pandas importés sous pd import numpy sous np series = pd.Series (np.random.randn (20000))
En utilisant le tête()
et queue()
méthodes pour observer les cinq premiers et derniers éléments, respectivement, nous pouvons faire ce qui suit:
print series.head () print series.tail ()
La sortie de ce script devrait ressembler à ce qui suit (notez que vous pourriez avoir des valeurs différentes puisque nous générons des valeurs aléatoires):
Prenons un exemple de la ajouter()
fonction, où nous allons essayer d'ajouter deux trames de données comme suit:
importer des pandas sous le nom pd dictionary_1 = 'A': [5, 8, 10, 3, 9], 'B': [6, 1, 4, 8, 7] dictionary_2 = 'A': [4, 3 , 7, 6, 1], 'B': [9, 10, 10, 1, 2] data_frame_1 = pd.DataFrame (dictionary_1) data_frame_2 = pd.DataFrame (dictionary_2) data_frame_3 = data_frame_1.add (data_frame_2) print data_frame_1 print data_frame_2 print data_frame_3
La sortie du script ci-dessus est:
Vous pouvez également effectuer ce processus d’addition en utilisant simplement le bouton +
opérateur: data_frame_3 = data_frame_1 + data_frame_2
.
Un très bon pandas
la fonction est décrire()
, qui génère diverses statistiques récapitulatives pour nos données. Pour l'exemple de la dernière section, procédons comme suit:
print data_frame_3.describe ()
Le résultat de cette opération sera:
C’était juste une éraflure sur la surface de Python pandas
. Pour plus de détails, vous pouvez vérifier la pandas
documentation, et vous pouvez également consulter des livres comme Learning Pandas et Mastering Pandas.
Les scientifiques ont parfois besoin d'effectuer des opérations statistiques et d'afficher des graphiques ordonnés qui les obligent à utiliser un langage de programmation. Mais en même temps, ils ne veulent pas passer trop de temps ou faire face à une courbe d'apprentissage sérieuse dans la réalisation de telles tâches.
Comme nous l'avons vu dans ce tutoriel, pandas
nous a permis de représenter les données sous forme de tableau et d’effectuer quelques opérations sur ces tableaux d’une manière très simple. La combinaison pandas
Avec d'autres bibliothèques Python, les scientifiques peuvent même effectuer des tâches plus avancées, telles que dessiner des graphiques spécialisés pour leurs données..
Ainsi, pandas
est une bibliothèque très utile et un point de départ pour les scientifiques, les économistes, les statisticiens et tous ceux qui souhaitent effectuer des tâches d'analyse de données.