Présentation des pandas

Dans ce tutoriel, je donnerai une introduction de base à pandas. Oh, je ne parle pas du panda animal, mais d'une bibliothèque Python!

Comme mentionné sur le site web des pandas:

pandas est une bibliothèque Open Source sous licence BSD fournissant des structures de données hautes performances et faciles à utiliser, ainsi que des outils d'analyse des données pour le langage de programmation Python..

Ainsi, pandas est une bibliothèque d’analyse de données qui dispose des structures de données nécessaires pour nettoyer les données brutes dans un format adapté à l’analyse (tableaux). Il est important de noter ici que depuis pandas effectue des tâches importantes telles que l’alignement des données pour la comparaison et la fusion d’ensembles de données, la gestion des données manquantes, etc., est devenue une bibliothèque de facto pour le traitement de données de haut niveau en Python (statistiques, par exemple). bien, pandas a été conçu à l’origine pour traiter des données financières, à condition que l’alternative courante soit l’utilisation d’un tableur (Microsoft Excel)..

La structure de données de base de pandas est appelé Trame de données, qui est une collection ordonnée de colonnes avec des noms et des types, ressemblant ainsi à une table de base de données où une seule ligne représente un seul cas (exemple) et les colonnes représentent des attributs particuliers. Il convient de noter ici que les éléments des différentes colonnes peuvent être de types différents..

Donc, l’essentiel est que le pandas la bibliothèque nous fournit les structures de données et les fonctions nécessaires à l'analyse de données.

Installation de pandas

Voyons maintenant comment on peut installer pandas sur nos machines et l'utiliser pour l'analyse des données. Le moyen le plus simple d'installer pandas et éviter tout problème de dépendance est en utilisant Anaconda qui pandas vient une partie de. Comme mentionné sur la page de téléchargement d'Anaconda:

Anaconda est une distribution Python totalement gratuite (y compris pour un usage commercial et une redistribution). Il comprend plus de 400 des packages Python les plus populaires pour la science, les mathématiques, l'ingénierie et l'analyse de données.

La distribution Anaconda est multi-plateforme, ce qui signifie qu’elle peut être installée sur des machines OS X, Windows et Linux. Je vais utiliser le programme d’installation OS X puisque je travaille sur un ordinateur Mac OS X El Capitan, mais vous pouvez bien entendu choisir le programme d’installation adapté à votre système d’exploitation. Je vais aller avec l'installateur graphique (attention, il est 339 Mo).

Anaconda Mac OS X Installer graphique

Après avoir téléchargé le programme d’installation, suivez simplement les étapes de l’assistant d’installation et vous êtes tous ensemble.!

Tout ce que nous devons faire maintenant pour utiliser pandas est d'importer le paquet comme suit:

importer des pandas en tant que pd

Structures de données de pandas

J'ai mentionné l'un des trois pandas structures de données ci-dessus, le Trame de données. Je vais décrire cette structure de données dans cette section en plus des autres pandas Structure de données, Séries. Il existe une autre structure de données appelée Panneau, mais je ne le décrirai pas dans ce tutoriel car il n’est pas aussi fréquemment utilisé, comme mentionné dans la documentation. Trame de données est une structure de données 2D, Séries est une structure de données 1D, et Panneau est une structure de données 3D et supérieure.

Trame de données

le Trame de données est une structure de données tabulaire composée de colonnes et de lignes ordonnées. Pour clarifier les choses, regardons l’exemple de la création d’un Trame de données (table) d'un dictionnaire de listes. L'exemple suivant montre un dictionnaire composé de deux clés, prénom et Âge, et leur liste de valeurs correspondante.

pandas import comme pd import numpy comme np name_age = 'Nom': ['Ali', 'Bill', 'David', 'Hany', 'Ibtisam'], 'Age': [32, 55, 20, 43, 30] data_frame = pd.DataFrame (name_age) print data_frame

Si vous exécutez le script ci-dessus, vous devriez obtenir une sortie semblable à celle-ci:

Notez que le Trame de données constructeur ordonne les colonnes par ordre alphabétique. Si vous souhaitez modifier l'ordre des colonnes, vous pouvez taper ce qui suit sous trame de données au dessus de:

data_frame_2 = pd.DataFrame (name_age, columns = ['Name', 'Age'])

Pour voir le résultat, tapez simplement: print data_frame_2.

Supposons que vous ne vouliez pas utiliser les étiquettes par défaut 0,1,2,… et que vous souhaitiez utiliser a, b, c,… à la place. Dans ce cas, vous pouvez utiliser indice dans le script ci-dessus comme suit:

data_frame_2 = pd.DataFrame (name_age, columns = ['Name', 'Age'], index = ['a', 'b', 'c', 'd', 'e']

C'était très bien, n'est-ce pas? En utilisant Trame de données, nous avons pu voir nos données organisées sous forme de tableau.

Séries

Séries est la seconde pandas structure de données que je vais parler. UNE Séries est un objet unidimensionnel (1D) semblable à une colonne du tableau. Si nous voulons créer un Séries pour une liste de noms, nous pouvons procéder comme suit:

series = pd.Series (['Ali', 'Bill', 'David', 'Hany', 'Ibtisam'], index = [1, 2, 3, 4, 5]) série imprimée

La sortie de ce script serait la suivante:

Notez que nous avons utilisé indice pour étiqueter les données. Sinon, les étiquettes par défaut commenceront à partir de 0,1,2…

Fonctions Pandas 

Dans cette section, je vais vous montrer des exemples de fonctions que nous pouvons utiliser avec Trame de données et Séries.

Tête et queue

Les fonctions tête() et queue() nous permettent de visualiser un échantillon de nos données, en particulier lorsque nous avons un grand nombre d'entrées. Le nombre d'éléments affichés par défaut est 5, mais vous pouvez renvoyer le nombre personnalisé que vous aimez..

Disons que nous avons un Séries composé de 20 000 éléments aléatoires (nombres):

pandas importés sous pd import numpy sous np series = pd.Series (np.random.randn (20000))

En utilisant le tête() et queue() méthodes pour observer les cinq premiers et derniers éléments, respectivement, nous pouvons faire ce qui suit:

print series.head () print series.tail ()

La sortie de ce script devrait ressembler à ce qui suit (notez que vous pourriez avoir des valeurs différentes puisque nous générons des valeurs aléatoires):

Ajouter

Prenons un exemple de la ajouter() fonction, où nous allons essayer d'ajouter deux trames de données comme suit:

importer des pandas sous le nom pd dictionary_1 = 'A': [5, 8, 10, 3, 9], 'B': [6, 1, 4, 8, 7] dictionary_2 = 'A': [4, 3 , 7, 6, 1], 'B': [9, 10, 10, 1, 2] data_frame_1 = pd.DataFrame (dictionary_1) data_frame_2 = pd.DataFrame (dictionary_2) data_frame_3 = data_frame_1.add (data_frame_2) print data_frame_1 print data_frame_2 print data_frame_3

La sortie du script ci-dessus est:

Vous pouvez également effectuer ce processus d’addition en utilisant simplement le bouton + opérateur: data_frame_3 = data_frame_1 + data_frame_2.

Décrire

Un très bon pandas la fonction est décrire(), qui génère diverses statistiques récapitulatives pour nos données. Pour l'exemple de la dernière section, procédons comme suit:

print data_frame_3.describe ()

Le résultat de cette opération sera:

Ressources supplémentaires

C’était juste une éraflure sur la surface de Python pandas. Pour plus de détails, vous pouvez vérifier la pandas documentation, et vous pouvez également consulter des livres comme Learning Pandas et Mastering Pandas. 

Conclusion

Les scientifiques ont parfois besoin d'effectuer des opérations statistiques et d'afficher des graphiques ordonnés qui les obligent à utiliser un langage de programmation. Mais en même temps, ils ne veulent pas passer trop de temps ou faire face à une courbe d'apprentissage sérieuse dans la réalisation de telles tâches. 

Comme nous l'avons vu dans ce tutoriel, pandas nous a permis de représenter les données sous forme de tableau et d’effectuer quelques opérations sur ces tableaux d’une manière très simple. La combinaison pandas Avec d'autres bibliothèques Python, les scientifiques peuvent même effectuer des tâches plus avancées, telles que dessiner des graphiques spécialisés pour leurs données.. 

Ainsi, pandas est une bibliothèque très utile et un point de départ pour les scientifiques, les économistes, les statisticiens et tous ceux qui souhaitent effectuer des tâches d'analyse de données.