# Tableaux de données 

Avant de commencer, chargez les modules nécessaires :

In [None]:
import pandas as pd
import numpy as np

Dans le module **pandas**, l'objet **dataframe**  est un tableau de données. 

Un **dataframe** contient des colonnes, qui ont toutes la même longueur, mais qui ne sont pas nécessairement toutes du même type (à l'opposé de **np.array**, où tous les éléments doivent être du même type).

En statistique, les colonnes correspondent aux variables observées et les lignes aux données observées sur un individu.

Les colonnes peuvent porter des noms (aussi appelés *labels*).

Par défaut, les lignes sont indexées par des entiers ($0,1,\dots$), mais l'utilisateur peut définir les indices comme bon lui semble.

Voici un exemple pour définir un premier **dataframe**.

In [None]:
mon_premier_df = pd.DataFrame(np.random.rand(6,4))
mon_premier_df

Maintenant ajoutons les noms de variables :

In [None]:
mon_premier_df = pd.DataFrame(np.random.rand(6,4), columns=list('ABCD'))
mon_premier_df

Indexer les lignes différement. Exemple: utiliser des dates comme indice :

In [None]:
dates = pd.date_range('20160126', '20160131')
dates

In [None]:
df = pd.DataFrame(np.random.rand(6,4), index=dates, columns=list('ABCD'))
df

Une autre façon pour définir un **dataframe** et de nommer les colonnes :

In [None]:
df2 = pd.DataFrame({ 'A' : np.arange(10)*2,
    'B' : pd.Timestamp('20130102'),
    'C' : pd.Series(2.5,index=list(range(10))),
    'D' : np.array([5,3,6,2,9] * 2,dtype='int32'),
    'E' : pd.Categorical(["test","train","test","train","train","train","train","train","train","test"]),
    'F' : list('wiragnuopa') })
df2

Pour obtenir les dimensions du tableau :

In [None]:
df2.shape

Pour obtenir une liste des noms de variables : 

In [None]:
list(df2)

Voir les types des colonnes:

In [None]:
df2.dtypes

Essayer les commandes suivantes :

In [None]:
df2.head()

In [None]:
df2.tail(3)

In [None]:
df.index

In [None]:
df2.index

In [None]:
df.columns

In [None]:
df.values

In [None]:
df2.values

In [None]:
df.describe()

In [None]:
df2.describe()

## Accès aux éléments d'un tableau

On utilise les noms des colonnes entre crochets, pour sélectionner des colonnes :

In [None]:
df['C']

In [None]:
df[['A','C']]

On note qu'une colonne d'un dataframe est une série :

In [None]:
type(df['C'])

Par des entiers entre crochets ou en utilisant les indices des lignes, on accède aux lignes :

In [None]:
df[0:2]

In [None]:
df['20160126':'20160127']

In [None]:
df2[df2['E']=='test']

Pour une sélection plus sophistiquée d'éléments d'un dataframe, il faut utiliser les fonctions **.loc, .iloc** ou **.ix**

- **.loc** quand on utilise les indices des lignes et les labels des colonnes 

- **.iloc** quand on utilise des entiers pour sélectionner les lignes et colonnes

- **.ix** quand on mélange des entiers et des labels

Jouer avec les exemples suivants pour bien comprendre la différence de ces méthodes (p.ex. dans la première instruction remplacez **.loc** par **.iloc** ou **.ix** et vérifiez si ça marche encore).

In [None]:
df.loc['20160126':'20160127',['A','B']]

In [None]:
df2.iloc[0:2,0:2]

In [None]:
df.ix[0:2,['A','B']]

Les trois méthodes acceptent également un masque booléan (de **True/False**) pour la sélection.

In [None]:
df.loc[df['A']>.6,['B','D']]

In [None]:
df2.loc[df2['E']=='test','A']

## Ajouter une colonne à un tableau

In [None]:
df

In [None]:
df['K'] = np.pi
df

## Fonctions de base pour tableaux
 
La plupart des fonctions que nous avons vues pour les séries s'appliquent également aux dataframes. 

## Trier un tableau

In [None]:
df2.sort_index(axis=0, ascending=False)

In [None]:
df2.sort_index(axis=1, ascending=False)

In [None]:
df2.sort_values(by='F')

## Importer des données d'un fichier .csv

Comme pour les séries, on utilise la fonction **pd.read_csv** pour importer un tableau de données. 

Pour cela, il faut que les données soient représentées sous forme d'un tablau dans le fichier csv, c'est-à-dire que les colonnes sont les variables et les lignes les observations sur différents individus.

Le premier argument de la fonction **pd.read_csv** est le chemin vers le fichier ou l'URL.

Si le symbole qui  sépare les valeurs dans le fichier n'est pas la virgule, il faut précsier le séparateur dans l'appel de **pd.read_csv**. P. ex. si le séparateur est la tabulation, il faut écrire

pd.read_csv(*filepath*, **sep='\t'**)

# Exercice. Poussins 

Nous allons analyser des données sur des poussins. Il s'agit de  poussins qui suivent différents régimes alimentaires et qui sont pesés régulièrement. 

1. Importer les données *chicken.csv* disponible à l'adresse http://www.proba.jussieu.fr/pageperso/rebafka/chicken.csv 

2. Combien de variables contient le tableau ?
Déterminer le nombre  de mesures effectuées et le nombre  de poussins dans l'étude ? Combien de régimes y-a t'il ? Déterminer le nombre de poussins par régime. Quelle période est couverte par les observations (combien de jours) ? Est-ce que tous les poussins sont suivis jusqu'à la fin ?

3. Combien de poussins ont un poids final supérieur à 250g ? Inférieur à 200g ?

4. Déterminer le poids maximal/minimal à la naissance/au 10e jours/à la fin. Est-ce  toujours le même poussin qui est le plus/moins lourd ?

5. Calculer le poids moyen des poussins à la naissance et à la fin (au 21e jour) (tous les poussins confondus).

6. Calculer le poids moyen des poussins à la naissance et à la fin (au 21e jour) par régime. Commenter les résultats.

7. Calculer l’écart-type du poids des poussins à la naissance et à la fin (au 21e jour) par régime. Commenter les résultats. 