# Rappels sur Python

## Installer et importer les modules nécessaires

Dans ce cours, nous allons travailler avec les quatre modules suivants :
- **numpy** : pour faire des maths
- **matplotlib** : pour tracer des figures
- **pandas** : pour le traitement des données et pour faire des statistiques
- **scikit-learn** : pour faire l'ACP

Si ces modules ne sont pas disponibles sur votre machine personnelle, installer-les.

Au début de chaque session, il est obligatoire d'importer les modules, qu'on utlisera par la suite.

Pour ce notebook, nous aurons besoin seulement des deux modules suivants :

In [1]:
import pandas as pd
import numpy as np

## Aide en Python

La fonction **help** donne des explications sur une fonction prédéfinie. Exemple : 

In [None]:
help(np.random.rand)

Ou encore :

In [None]:
a = np.arange(5)
help(a.sum)

Pour connaître toutes les fonctions d'un module, écrivez le nom du module suivi d'un point, ensuite appuyer longtemps sur la touche TAB. Cela fait apparaître une liste avec toutes les fonctions de ce module. 

Essayer pour **np**, ensuite pour **np.random** :

# L'objet *Series* avec Pandas

Les données d'une étude statistique ont typiquement la forme d'une séquence de valeurs observées ou d'un tableau de données (à plusieurs colonnes et plusieurs lignes).
Dans le module Pandas, on utilise les objets **Series** et **Dataframe** pour les données observées.

Une série (**Series**) est une liste de valeurs. 
Voici quelques exemples. 

In [2]:
S1 = pd.Series([1,4,0,7,4,7])
S2 = pd.Series([1.,4,0,7,4,7])
S3 = pd.Series([1.,.5,0,7,4,7],index=list('abcdef'))
S4 = pd.Series(['hello','friends','byebye'])
S5 = pd.Series([True, False,False,True])
S6 = pd.Series([1.,'hello',False,5])

Affichez toutes les séries ainsi définies et observez les différents types des éléments de la série. 

Notez que, par défaut, les éléments d'une série sont indexés par des entiers commençant par 0. 

In [None]:
S1

In [None]:
S2

In [None]:
S3

In [None]:
S4

In [None]:
S5

In [None]:
S6

### Accès aux éléments d'une série

In [3]:
S3.values

array([ 1. ,  0.5,  0. ,  7. ,  4. ,  7. ])

In [None]:
S3.index

In [None]:
S1[0]

In [None]:
S1[:]

In [None]:
S1[2:4]

In [None]:
S1[[4,1,0]]

In [None]:
S1>3

In [None]:
S1[S1>3]

In [None]:
S3['b']

### Fonctions de base pour les séries

Voici quelques fonctions de base pour les séries. Essayez de les comprendre (toutes!) :

In [None]:
S1.size

In [None]:
S1.prod()

In [None]:
S1.sum()

In [None]:
S1.cumsum()

In [None]:
S1.max()

In [None]:
S1.argmax()

In [None]:
S3.round()

In [None]:
np.ceil(S3)

In [None]:
np.floor(S3)

In [None]:
S1.unique()

In [None]:
S1.sort_values()

In [None]:
S1.sort_index(ascending=False)

In [None]:
S1.isin([1,3,5,7,9])

### Not a number

La valeur **NaN** (Not a number) est utilisé pour indiquer le résultat d'un calcul inadmissible ou pour indiquer des valeurs manquantes (lors d'une importation des données à partir d'un fichier).

Essayez de comprendre :

In [None]:
S2.count()

In [None]:
S2[3] = np.inf-np.inf
S2

In [None]:
S2.count()

In [None]:
S2.isnull()

In [None]:
S2 = S2.dropna()
S2

### Quelques fonctions de statistique

Que font les fonctions suivantes ?

In [None]:
S1.mean()

In [None]:
S1.median()

In [None]:
S1.quantile(q=[.25,.5,.75])

In [None]:
S1.var()

In [None]:
S1.std()

In [None]:
S1.std()==np.sqrt(S1.var())

In [None]:
S1.describe()

### Importer des données à partir d'un fichier .csv

En statistique, le plus souvent, il faut importer les données à partir d'un fichier, qui est souvent un fichier en format csv (= comma-separated values).

Le fichier peut se trouver sur votre ordinateur ou il est disponible sur internet. 

Dans les deux cas, on utilise la fonction **pd.read_csv** pour importer les données. 

Le premier argument de **pd.read_csv** est le chemin vers le fichier ou l'URL (= Uniform Resource Locator = adresse web).

Afin d'obtenir un objet de type **Series**, il faut que 
- le fichier .csv ne contient qu'une colonne de valeurs et

- il faut utiliser l'option **squeeze=True** dans l'appel de **pd.read_csv**

## Exercice. Neurones

Nous allons travailler sur des données en neuroscience. Nous observons le temps d'attente  entre deux activités de neurones dans le cerveau.
Plus précisément, les données contiennent les intervals de temps entre deux potentiels post-synaptiques miniatures enregistrés à la jonction neuro-musculaire.


1. Les données sont disponible à l'adresse http://www.proba.jussieu.fr/pageperso/rebafka/nerve.csv. Importer les données sous forme d'une **Series**.

2. Vérifier si le fichier contient des valeurs **NaN**. Si oui, supprimer-les.

3. Combien d'observations contient ce jeu de données ?

4. Calculer les caractéristiques statistiques de ces données (comme la moyenne, la médiane, les valeurs maximiale et minimale, la variance et l'écart-type). 

5. Calculer la moyenne des valeurs maximale et minimale. Ensuite, comparer cette valeur à la moyenne et la médiane.
Comment interpréter le fait que ces trois caractéristiques sont assez différentes ?

6. Combien d'observations sont inférieures à 0.1 ? Combien d'observations sont dans l'intervalle [0.1,0.2] ? Et combien sont supérieures à 1 ?