Rappels sur Python¶

Installer et importer les modules nécessaires¶

Dans ce cours, nous allons travailler avec les quatre modules suivants :

numpy : pour faire des maths
matplotlib : pour tracer des figures
pandas : pour le traitement des données et pour faire des statistiques
scikit-learn : pour faire l'ACP

Si ces modules ne sont pas disponibles sur votre machine personnelle, installer-les.

Au début de chaque session, il est obligatoire d'importer les modules, qu'on utlisera par la suite.

Pour ce notebook, nous aurons besoin seulement des deux modules suivants :

import pandas as pd
import numpy as np

Aide en Python¶

La fonction help donne des explications sur une fonction prédéfinie. Exemple :

help(np.random.rand)

Help on built-in function rand:

rand(...)
    rand(d0, d1, ..., dn)
    
    Random values in a given shape.
    
    Create an array of the given shape and propagate it with
    random samples from a uniform distribution
    over ``[0, 1)``.
    
    Parameters
    ----------
    d0, d1, ..., dn : int, optional
        The dimensions of the returned array, should all be positive.
        If no argument is given a single Python float is returned.
    
    Returns
    -------
    out : ndarray, shape ``(d0, d1, ..., dn)``
        Random values.
    
    See Also
    --------
    random
    
    Notes
    -----
    This is a convenience function. If you want an interface that
    takes a shape-tuple as the first argument, refer to
    np.random.random_sample .
    
    Examples
    --------
    >>> np.random.rand(3,2)
    array([[ 0.14022471,  0.96360618],  #random
           [ 0.37601032,  0.25528411],  #random
           [ 0.49313049,  0.94909878]]) #random

Ou encore :

a = np.arange(5)
help(a.sum)

Help on built-in function sum:

sum(...)
    a.sum(axis=None, dtype=None, out=None, keepdims=False)
    
    Return the sum of the array elements over the given axis.
    
    Refer to `numpy.sum` for full documentation.
    
    See Also
    --------
    numpy.sum : equivalent function

Pour connaître toutes les fonctions d'un module, écrivez le nom du module suivi d'un point, ensuite appuyer longtemps sur la touche TAB. Cela fait apparaître une liste avec toutes les fonctions de ce module.

Essayer pour np, ensuite pour np.random :

L'objet Series avec Pandas¶

Les données d'une étude statistique ont typiquement la forme d'une séquence de valeurs observées ou d'un tableau de données (à plusieurs colonnes et plusieurs lignes). Dans le module Pandas, on utilise les objets Series et Dataframe pour les données observées.

Une série (Series) est une liste de valeurs. Voici quelques exemples.

S1 = pd.Series([1,4,0,7,4,7])
S2 = pd.Series([1.,4,0,7,4,7])
S3 = pd.Series([1.,.5,0,7,4,7],index=list('abcdef'))
S4 = pd.Series(['hello','friends','byebye'])
S5 = pd.Series([True, False,False,True])
S6 = pd.Series([1.,'hello',False,5])

Affichez toutes les séries ainsi définies et observez les différents types des éléments de la série.

Notez que, par défaut, les éléments d'une série sont indexés par des entiers commençant par 0.

S1

0    1
1    4
2    0
3    7
4    4
5    7
dtype: int64

S2

0    1
1    4
2    0
3    7
4    4
5    7
dtype: float64

S3

a    1.0
b    0.5
c    0.0
d    7.0
e    4.0
f    7.0
dtype: float64

S4

0      hello
1    friends
2     byebye
dtype: object

S5

0     True
1    False
2    False
3     True
dtype: bool

S6

0        1
1    hello
2    False
3        5
dtype: object

Accès aux éléments d'une série¶

S3.values

array([ 1. ,  0.5,  0. ,  7. ,  4. ,  7. ])

S3.index

Index([u'a', u'b', u'c', u'd', u'e', u'f'], dtype='object')

S1[0]

1

S1[:]

0    1
1    4
2    0
3    7
4    4
5    7
dtype: int64

S1[2:4]

2    0
3    7
dtype: int64

S1[[4,1,0]]

4    4
1    4
0    1
dtype: int64

S1>3

0    False
1     True
2    False
3     True
4     True
5     True
dtype: bool

S1[S1>3]

1    4
3    7
4    4
5    7
dtype: int64

S3['b']

0.5

Fonctions de base pour les séries¶

Voici quelques fonctions de base pour les séries. Essayez de les comprendre (toutes!) :

S1.size

6

S1.prod()

0

S1.sum()

23

S1.cumsum()

0     1
1     5
2     5
3    12
4    16
5    23
dtype: int64

S1.max()

7

S1.argmax()

3

S3.round()

a    1
b    0
c    0
d    7
e    4
f    7
dtype: float64

np.ceil(S3)

a    1
b    1
c    0
d    7
e    4
f    7
dtype: float64

np.floor(S3)

a    1
b    0
c    0
d    7
e    4
f    7
dtype: float64

S1.unique()

array([1, 4, 0, 7], dtype=int64)

S1.sort_values()

2    0
0    1
1    4
4    4
3    7
5    7
dtype: int64

S1.sort_index(ascending=False)

5    7
4    4
3    7
2    0
1    4
0    1
dtype: int64

S1.isin([1,3,5,7,9])

0     True
1    False
2    False
3     True
4    False
5     True
dtype: bool

Not a number¶

La valeur NaN (Not a number) est utilisé pour indiquer le résultat d'un calcul inadmissible ou pour indiquer des valeurs manquantes (lors d'une importation des données à partir d'un fichier).

Essayez de comprendre :

S2.count()

6

S2[3] = np.inf-np.inf
S2

0     1
1     4
2     0
3   NaN
4     4
5     7
dtype: float64

S2.count()

5

S2.isnull()

0    False
1    False
2    False
3     True
4    False
5    False
dtype: bool

S2 = S2.dropna()
S2

0    1
1    4
2    0
4    4
5    7
dtype: float64

Quelques fonctions de statistique¶

Que font les fonctions suivantes ?

S1.mean()

3.8333333333333335

S1.median()

4.0

S1.quantile(q=[.25,.5,.75])

0.25    1.75
0.50    4.00
0.75    6.25
dtype: float64

S1.var()

8.5666666666666664

S1.std()

2.9268868558020253

S1.std()==np.sqrt(S1.var())

True

S1.describe()

count    6.000000
mean     3.833333
std      2.926887
min      0.000000
25%      1.750000
50%      4.000000
75%      6.250000
max      7.000000
dtype: float64

Importer des données à partir d'un fichier .csv¶

En statistique, le plus souvent, il faut importer les données à partir d'un fichier, qui est souvent un fichier en format csv (= comma-separated values).

Le fichier peut se trouver sur votre ordinateur ou il est disponible sur internet.

Dans les deux cas, on utilise la fonction pd.read_csv pour importer les données.

Le premier argument de pd.read_csv est le chemin vers le fichier ou l'URL (= Uniform Resource Locator = adresse web).

Afin d'obtenir un objet de type Series, il faut que

le fichier .csv ne contient qu'une colonne de valeurs et
il faut utiliser l'option squeeze=True dans l'appel de pd.read_csv

Exercice. Neurones¶

Nous allons travailler sur des données en neuroscience. Nous observons le temps d'attente entre deux activités de neurones dans le cerveau. Plus précisément, les données contiennent les intervals de temps entre deux potentiels post-synaptiques miniatures enregistrés à la jonction neuro-musculaire.

Les données sont disponible à l'adresse http://www.proba.jussieu.fr/pageperso/rebafka/nerve.csv. Importer les données sous forme d'une Series.
Vérifier si le fichier contient des valeurs NaN. Si oui, supprimer-les.
Combien d'observations contient ce jeu de données ?
Calculer les caractéristiques statistiques de ces données (comme la moyenne, la médiane, les valeurs maximiale et minimale, la variance et l'écart-type).
Calculer la moyenne des valeurs maximale et minimale. Ensuite, comparer cette valeur à la moyenne et la médiane. Comment interpréter le fait que ces trois caractéristiques sont assez différentes ?
Combien d'observations sont inférieures à 0.1 ? Combien d'observations sont dans l'intervalle [0.1,0.2] ? Et combien sont supérieures à 1 ?