Statistiques pour l'Ecole Doctorale

Module de Biostatistiques,

partie 1

Ecole Doctorale Biologie Santé

gilles.hunault "at" univ-angers.fr

Enoncés pour la séance numéro 1 (solutions)
Rappeler le vocabulaire usuel lié à l'analyse d'une ou deux QT. Quelles fonctions R permettent d'obtenir les calculs et graphiques associés ? Quelles fonctions manque-t-il à Excel pour réaliser les mêmes traitements ? Pour ceux et celles qui n'ont jamais utilisé R, on pourra consulter mes documents de cours pour la licence MFE, disponibles ici.

Rappeler le vocabulaire usuel lié à l'analyse d'une ou deux QL. Quelles fonctions R permettent d'obtenir les calculs et graphiques associés ? Quelles fonctions manque-t-il à Excel pour réaliser les mêmes traitements ? On pourra avec profit utiliser le site en ligne nommé Aide-memoire-R d'Aymeric DUCLERT (en français) pour retrouver facilement les commandes R usuelles.

Ces calculs et graphiques sont-ils présents dans les articles suivants :

Keegan (2007) Shindo (2005) Farmer (2009) Talati (2009)

CPP uptake (2008) Acute to chronic pain (2008) HBP reduction (2005)

Quels calculs et analyses sont présents dans les articles fournis par les doctorants au 24 mai 2018 ?

Est-ce que les logiciels comme R et Excel peuvent se tromper sur les calculs ?

Par exemple, quelle est la variance des échantillons X = 1 2 3 4 5 et de Y = 10**9 + X ?
On dispose des données suivantes issues d'une étude selon le sexe concernant l'age (en années) de malades atteints d'une certaine pathologie M (exercice de J.-B. Hardouin).

Femme 48 49 52 56 59 69 70 74 74 75 78 81

Homme 20 22 34 45 49 49 52 56 57 61 63 65 67 71 73 75 76 76

Déterminer avec R les valeurs : moyenne, médiane, mode, étendue, variance, écart-type de l'ensemble des patients. On utilisera les fonctions usuelles de R puis celle de statgh.r Les données sont dans le fichier pathologie.dar ; on réfléchira à la disposition et au codage des données dans ce fichier de données. On fournira ensuite les résultats pour les hommes et pour les femmes sans oublier de réaliser tous les graphiques favorisant la compréhension de la distribution des données.

On pourra lire les données via les instructions suivantes que vous pouvez copier/coller dans R :
          
       # lecture des données sur internet     
          
         urldata <- "http://forge.info.univ-angers.fr/~gh/wstat/Eda/pathologie.dar"     
         patho <- read.table(urldata,head=TRUE,row.names=1)     
          
       ## lecture des données en local sur le disque D: répertoire Data     
          
       ##  patho <- read.table("D:/Data/pathologie.dar",head=TRUE,row.names=1)     
          
          
          
          
Quelle est la distribution théorique du nombre de PILE pour le lancer de n=5 pièces de monnaie non truquées ? Donner les valeurs de la variable aléatoire correspondante, les probabilités associées et tracer ces valeurs. Comment peut-on simuler nbr=100 valeurs d'une telle variable aléatoire ?

Quelle est la distribution théorique du nombre de FILLES dans une famille de n=5 enfants ? On admettra l'équiprobabilité (p=0,5) de la répartition du sexe à la naissance. Donner les valeurs de la variable aléatoire correspondante, les probabilités associées et tracer ces valeurs. Comment peut-on simuler nbr=100 valeurs d'une telle variable aléatoire ?

Quelle est la distribution théorique du nombre de malades dans un échantillon n=100 personnes si la probabilité pour une personne d'être malade est p=0,05 d'après une étude épidémiologique antérieure ? Donner les valeurs de la variable aléatoire correspondante, les probabilités associées et tracer ces valeurs. Comment peut-on simuler nbr=1000 valeurs d'une telle variable aléatoire ?

Parmi les ouvrages suivants, lequel faut-il lire en une soirée ?
Solutions de la séance Retour à la page principale du cours
Retour à la page principale de (gH)