Génétique. - Sur une estimation non biaisée de la valeur de l'indice centromé-rique d'un chromosome métacentrique

M. Jérôme Lejeune et Mlle Marguerite Prieur, M. Raymond Turpin

C. R. Acad. Sc. Paris, t. 270, 2987-2989. Séance du 1er juin 1970


Résumé :

Pour éviter le biais introduit par le choix du bras court Pi et du bras long Qi dans la statistique C = Pi/(Pi + Qi), on étudie la statistique j = (|pi - qiI)/(pi + qi) et l'on estime C, par la méthode des moindres ?2, par rapport à des tables calculées.

Sommaire

Soit un chromosome Z ayant un bras court de taille réelle P et un bras long de taille réelle Q, avec P < Q.

Pour tout couple de valeurs Pi ; Qi, l'indice centromérique est C1= Pi/(Pi + Qi), et la meilleure estimée de l'indice centromérique Cz du chromosome Z, est donnée par (1)


avec (2)


Si [(1-Cz)/sCz] = 3, chaque mesure mineure pi correspond à la valeur Pi et respectivement chaque mesure majeure qi correspond à Qi. Les équations (1) et (2) donnent alors des estimées non biaisées de (1-Cz) et sCz.

Par contre si [(1-Cz)/sCz] < 2, un certain nombre de mesures mineures pi correspondent en réalité à des valeurs de Qi et réciproquement des majeures qi à des Pi, sans que les erreurs de classement soient décelables.

Si l'on considère la statistique équivalente Ji = (Qi-Pi)/(Pi+Qi), on voit que (3)


Comme la statistique J n'est pas indépendante du choix des valeurs mineures et majeures de chaque paire, on étudie la statistique

j = |J|, telleque j = |Pi-Qi|/(Pi+Qi), et l'on note que


peut être différent de


mais que


par nécessité.

La statistique j étant limitée par zéro, chaque valeur négative de J y est reportée dans la classe positive correspondante, de même valeur absolue (fig.). La distribution de j suit à peu près une loi simple obtenue en " repliant " autour du point zéro une distribution normale de moyenne J et d'écart-type sJ ; on peut en effet admettre que les variables P et Q sont distribuées normalement ; si leurs écarts-types sont assez petits, P/(P + Q) est aussi à peu près distribué normalement.


Figure. - Distribution de Laplace-Gauss, et distribution j, repliée au point K. La partie "repliée" est figurée en traits verticaux

En prenant sj pour unité, on voit que le point zéro de la distribution de J est situé à la distance - K de la moyenne (1-J) pour K = [(1-J)/sj). On peut alors calculer un paramètre a, tel que (1-J) = aj, après avoir démontré que : a = 1 - 2a + (2b/K), avec a = l'intégrale de - 8 à - K de la densité de probabilité de la loi normale réduite et avec b = la densité de probabilité de la loi normale réduite pour la valeur -K.

Par ailleurs, on démontre que la valeur s telle que (4)


dépend de K, de a et de s selon l'équation :


Il est alors possible de calculer, a priori, pour toute valeur donnée de K, la Fréquence f1,f2, f3 …ft de chacune des classes limitées par les valeurs 0 ; 0,5s ; s ; 1,5s s ; 2,5s, etc., que l'on trouvera consignées dans le tableau.

Tableau. - Fréquences f1, f2... ft, de la distribution j, en fonction de K
f1f2f3f4f5f6f7
Ka0s à 0,5s0,5s à ss à 1,5s1,5s a 2s2s à 2,5s2,5s à 3s3s à 1
0,010.012 530,2360,2160,1800.1420,0950,0610.070
0.100,124710.2350,2210,1790.1370,0960.0620,070
0,200,245 770.2380,2120,1830.1390,0970,0600,071
0.300.359 920,2350,2180,1780.1410,0950,0630.070
0,400,464640,2340,2180,1790,1370.0990.0620.071
0,500.558 280.2310.2150,1790,1420,0970,0640,072
0,600,640110,2300,2090,1810,1420,0990,0660.073
0,700.710 110.2220,2080.1800,1440.1040.0680.074
0.800.768 930,2130,2060,1800,1460.1100,0700,076
0,900,817 530.2060,1960,1810,1520,1120.0750,078
1.000,857 180,1930,1910.1800.1560.1190.0790,081
1*200,914 490,1650.1780,1790,1640.1350,0890,090
1.400,950 230,1360.1580.1760,1770,1470,1040.102
1,600,971 770.1070,1350,1690.1830.1640,1190.123
1,800.984 390,0800.1140.1570.1860.1790,1350,149
2,000,991 580,0580.0920.1410.1810,1870,1570.184
2.500,998400,0210.0440,0910,1450,1890.1910,319
3.000,999750,0060.0170,0440.0920.1460,1670,528

Haut

Déroulement du calcul

Pour chaque couple pi ; qi on effectue la statistique ji = |pi - qi|/(pi + qi) et l'on calcule


et Sj, selon (4). On calcule alors les bornes, 0,5Sj ; Sj ; 1,5Sj etc., et l'on classe les valeurs observées de j dans les catégories limitées par les bornes, 0 ; 0,5Sj ; 1Sj ; 1,5sj etc., et l'on observe les nombres x1 ; x2 ; x3, etc., dont la somme est évidemment égale à n.

On compare alors, par la méthode du ?2 cette distribution x1 ; x2 ; x3, etc., à la distribution f1 ; f2 ; f3, etc., du tableau pour une valeur donnée de K.

Le plus petit ?2 détermine la valeur de K au sens du maximum de vraisemblance. On lit alors sur le tableau la valeur correspondant à K et l'on effectue


d'où l'on tire les valeurs cherchées (1-C) et sc, d'après la relation (3).

Haut

Conclusion

Ce modèle théorique qui permet d'éliminer le choix du bras court et du bras long conduit à une estimée non biaisée de l'indice centromérique même pour un chromosome quasi médio-centrique.

Ce modèle peut être utilisé pour toute statistique portant sur des valeurs complémentaires, obtenues par paires, et pour lesquelles on ne peut connaître que la différence et la somme des valeurs composant chaque couple.