Chapitre 8

L'organisation et le controle des donnees

8.1 L'organisation des données

La compréhension des processus intervenant dans le cycle de l'eau ainsi que l'étude de leurs variations spatiales et temporelles nécessitent de disposer de données. Celles-ci sont essentielles et constituent un préalable à toute analyse hydrologique, que ce soit dans le but de procéder à une étude du cycle de l'eau, d'impacts environnementaux ou pour procéder au dimensionnement d'ouvrages hydrauliques.

De façon générale, pour permettre le passage de l'acquisition des données à leur utilisation effective dans le cadre d'une analyse hydrologique on distingue les étapes suivantes : acquisition, traitement, contrôle et validation, organisation, diffusion et publication. Une collaboration entre l'Institut d'Aménagement des Terres et des Eaux de l'EPFL et des bureaux privés a permis par exemple la création d'un logiciel complet de traitement des données hydrologiques nommé CODEAU qui comprend une partie de ces étapes.

8.1.1 Acquisition des données

L'acquisition de données consiste à procéder, par le biais d'un instrument de mesure, à acquérir de l'information (par exemple : hauteur d'eau d'une station limnimétrique, comptage des basculements d'un pluviographe à augets, vitesse du vent etc…). Le chapitre 7 traite en détails de la mesure hydrologique. Le procédé peut être automatisé ou non. Ceci aura une influence sur le type d'erreurs que l'on peut commettre.

8.1.2 Traitement primaire des données

La donnée acquise précédemment nécessite souvent un traitement préalable - ou traitement primaire - afin de la rendre pertinente et exploitable. Il s'agit pour l'essentiel de la conversion de la mesure effectuée en une grandeur qui soit hydrologiquement significative (par exemple : transformation d'impulsions électriques en intensités de précipitations, de hauteurs d'eau en débits, génération de données à pas de temps constant à partir de mesures effectuées à pas de temps variables etc.

Le traitement des données inclut aussi le contrôle primaire des données qui comprend les contrôles de cohérence à l'exclusion de tous traitements statistiques. Il s'agit par exemple, dans le cas d'une acquisition manuelle des données, de les convertir en fichiers informatiques. Dans ce cas, on procède généralement à une double saisie des données puis les fichiers sont comparés afin de déceler d'éventuelles erreurs de saisie. Dans la situation où l'on procède à l'acquisition de données de précipitations et de débits, on vérifie encore la cohérence temporelles des données acquises, à savoir par exemple qu'une crue est bien la conséquence d'un épisode pluvieux

8.1.3 Contrôle des données

Avant de pouvoir exploiter les données et bien qu'elles soient dans un format adéquat, il importe de contrôler la fiabilité et la précision de ces dernières. Le contrôle permet de valider les données avant leur organisation au sein d'une banque de données pour leur mise à disposition à des fins opérationnelles. Lors de cette opération, on introduit des indices de qualité de la donnée ainsi que des indices indiquant que celle-ci est reconstituée, calculée voire manquante. Par exemple, le logiciel CODEAU utilise pour ce faire toute une série d'indice ou flags permettant de qualifier des données présentant une rupture de continuité, une ou plusieurs mauvaises valeurs, des valeurs manquantes ou à vérifier etc.

8.1.4 Organisation des données

Au vu de l'importance quantitative et qualitative des données, il importe de les organiser avec soin. Ceci se fait à partir d'un corpus de documents originels (formulaires de terrain, diagrammes, unité de stockage électronique) constituant les archives qui sont en règle générale accessibles uniquement à un personnel spécifique (responsable du centre de collecte, archiviste…). La traduction des archives sous la forme de fichiers de base génère les "fichiers en l'état" et fournit une indication sur la provenance de la donnée (mesure, calcul, copie etc.) ainsi que sur sa qualité (fiable, complète ou non) et sa précision. Enfin, on constitue un fichier de travail provisoire permettant une visualisation des données et permettant de procéder aux différents tests de qualité et de précision des données qui seront développés tout au long de ce chapitre. L'élément ultime de cette chaîne opératoire est la constitution des fichiers opérationnels avec indices de qualité pouvant être publiés et distribués auprès des utilisateurs.

8.1.5 Diffusion et publication

La diffusion des données en vue de leur utilisation opérationnelle peut-être faite selon deux modes :

Le shéma suivant présente les différentes étapes de la chaîne d'acquisition et de traitement des données :

8.2 Le contrôle des données

La constitution d'une série de valeurs, constituant un échantillon au sens statistique du terme, est un processus long, parsemé d'embûches, et au cours duquel de nombreuses erreurs, de nature fort différentes, sont susceptibles d'être commises.

Des erreurs peuvent en effet être perpétrées lors de l'une ou de l'autre des quatre phases du déroulement classique des opérations, à savoir : la mesure ; la transmission de l'information ; le stockage de l'information ; le traitement de l'information (prétraitement et analyse). Il est donc indispensable, avant d'utiliser des séries de données, de se préoccuper de leur qualité et de leur représentativité en utilisant diverses techniques en général de type statistique ou graphiques.

Une erreur de mesure est définie comme étant la différence entre la vraie valeur (qui est l'idéal recherché, mais qui n'est en principe et malheureusement jamais connue) et la valeur mesurée. Il est commode, tant pour les présenter que pour différencier la façon de les aborder, de considérer deux types d'erreur : les erreurs aléatoires et les erreurs systématiques.

8.3 Recherche des erreurs et corrections des mesures

Selon la nature des erreurs constatées ou supposées la recherche de ces dernières fait appel à différentes techniques et méthodes

Hypothèses de l'analyse statistique :

Les calculs statistiques sont basés sur un certain nombre d'hypothèses qui doivent en principe être vérifiées. Parmi celles-ci, citons :

  • Les mesures reflètent les vraies valeurs - Cette hypothèse n'est malheureusement jamais réalisée en pratique, du fait des erreurs systématiques ou aléatoires.
  • Les données sont consistantes - Aucune modification dans les conditions internes du système n'intervient durant la période d'observation (position du pluviomètre, procédures d'observation, observateur unique).
  • La série de données est stationnaire - Les propriétés de la loi statistique qui régit le phénomène (moyenne, variance ou moments d'ordre supérieur) sont invariantes au cours du temps.
  • Les données sont homogènes - Une série de données est réputée non homogène lorsque:
  • elle provient de la mesure d'un phénomène dont les caractéristiques évoluent durant la période de mesure; le phénomène est alors dit non-stationnaire (par exemple: variations climatiques, variations du régime des débits dues à une déforestation ou un reboisement). Il est également possible d'observer des signes d'une non stationnarité apparente lorsque l'électronique intégrée à l'équipement de mesure présente une dérive temporelle ou lors du changement de l'observateur.
  • elle reflète deux ou plusieurs phénomènes différents. Le régime d'une rivière à l'aval de la confluence de deux sous bassins dont le comportement hydrologique est très contrasté constitue un bon exemple de ce défaut d'homogénéité.
  • La série de données est aléatoire et simple - Le caractère aléatoire et simple d'une série d'observations est une hypothèse fondamentale pour l'analyse statistique. Un échantillon aléatoire signifie que tous les individus de la population ont la même probabilité d'être prélevés. Un échantillon simple signifie que le prélèvement d'un individu n'influe pas la probabilité d'apparition des individus suivants. Autrement dit, si toutes les observations de la série sont issues de la même population et qu'elles sont indépendantes entre elles, la série est alors aléatoire et simple. La non vérification du caractère aléatoire et simple peut avoir plusieurs causes, parfois simultanément. Ces causes se groupent en deux catégories, les défauts d'autocorrélation d'une part (caractère non aléatoire des séries) et les défauts de stationnarité du processus d'autre part (dérive à long terme et dérive cyclique).
  • La série doit être suffisamment longue - La longueur de la série influe sur les erreurs d'échantillonage, notamment sur le calcul des moments d'ordre supérieurs donc sur les tests inhérents à leur fiabilité.

8.4 Introduction aux tests statistiques

8.4.1 Démarche d'un test : exemple introductif - Les faiseurs de pluie

Cet exemple est adapté de G. Saporta, Probabilités, Analyse des données et statistique, Technip, 1990. Des relevés effectués pendant de nombreuses années ont permis d'établir que la hauteur annuelle des pluies dans la Beauce (France) [en mm] suit une loi normale N(600, 100). Des entrepreneurs, surnommés faiseurs de pluie, prétendaient pouvoir augmenter de 50 mm le niveau moyen de pluie, ceci par l'insémination des nuages au moyen d'iodure d'argent et au-delà augmenter le taux de production requise donc un véritable grenier français (cf. Charles Péguy). Leur procédé fut mis à l'essai entre 1951 et 1959 et on releva les hauteurs de pluies suivantes (tableau 8.1) :

Tableau 8.1 - Hauteur annuelle des pluies dans la Beauce (France) [en mm] de 1951 et 1959.

Année

1951

1952

1953

1954

1955

1956

1957

1958

1959

mm

510

614

780

512

501

534

603

788

650

Que pouvait-on en conclure ? Deux hypothèses s'affrontaient. Ou bien l'insémination était sans effet, ou bien elle augmentait réellement le niveau moyen de pluie de 50 mm. Ces hypothèses pouvaient se formaliser comme suit,

si m désigne l'espérance mathématique de X variable aléatoire égale à la hauteur annuelle de pluie, on formule alors les hypothèses suivantes :

Les agriculteurs hésitant à opter pour le procédé forcément onéreux des faiseurs de pluie tenaient pour l'hypothèse H0 et il fallait donc que l'expérience puisse les convaincre ; c'est-à-dire que les faits observés contredisent nettement la validité de l'hypothèse H0 dite « hypothèse nulle » (H1 est l'hypothèse alternative).

Ils choisirent a=0,05 comme niveau de probabilité, c'est-à-dire qu'ils étaient prêts à accepter H1 si le résultat obtenu faisait partie d'une éventualité improbable qui n'avait que 5 chances sur 100 de se produire. Autrement dit, ils admettaient implicitement que des événements rares ne sauraient se produire sans remettre en cause le bien-fondé de l'hypothèse de départ H0 ; ce faisant, ils assumaient le risque de se tromper dans 5 cas sur 100, cas où précisément les événements « rares » arrivent quand même.

Comment décider ? Puisqu'il s'agit de « tester » la valeur il est naturel de s'intéresser à moyenne des observations qui nous apporte le plus de renseignements sur . est la « variable de décision ».

Si est vraie, comme l'expérience a porté sur ans, doit suivre une loi normale :

En principe, de grandes valeurs de sont improbables et on prendra comme règle de décision la suivante : si est trop grand, c'est-à-dire si est supérieur à un seuil qui n'a que 5 chances sur 100 d'être dépassé, on optera pour H1 avec une probabilité 0,05 de se tromper. Si on ne pourra pas rejeter H0 faute de preuves suivantes. est appelé valeur critique.

Il est facile de calculer la valeur critique grâce aux tables de la loi normale et on trouve :

La règle de décision est donc la suivante :

L'ensemble d'événements s'appelle la région critique ou région de rejet de H0. L'ensemble complémentaire s'appelle la région de non rejet de H0. Or les données relevées indiquent que =610,2 mm. La conclusion était donc de conserver H0 ;c'est-à-dire que l'insémination était sans effet notable sur le niveau des pluies : les valeurs observées pouvaient donc être dues au hasard en l'absence de toute influence de l'iodure d'argent. Cependant, rien ne dit que ne pas rejeter H0 mette à l'abri de se tromper : en effet, les faiseurs de pluie ont peut-être raison, mais on ne s'en est pas aperçu.

Il y avait en fait deux manières de se tromper : croire les faiseurs de pluie, alors qu'ils n'étaient pour rien dans le résultat obtenu (probabilité  ; ne pas croire les faiseurs de pluies, alors que leur méthode est bonne et que seul le hasard (malencontreux pour eux), dû au faible nombre d'observations, a donné des résultats insuffisants pour convaincre les agriculteurs.

Supposons que les faiseurs de pluie ont raison, on commet alors une erreur chaque fois que prend une valeur inférieure à 655 mm, c'est-à-dire avec une probabilité :

ce qui est considérable.

Ces erreurs correspondent à des risques différents en pratique ; ainsi dans l'exemple des faiseurs de pluie le risque de première espèce consiste à acheter un procédé d'insémination qui ne vaut rien ; le risque de deuxième espèce à laisser perdre une occasion d'augmenter le niveau de pluie et peut-être de récoltes plus abondantes. Dans la pratique des tests statistiques, il est de règle de se fixer comme donnée (les valeurs courantes sont par exemple 0,05 ; 0,01 ou 0,1) de préférence en fonction du risque de première espèce couru, ce qui fait jouer à H0 un rôle prééminent.

Sur la base de cet exemple, la démarche d'un test peut se résumer comme suit :

8.4.2 Les grandes catégories de tests

On peut classer les tests soit selon leur objet (but) ou selon leurs propriétés mathématiques.

8.4.2.1 Tests selon leurs propriétés mathématiques

Un test est dit paramétrique si son objet est de tester certaines hypothèses relatives à un ou plusieurs paramètres d'une variable aléatoire de loi spécifiée. Dans la plupart des cas, ces tests sont basés sur la considération de la loi normale et supposent donc explicitement l'existence d'une variable aléatoire de référencesuivant une loi normale. La question se pose alors de savoir si les résultats restent encore valables lorsque n'est pas normale : si les résultats sont valables on dit que le test en question est robuste. La robustesse d'un test par rapport à un certain modèle est donc la qualité de rester relativement insensible à certaines modifications du modèle. Un test est dit non paramétrique s'il ne fait pas appel à des paramètres ou d'hypothèses précises concernant la distribution sous-jacente.

8.4.2.2 Tests selon leur objet

Les tests sont généralement classés en quatre groupes principaux qui contiennent la plupart des tests statistiques généralement utilisés en hydrologie.

Mathématiquement le problème se formalise de la manière suivante : on observe sur le premier échantillon les réalisations d'une variable aléatoire de fonction de répartition et sur le deuxième échantillon les réalisations d'une variable aléatoire de fonction de répartition .

On veut tester :

Le choix de est dicté par des considérations pratiques car est trop vague pour obtenir une région critique. Dans la pratique on se contentera de vérifier l'égalité des espérances mathématiques et des variances de et , en disposant de ,et moyennes et variances empiriques des deux échantillons.

(8.1)
(8.2)

L'autocorrélation est une mesure de la mémoire, donc de la persistance, du phénomène.

8.4.2.3 Tests selon la nature des informations

En hydrologie diverses situations peuvent se rencontrer en fonction des situations hydrologiques particulières. Ainsi il est parfois nécessaire de contrôler un seul type de données (pluie, température, évaporation) à l'échelle locale (à l'endroit où la mesure a été effectuée) ou à l'échelle régionale (d'un bassin versant où plusieurs sites de mesures ont été établis). Il est également parfois souhaitable de vérifier la qualité de plusieurs types de données (par exp. pluie-débit, température-vitesse du vent…) aussi bien à l'échelle locale que régionale. Ainsi divers contrôles de données, recoupant à la fois des tests numériques (strictement statistiques) et graphiques (à caractère plus hydrologique), peuvent être classés en 4 grands groupes selon l'échelle spatiale et le nombre de paramètres considérés : 1 paramètre – échelle locale ; 1 paramètre – échelle régionale ; plusieurs paramètres – échelle locale ; plusieurs paramètres – échelle régionale.

8.5 Contrôle des données : application au débit de la Viege

Les divers test exposés ci-dessous vont être appliqués à l'aide du jeu de données suivant représentant les débits de pointe annuels en m3/s de la Viège à Viège de 1922 à 1996 (tableau 8.2). Cette série de débits possède la particularité qu'un changement de nature anthropique a eu lieu en 1964. En effet, à cette date, un barrage a été construit en amont du point de mesure (barrage du Mattmark)

Tableau 8.2 - Débits de pointe annuels en m3/s de la Viège à Viège de 1922 à 1996.

année

Qp annuel [m3/s]

année

Qp annuel [m3/s]

année

Qp annuel [m3/s]

1922

240

1947

210

1971

150

1923

171

1948

375

1972

140

1924

186

1949

175

1973

115

1925

158

1950

175

1974

87

1926

138

1951

185

1975

105

1927

179

1952

140

1976

92

1928

200

1953

165

1977

88

1929

179

1954

240

1978

143

1930

162

1955

145

1979

89

1931

234

1956

155

1980

100

1932

148

1957

230

1981

168

1933

177

1958

270

1982

120

1934

199

1959

135

1983

123

1935

240

1960

160

1984

99

1936

170

1961

205

1985

89

1937

145

1962

140

1986

125

1938

210

1963

150

1987

285

1939

250

1964

125

1988

105

1940

145

1965

115

1989

110

1941

160

1966

100

1990

110

1942

150

1967

85

1991

115

1943

260

1968

76

1992

110

1944

235

1969

110

1993

330

1945

245

1969

110

1994

55

1946

155

1970

94

1995

63

       

1996

49

 

La figure 8.3 présente nos données sous forme de série temporelle. Les moyennes avant et après barrage sont représentés sous forme de droite.

Fig. 8.3- Débits de pointe annuels de la Viège à Viège [m3/s] de 1922 à 1996.

Les principales caractéristiques statistiques des deux sous séries avant et après barrage ainsi que de la série complète sont résumées dans le tableau ci-dessous (tableau 8.3) :

Tableau 8.3 - Principales caractéristiques statistiques des deux sous séries (avant et après barrage).

série

longueur

moyenne

médiane

écart-type

asymétrie

kurtosis

1922-1963

42

190.26

176

48.52

1.47

2.88

1964-1996

33

117.27

110

55.51

2.47

6.54

1922-1996

75

158.14

150

62.99

0.90

0.96

 

8.5.1 1 paramètre – échelle locale

Il s'agit par exemple de tester la série de débits de pointe ci-dessus (1 paramètre) à l'endroit où ils ont été mesurés donc à Viège (échelle locale) .

8.5.1.1 Tests paramétriques

  • Tests de conformité

  • Les tests de conformité comparent la moyenne ou la variance d'un échantillon à la moyenne ou la variance de la loi théorique (de la population dont il est issu). Deux tests sont utilisés pour la conformité de la moyenne selon que la variance est connue ou doit être estimée, il s'agit respectivement des test z et de Student (appelé aussi test t). Pour ces tests statistiques de base, le lecteur se référera à un ouvrage général de statistiques (exp. S. Morgenthaler, Introduction à la Statistique, PPUR, 1997, p.129).

    Exemple : On aimerait tester si la moyenne des débits de pointe de la Viège à Viège pour la période avant barrage est égale à 200 m3/s. Pour tous les tests ci-dessous le seuil de signification choisi est . Nous avons donc :

    Comme la variance n'est pas connue, nous utilisons le test t de Student. Le score est donné par :

    =.

    Comme le test est bilatéral la valeur critique est donnée par le quantile à 97,5% d'une loi t de Student à degrés de liberté. Nous avons qt41(97,5 %)=2,01 (cf. tables) et . On ne peut donc pas rejeter l'hypothèse nulle que la moyenne des débits est égale à 200 m3/s.

    Pour la conformité de la variance on se base sur l'étude de la distribution d'échantillonnage de l'écart par comparaison du rapport des variances. La fonction discriminante suit une loi du chi-carré. La procédure de ce test est résumée dans le tableau ci-dessous.

     

    Tableau 8.4  : Procédure du test de conformité pour la variance

    Etapes

    Hypothèses alternatives

    H0:

    H1:

    Fonction
    discriminante

    , suit une loi du chi-carré à degrés de liberté

    Non rejet de H0:

     

    Exemple : Un hydrologue vous affirme que la variance des débits de pointe de la Viège à Viège de 1922 à 1963 est de (soit ). Votre expérience d'hydrologue vous incite à penser que celle-ci est en fait supérieure à la valeur donnée par votre collègue.

    Nous avons dans ce cas :

    a fonction discriminante :=61,80.

    Comme le test est unilatéral à droite, le quantile à considérer est le quantile à 95%. Comme les tables numériques nous indiquent que qc 241(95%) = 56,94<61,80, on rejette l'hypothèse nulle. Votre intuition d'hydrologue s'avère correcte !

     

  • Tests d'homogénéité

  • Le test d'homogénéité de la moyenne se base sur la statistique de Student pour deux échantillons tandis que le test d'homogénéité de la variance correspond au test de Fisher-Snedecor. Dans ce cas également le lecteur se référera à un ouvrage classique de statistique (exp. P. Meylan et A. Musy, Hydrologie Fréquentielle, polycopié, EPFL, 1998, annexe e-12 et e-13).

    Exemple : Motivée par le fait qu'une intervention humaine a eu lieu sur le bassin versant de la Viège en 1964, la série de débits de pointes est séparée en deux échantillons :

    (débits de pointe de 1922 à 1963)

    et (débits de pointe de 1964 à 1996).

    Comme dans le test t de Student nous devons faire l'hypothèse que les variances sont égales mais inconnues, il est judicieux de réaliser d'abord le test de Fisher-Snedecor.

    Nous avons dans ce cas :

    La fonction discriminante 1 :=1,31.

    La valeur critique est Fn1-1;n2-1(97.5 %)=F41,32(97.5%)=1.72 (cf. tables). Comme 1,31<1,72, on ne peut pas rejeter l'hypothèse nulle que les variances sont égales et l'on peut appliquer le test de Student pour deux échantillons.

    Connaissant les effets de la construction du barrage, on peut s'attendre à avoir une diminution significative des débits pour le deuxième échantillon, cela nous guide dans la formulation de l'hypothèse alternative pour tester l'homogénéité des échantillons à partir de la valeur moyenne.

    Nous avons ainsi :

    avec :

    La valeur critique est donnée par . On rejette donc l'hypothèse nulle puisque 1,66 < 5,90 et, comme on s'y attendait, la moyenne des débits de pointe a diminué significativement après barrage.

    1 En pratique pour la fonction discriminante, on met toujours au numérateur la plus grande des deux quantités n1s2x/(n1-1) et n2s2y/(n2-1), ainsi la région critique est de la forme F>k avec k>1.

     

    Le test paramétrique servant à l'adéquation, basé sur la comparaison des fréquences théoriques et effectives, est le test de chi-carré développé dans ce cours dans l'annexe consacré à l'analyse fréquentielle.

    Exemple : on se pose la question de savoir si toute notre série de débits de pointe (i.e. 1922-1996) suit une distribution normale. Posons Z la variable aléatoire modélisant les débits.

    Les deux paramètres de la loi normale sont estimés respectivement par la moyenne et la variance d'échantillonnage et on a donc : . On répartit les observations dans 12 classes (choix arbitraire) et après calculs des effectifs observés et théoriques, on obtient : La valeur critique nous est donnée par le quantile d'une loi chi-carré à 12-1-2=9 degrés de liberté . On ne peut donc pas rejeter l'hypothèse nulle et on conclut que nos débits suivent bien une loi normale  2.

    Fig. 8.4 - Superposition de la densité normale à l'histogramme normalisé (12 classes) de toute la série des débits

    22 degrés de liberté ont été enlevés à la loi chi-carré car les deux paramètres de la loi normale ont été estimés.

     

    Il faut tout d'abord remarquer que la façon la plus simple et la plus immédiate d'évaluer l'indépendance sérielle, adoptée dans de nombreux ouvrages d'hydrologie statistique, consiste à calculer le coefficient d'autocorrélation de rang un de la série, et d'appliquer ensuite l'un des tests « classiques » paramétriques ou non-paramétriques proposés pour le coefficient de corrélation rx,y « standard », à savoir :

    Ces trois tests ont un comportement nominal tout à fait correct, lorsqu'ils sont appliqués à une série bivariée « classique », mais s'avèrent inapplicables dans le cas du coefficient d'autocorrélation, comme cela ressort de certains développements. (cf Meylan P. et Musy A., Hydrologie Fréquentielle, Edition HGA Bucarest, 1999).

    Anderson a étudié la distribution du coefficient d'autocorrélation pour une population parente normale. Dans ce cas le coefficient d'autocorrélation est calculé sur n paires de valeurs (x1, x2), (x2, x3), …, (xn-1, xn), et (xn , x1).

    Pour une taille n « assez grande » (Anderson fixe une limite de 75 valeurs!) le coefficient d'autocorrélation suit une loi normale de moyenne et variance :

    (8.3)

    Pour des tailles inférieures d'échantillons la distribution est assez compliquée. Anderson donne par conséquent des tables des valeurs critiques du coefficient de corrélation (tableau 8.5).

    Exemple : Testons la nullité du coefficient d'autocorrélation de décalage 1 sur notre première série de débits.

    Les hypothèses de ce test sont :

    Si on estime le coefficient d'autocorrélation de décalage 1 sur nos données (1922 à 1963) on obtient : 0,002. La valeur critique étant selon le tableau ci-dessus d'environ 0,22, on ne peut pas rejeter l'hypothèse nulle. Il est à remarquer que ce résultat était prévisible puisque nous avons affaire à une série annuelle donc l'effet de persistance est nul.

    Tableau 8.5 - Table des valeurs critiques du coefficient d'autocorrélation d'Anderson pour les tests unilatéraux. Les valeurs entre parenthèses ont été interpolées par Anderson.

    N

    a= 5 %

    a= 10 %

    5

    0,253

    0,297

    6

    0,345

    0,447

    7

    0,370

    0,510

    8

    0,371

    0,531

    9

    0,366

    0,533

    10

    0,360

    0,525

    11

    0,353

    0,515

    12

    0,348

    0,505

    13

    0,341

    0,495

    14

    0,335

    0,485

    15

    0,328

    0,475

    20

    0,299

    0,432

    25

    0,276

    0,396

    30

    0,257

    0,370

    (35)

    0,242

    0,347

    (40)

    0,229

    0,329

    45

    0,218

    0,314

    (50)

    0,208

    0,301

    (55)

    0,199

    0,289

    (60)

    0,191

    0,278

    (65)

    0,184

    0,268

    (70)

    0,178

    0,259

    75

    0,173

    0,250

     

    8.5.1.2 Tests non paramétriques

    Il est rappelé que les tests non paramétriques ne font pas appel à des paramètres ou d'hypothèses précises concernant la distribution sous-jacente.

    Le test de conformité de la moyenne classique non paramétrique est le test de Wilcoxon pour un échantillon (cf. S. Morgenthaler, Introduction à la Statistique, PPUR, 1997, p. 255).

    Nous allons reprendre les mêmes hypothèses que dans le cas paramétrique ci-dessus (test de Student) :

    Le score de Wilcoxon pour un seul échantillon est :

    W+=signe(x1-norme)R+( x1-norme)+…+signe(xn-norme)R+( xn-norme) (8.4)

    Où : R+ est le rang signé (i.e.) le rang de la valeur absolue de l'observation signe (u)

    Exemple : On obtient dans notre cas W+ = 497. Pour un échantillon de taille supérieur à 15, l'approximation normale suivante est possible :

    Et = 608

    Comme 497<608, on ne peut pas rejeter l'hypothèse nulle que la moyenne de ces débits de pointe est de 200 m3/s.

     

    débits

    49

    55

    63

    76

    125

    125

    135

    138

    270

    285

    330

    375

    rang

    1

    2

    3

    4

    26.5

    26.5

    28

    29

    72

    73

    74

    75

    La statistique de Wilcoxon est la somme des rangs du premier échantillon. On a donc :

    et =676.

    Pour , on utilise l'approximation suivante :

    La valeur critique est 1750. Comme , on rejette l'hypothèse nulle ce qui est conforme à notre attente.

    b) Test de la médiane

    Soit un échantillon de n valeurs (série chronologique par exemple) de médiane (une variante consiste à utiliser la moyenne ). Chaque observation est affectée d'un signe + si elle est supérieure à la médiane, d'un signe - dans le cas contraire. Tout groupe de valeurs « + » est une séquence positive (ou suite positive), et tout groupe de valeurs «  » est une séquence négative (ou suite négative).Il s'agit de déterminer le nombre total de séquences positives ou négatives ainsi que , la taille de la plus longue de ces suites.

    On sait alors que : et que suit une loi binomiale.

    Pour un seuil de signification compris entre 91 et 95%, les conditions de vérification du test sont les suivantes :

    et (8.5)

    Si ces conditions sont vérifiées, la série est homogène.

    Exemple : On veut vérifier l'homogénéité de la série des débits de pointe de la Viège sur la période totale d'observation.

    débits

    240

    171

    186

    158

    145

    155

    230

    270

     

    330

    55

    63

    49

    signe

    +

    +

    +

    +

    -

    +

    +

    +

     

    +

    -

    -

    -

    On a que et 9. Comme <=29.5, on rejette l'hypothèse nulle

     

    A la suite des travaux d'Anderson, Wald et Wolfowitz ont développé un test non paramétrique du coefficient d'autocorrélation.

    La statistique du test est calculée comme :

    (8.6)

    Pour n «suffisamment grand», cette statistique suit une distribution normale de moyenne et de variance :

    (8.7)
    avec: . (8.8)

    8.5.2 1 paramètre – échelle régionale

    Ces méthodes s'appliquent par exemple pour contrôler des données pluviométriques à plusieurs stations situées dans un bassin versant.

    Les deux tests développés dans ce paragraphe sont essentiellement utilisés en hydrologie. Leur but spécifique est de comparer un ou plusieurs échantillons, acquis à des stations voisines, afin de déceler une éventuelle inhomogénéité (dont la cause la plus classique est une modification de l'une des stations, par exemple, le déplacement du pluviomètre).

    8.5.2.1 Méthode du double cumul

    Le principe de la méthode consiste à vérifier la proportionnalité des valeurs mesurées à deux stations. L'une des stations (station X) est la station de base ou station de référence, supposée correcte. L'autre station (Y) est la station à contrôler. Un effet de lissage est obtenu en comparant, au pas de temps choisi (année, saison, mois, décade), non pas les valeurs observées, mais leur cumul. La méthode est d'un concept extrêmement simple, puisqu'il suffit de tracer un graphe des quantités :

    (8.9)

    Exemple : Nous voulons tester graphiquement l'homogénéité des données des débits de pointe de la Viège à Viège. Pour cela, nous allons utiliser comme station de référence, les débits du Rhône à Brigue (après s'être assuré que cette série ne présente pas d'inhomogénéité).La figure 8.5 ci-dessous présente l'application de la méthode des doubles cumuls dans ce cadre. Elle nous montre une nette cassure de pente à la station que l'on désire contrôler à partir de 1964. Cette méthode est capable de détecter une anomalie (la construction du barrage).

    La méthode du double cumul a l'avantage d'être simple, bien connue de tous et très rapidement réalisable. Par contre, l'interprétation des graphes obtenus n'est pas toujours aisée et, surtout, la méthode ne propose aucune graduation en probabilité des défauts constatés: un test, au sens statistique, est donc exclu. Enfin , elle permet de détecter l'erreur mais pas de la corriger, du moins pas directement. Après une analyse approfondie d'une situation critique constatée, une correction peut être toutefois envisagée.

    Fig. 8.5 - Exemple d'application pratique de la méthode du double cumul.

     

    8.5.2.2 Méthode du cumul des résidus

    La méthode du cumul des résidus, due à Philippe Bois de l'Ecole nationale supérieure d'hydraulique de Grenoble, est une extension de l'idée de la méthode du double cumul, à laquelle elle ajoute un contenu statistique autorisant la pratique d'un véritable test d'homogénéité : c'est donc un progrès décisif.

    A nouveau pour une série double de valeurs xi (série de base) et yi (série à contrôler), l'idée de base consiste à étudier, non pas directement les valeurs xi et yi (ou Sxi et Syi) mais les cumuls des résidus e i de la régression linéaire de y en x :

    (8.10)
    ou encore : - . (8.11)

    La figure 8.6 ci-dessous présente une telle régression.

    Fig 8.6 - Diagramme de dispersion des débits de pointe annuels du Rhône à Brigue et de la Viège à Viège (1922-1996)

    De la théorie classique de la régression il découle que la somme des résidus est nulle par construction et que leur distribution est normale, d'écart-type :

    (8.12)

    où r est le coefficient de corrélation linéaire entre X et Y .

    Pour un échantillon d'effectif n, le cumul des résidus est défini comme :

    (8.13)

    Le report graphique des résidus cumulés Ej (en ordonnée) en fonction des numéros d'ordre j des valeurs (en abscisse, j = 0 à n, avec E0 = 0) devrait, pour une corrélation avérée entre X et Y, donner une ligne partant de 0, oscillant aléatoirement autour de zéro entre j = 0 et j = n, et aboutissant à 0 pour j = n. La présence d'une inhomogénéité se manifeste par des déviations non aléatoires autour de la valeur nulle.

    Bois a décrit et testé de nombreux types d'inhomogénéités. Il a en outre montré que, pour un niveau de confiance 1 - a choisi, le graphe des Ej en fonction de j ( j = 0 à n ) doit être inscrit dans une ellipse de grand axe n et de demi petit axe :

    avec est le ème quantile de la loi normale centrée réduite. (8.14)

    Ces développements fournissent un véritable test de l'homogénéité de deux stations.

    La figure 8.7 présente le test de Bois effectué pour les données des deux stations utilisées précédemment. Les résidus ont été cumulés en partant de 1996, le dernier résidu étant celui de 1922. Les résidus sont décroissants pendant les 32 dernières années, avant de devenir croissants: l'anomalie se situe donc autour de 1996-32=1964, ce qui a déjà été constaté avec la méthode du double cumul.

    Fig. 8.7 - Résultat du test de Bois pour les débits de pointe annuels de la Viège à Viège avec comme série de référence les débits du Rhône à Brigue, Ellipse de confiance à 95 %.

    8.5.3 Plusieurs paramètres – échelle locale

    Cette méthode est basée sur les relations existant entre certaines grandeurs hydrologiques telles que les précipitations et les débits ou la température et l'humidité relative de l'air. Si on suppose cette relation connue, ou tout au moins approchée à l'aide de modèles divers (physiques ou mathématiques), il est possible de détecter les données qui ne cadrent pas avec cette relation.

    8.5.4 Plusieurs paramètres – échelle régionale

    Les méthodes qui prévalent à ce niveau sont d'ordre hydrologique ou statistique, selon les cas envisagés.

    8.5.4.1 Méthode des bilans

    L'équation simplifiée du bilan hydrologique (cf. chapitre 1) est la suivante :

    (8.15)

    Avec :
     : précipitations ;
     : ruissellement ;
     : évapotranspiration ;
     : variation de stockage.

    Un contrôle possible des données est de mesurer tous les paramètres du bilan et vérifier l'égalité : si , alors on déduit que . La mesure de la pluie et de l'écoulement nous donne une évaluation du degré de vraisemblance de l'évapotranspiration. Si celui-ci n'est pas acceptable, on se doit alors de vérifier les données de pluie et de ruissellement.

    Une autre analyse possible consiste à estimer grossièrement le coefficient de ruissellement (Cr=R/P) (cf. chapitre 2), d'évaluer sa vraisemblance en regard des caractéristiques du bassin versant ou alors de vérifier si le calcul obtenu avec les données pluie-débit donne un résultat similaire. Dans le cas où le calcul du coefficient de ruissellement donne des valeurs a priori aberrantes (par exemple supérieures à l'unité), l'erreur à priori est manifeste. Cette erreur a aussi des chances de provenir de la non concordance des bassins topographiques et hydrogéologiques, à défaut d'une erreur sur les données de pluie et de débit.

    8.5.4.2 Méthode des débits spécifiques maximaux

    Un autre exemple de contrôle hydrologique simple est celui qui utilise les débits spécifiques maximaux. On sait que ces débits spécifiques varient de manière inversément proportionnelle à la surface sur laquelle ils sont calculés. Ainsi, si on dispose de plusieurs stations hydrométriques sur un même réseau hydrographique, on peut tracer la courbe décroissante qmax = f(A). Si un des points, correspondant à une station n'est pas « hydrologiquement » bien placé il y a lieu de craindre une erreur (figure 8.8). Cependant il faut être attentif au fait que cette erreur ne provient pas forcément d'une mauvaise mesure du débit, elle peut provenir d'une erreur d'estimation de la superficie des bassins versants !

    Fig. 8.8 - Méthode des débits spécifiques maximaux : visiblement une erreur est présente dans le débit spécifique de la station 4. Il s'agit alors de chercher à découvrir les sources de cette erreur.

    8.5.4.3 Méthodes statistiques multivariées

    Souvent, lors de l'étude d'un phénomène hydrologique, on observe une multitude de variables différentes qui pourraient potentiellement offrir un intérêt. Dans ce cas on peut faire appel à des méthodes statistiques multivariées. Parmi ces méthodes on trouve l'analyse en composantes principales et l'analyse factorielle.

    8.5.5 Estimation des données manquantes, correction des données

    On peut estimer les données manquantes ou erronées à une station à partir des valeurs provenant des stations voisines soumises aux mêmes conditions climatiques et situées dans la même zone géographique. Trois méthodes sont proposées pour les données pluviométriques :

    (8.16)

    Où :

     : donnée manquante de précipitation (par exemple), estimée

     : nombre de stations de référence,

     : précipitation à la station de référence ,

     : précipitation moyenne à long terme de la station ,

     : précipitation moyenne à long terme de la station de référence .

    Pour reconstituer des données de hauteurs d'eau, on peut utiliser des critères de proportionnalité analogues dans le cas de stations limnimétriques placées sur un même cours d'eau (transposition géographique, conservation des volumes,…).

    Les méthodes basées sur l'analyse de régressions et corrélations (relations pluie-pluie ou pluie-débit, relations inter-postes) sont utilisées à cet effet.

    Le calcul de la régression se fait en déterminant les valeurs des paramètres de la relation entre la variable expliquée et la ou les variables explicatives. Cette régression peut être simple ou multiple.

    Exemple :

    Il s'agit de reconstituer les valeurs manquantes , concomitantes aux valeurs de la série complémentaire comme illustré par la figure ci-dessous.

    Fig. 8.9 - Reconstitution des séries manquantes.

    Une méthode générale consiste à utiliser un modèle linéaire de régression du type :

    (8.17)

    On estime les paramètres et sur la série de couples connus.

    On peut alors estimer les valeurs complémentaires pour chaque connu (, à partir de la relation estimée :

    (8.18)

    Notons que cette méthode néglige la dispersion naturelle des autour de la droite de régression ; on diminue ainsi la dispersion des valeurs reconstituées et on fausse la distribution statistique de l'échantillon complet. Il est nécessaire d'ajouter à la valeur moyenne conditionnelle yi donnée par la formule précédente, un écart aléatoire simulé d'écart-type estimé s e , obtenu à partir de la loi de probabilité de e .