Annexe

L'analyse frequentielle


Document de Cours Exercice


 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

A.1 Généralités

A.1.1 Définition de l'analyse fréquentielle

L'analyse fréquentielle est une méthode statistique de prédiction consistant à étudier les événements passés, caractéristiques d'un processus donné (hydrologique ou autre), afin d'en définir les probabilités d'apparition future.

Cette prédiction repose sur la définition et la mise en oeuvre d'un modèle fréquentiel, qui est une équation décrivant le comportement statistique d'un processus. Ces modèles décrivent la probabilité d'apparition d'un événement de valeur donnée.

L'analyse fréquentielle fait appel à diverses techniques statistiques et constitue une filière complexe qu'il convient de traiter avec beaucoup de rigueur. Ses diverses étapes peuvent être schématisées très simplement selon le diagramme suivant :

Principales étapes de l'analyse fréquentielle.

Ce sont essentiellement les étapes 5,6,7 et 8 qui sont développées dans ce document. Pour d'autres d'informations, prière de se référer au polycopié " Hydrologie fréquentielle, P. Meylan et A. Musy, EPFL, 1999 " duquel plusieurs graphiques de ce document ont été tirés.

Avant de commencer tout travail, il est primordial de formuler clairement les buts de l'analyse et d'adapter la démarche en conséquence. A cet égard, en hydrologie, l'un des critères essentiels est certainement l'échelle spatio-temporelle : étudier le comportement des crues dans un microbassin urbain (à très faible temps de concentration) avec des données de pluie au pas de temps mensuel n'aurait pas de sens ! L'inverse est tout aussi vrai : il est probablement inutile de disposer de pluies au pas de temps de la minute pour l'étude du bassin versant de l'Amazone !

La constitution d'échantillons, au sens statistique du terme, est un processus long, parsemé d'embûches, et au cours duquel de nombreuses erreurs, de nature fort différente, sont susceptibles d'être commises. Par ailleurs, il est indispensable, avant d'utiliser des séries de données, de se préoccuper de leur qualité et de leur représentativité. Le contrôle des données fera l'objet d'un chapitre qui sera traité ultérieurement dans ce cours.


 
 

A.2 Choix du modèle fréquentiel

La validité des résultats d'une analyse fréquentielle dépend du choix du modèle fréquentiel et plus particulièrement de son type. Diverses pistes peuvent contribuer à faciliter ce choix, mais il n'existe malheureusement pas de méthode universelle et infaillible.

A.2.1 Considérations théoriques

A.2.1.1 Loi normale

La loi normale se justifie, théoriquement par le théorème central-limite, comme la loi d'une variable aléatoire formée de la somme d'un grand nombre de variables aléatoires. En hydrologie fréquentielle des valeurs extrêmes, les distributions ne sont cependant pas symétriques, ce qui constitue un obstacle à son utilisation. Cette loi s'applique toutefois généralement bien à l'étude des modules annuels des variables hydro-météorologiques en climat tempéré.

A.2.1.2 Loi log-normale

La loi log-normale est préconisée par certains hydrologues dont V.-T. Chow qui la justifient en argumentant que l'apparition d'un événement hydrologique résulte de l'action combinée d'un grand nombre de facteurs qui se multiplient. Dès lors la variable aléatoire suit une loi log-normale. En effet le produit de variables se ramène à la somme de logarithmes de celles-ci et le théorème central-limite permet d'affirmer la log-normalité de la variable aléatoire.

A.2.1..3 Loi de Gumbel

E.-J. Gumbel postule que la loi double exponentielle, ou loi de Gumbel, est la forme limite de la distribution de la valeur maximale d'un échantillon de valeurs. Le maximum annuel d'une variable étant considéré comme le maximum de 365 valeurs journalières, cette loi doit ainsi être capable de décrire les séries de maxima annuels.

Il est à remarquer que plus le nombre de paramètres d'une loi est grand, plus l'incertitude dans l'estimation est importante. Pratiquement il est par conséquent préférable d'éviter l'utilisation de lois à trois paramètres ou plus.
 
 

A.2.2 Comportement asymptotique

Une comparaison du comportement de différentes lois pour de grandes valeurs de , c'est-à-dire pour la queue de la distribution, peut être tentée. Si, par convention, la distribution est transformée en une variable de Gumbel (), les 4 types de comportement asymptotique suivants peuvent être distingués :

4 types de comportement asymptotique.

  1. , avec n > 1, loi normale;
  2. , croissance asymptotiquement exponentielle: loi de Gumbel, Pearson III, loi des fuites;
  3. , avec n > 1: loi de Goodrich;
  4. avec n > 0 (lois de type logarithme): loi log-normale (Galton), Pearson V, Fréchet, log-gamma.


Cette approche suggère la plus grande prudence avec des lois de type logarithmique qui peuvent largement surestimer les valeurs correspondant à des fréquences rares.

A.2. 3 L'expérience et la coutume

Le choix d'un type de modèle probabiliste est souvent basé sur des habitudes locales, qui, à la longue, deviennent de véritables coutumes. Un tel choix résulte fréquemment de l'expérience d'un ou de plusieurs auteurs, constituant peu à peu des écoles. L'attitude du praticien, suivant telle ou telle école, est légitime dès lors qu'elle le fait bénéficier d'une grande somme d'expérience, mais elle a aussi ses dangers. En effet elle peut conduire à perpétuer un choix, parfois mal fondé, dans des situations, où il peut se révéler inadéquat.

Dans certains pays, ou dans certaines administrations, il existe en effet des règles ou normes qui fixent la méthodologie d'une analyse fréquentielle. Pour l'étude des débits maximums, par exemple, la loi log-Pearson III est recommandée aux Etats-Unis.

A.2.4 Utilisation des tests d'adéquation

Beaucoup d'auteurs utilisent les tests d'adéquation (voir paragraphe contrôle de l'ajustement) comme technique permettant de choisir le modèle fréquentiel approprié. Cependant il est à remarquer qu'un test statistique ne permet que de conclure au rejet, ou à l'acceptation, de l'hypothèse nulle . Il n'est pas en mesure de comparer plusieurs modèles fréquentiels et de choisir le meilleur.

A.2.5 Utilisation de divers diagrammes

A.2.5.1 Le diagramme des moments

Le diagramme de l'aplatissement en fonction de la symétrie a été introduit, semble-t-il, par K. Pearson à l'occasion du développement de son système de lois de probabilité. Le calcul de la symétrie et de l'aplatissement de l'échantillon, puis le report du point figuratif dans le diagramme de Pearson devrait donc permettre de faciliter le choix du modèle à adopter. Il est cependant à remarquer que les courbes représentatives des différentes lois utilisées en hydrologique sont relativement confinées, ce qui rend une bonne différentiation assez difficile.

A.2.5.2 Le diagramme des L-moments

Les L-moments, en particulier le rapport qui est une mesure de la symétrie et le rapport qui est une mesure d'aplatissement, peuvent être utilisés dans un diagramme analogue à celui de K. Pearson. La figure ci-dessous illustre la position des lois fréquemment utilisées en hydrologie.

Diagramme des L-moments : symétrie - aplatissement . Les abréviations, désignant les lois, utilisées dans ce diagramme sont les suivantes : UNI=uniforme, NOR=normale, GUM=Gumbel, EXP=exponentielle, GEV=extrêmes généralisées, PIII=Pearson III, LN=log-normale, GPA=Pareto généralisée.

Il est à remarquer que dans ce graphique les lois à deux paramètres sont représentées comme un point, tandis que les lois à 3 paramètres sont figurées par une courbe.


 
 
 

A.3 Ajustement du modèle fréquentiel

Dans ce chapitre nous étudierons les techniques de l'ajustement ou du calage d'un modèle fréquentiel à une série de données : il s'agit de définir les paramètres de la loi retenue. Nous utiliserons comme support pédagogique la loi de Gumbel, fréquemment utilisée en hydrologie, pour modéliser les événements extrêmes, les pluies notamment.

A.3.1 Présentation de la loi de Gumbel

La distribution des valeurs extrêmes provenant de n'importe quelle distribution converge vers la loi des extrêmes généralisées (GEV). La distribution de cette loi s'exprime de la manière suivante :

où est le paramètre de position, le paramètre d'échelle et le paramètre de forme. 3 lois peuvent être distinguées en fonction des valeurs de . Leurs caractéristiques sont résumées dans le tableau suivant :

 
type
nom
borne inférieure
borne supérieure
III
Weibull
I
Gumbel
+
II
Fréchet

 

La fonction de répartition de la loi de Gumbel s'exprime de la manière suivante :

Posons la variable réduite suivante . La distribution s'écrit alors comme suit : et . L'avantage d'utiliser la variable réduite est que l'expression d'un quantile est alors linéaire. En effet pour trouver la valeur d'un quantile, correspondant à la distribution , en fonction des deux paramètres et , il suffit d'utiliser la relation suivante :

 

A.3.2 Techniques d'ajustement

A.3.2.1 Méthode graphique

Dans le cas d'un ajustement selon la loi de Gumbel, la méthode graphique repose sur le fait que l'expression d'un quantile correspond à l'équation d'une droite. En conséquence, les points de la série à ajuster peuvent être reportés dans un système d'axes ; il est alors possible de tracer la droite qui passe le mieux par ces points et d'en déduire les deux paramètres et définissant la loi. Le graphique ci-dessous montre un ajustement à l'œil. Dans la mesure où les points sont connus (ils font partie de la donnée du problème), il suffit de définir les coordonnées correspondant à chaque point pour pouvoir le positionner dans le graphique. Ces coordonnées se déterminent à partir de la relation inverse de la fonction de répartition qui donne en fonction de la distribution . Il s'agit donc essentiellement d'estimer la probabilité de non-dépassement qu'il convient d'attribuer à chaque valeur .


 
 

Principe de la méthode d'ajustement graphique.

Il existe de nombreuses formules d'estimation de la fonction de répartition à l'aide de la distribution empirique. Elles reposent toutes sur un tri de la série par valeurs croissantes permettant d'associer à chaque valeur son rang . Ces formules peuvent être résumées par une relation générale qui garantit la symétrie autour de la médiane :

où est la taille de l'échantillon, la valeur de rang et un coefficient compris entre 0 et 0.5. Le tableau ci-dessous présente quelques exemples de distributions empiriques :

 
Nom Formule
Weibull
Cunnane
Gringorten
Hazen

 

Des simulations ont montré que pour la loi de Gumbel, il est judicieux utiliser la distribution empirique de Hazen

L'ajustement graphique, bien qu'étant une méthode approximative, a le très grand avantage de fournir une représentation visuelle des données et de l'ajustement. Celle-ci constitue un aspect essentiel du jugement porté sur l'adéquation entre la loi choisie et les données traitées, quelle que soit la méthode d'ajustement utilisée.

L'ajustement graphique est une approximation de la méthode statistique des moindres rectangles. Il est à remarquer cependant que, si un seul point parmi les données est fortement décalé par rapport aux autres, la méthode graphique est difficile à réaliser. En effet l'œil humain a de la peine à juger le poids à donner à ce point. Dans ce cas, des méthodes statistiques rigoureuses doivent être utilisées.

A.3.2.2 Méthode des moments

La méthode des moments consiste à égaler les moments échantillonnaux et les moments théoriques de la loi choisie. Soit l'échantillon de données à disposition. Posons et les estimateurs standard de la moyenne et de la variance. Les deux premiers moments théoriques de la loi de Gumbel s'expriment à partir des paramètres de position et d'échelle de la manière suivante :

avec (constante d'Euler).

On obtient donc les formules suivantes pour l'estimation par la méthode des moments :

A.3.2.3 Méthode des L-moments

Le but de cette méthode est de réaliser un ajustement lorsque les moments classiques ne conviennent pas. Les deux paramètres et sont obtenus très simplement à partir des valeurs des deux premiers L-moments de la loi de Gumbel et des estimations calculées sur l'échantillon :

avec (constante d'Euler).

A.3.2.4 Méthode des moindres rectangles

La solution des moindres rectangles conduit à trouver la droite bissectrice des solutions classiques de la régression par moindres carrés de en d'une part et de en d'autre part. Cette méthode revient donc à minimiser la distance du point à sa projection orthogonale sur la droite de régression. Dans le cas de la loi de Gumbel l'axe est remplacé par l'axe de la variable réduite de Gumbel et l'axe par celui de la variable hydrologique étudiée que nous notons ici .

Nous obtenons par cette méthode les estimateurs suivants :

A.3.2.5 Méthode du maximum de vraisemblance

La vraisemblance offre une approche générale à l'estimation de paramètres inconnus à l'aide de données. Soit un échantillon provenant d'une loi , où est un paramètre inconnu qui peut être réel ou multivarié.

La fonction de vraisemblance, qu'il s'agit de maximiser, s'écrit :

où est la densité de probabilité.

Souvent pour se simplifier le calcul, en remplaçant le produit par une somme, il est judicieux de maximiser le logarithme de la fonction de vraisemblance. On obtient dans le cas de la loi de Gumbel les estimateurs suivants :

La première équation doit être résolue de façon itérative. Dans ce cas la solution de la méthode des moments peut par exemple être utilisée comme première approximation.

Lorsque la taille de l'échantillon est faible, la méthode du maximum de vraisemblance fournit une estimation biaisée des paramètres. Il s'agit, dans ce cas, d'utiliser la correction proposée par Fiorentino et Gabriele.
 
 
 

A.4 Contrôle de l'ajustement

A.4.1 Examen visuel de l'ajustement

L'examen visuel du graphique représentatif de l'ajustement réalisé, même s'il peut paraître rudimentaire, reste un des bons moyens pour juger de la qualité d'un ajustement et devrait toujours constituer un préambule à tout test statistique. La figure ci-dessous en présente un exemple.

Ajustement de la série tronquée des débits de pointe [m3/s] du Nozon à Orny (1923-1931) à une loi exponentielle.

A.4.2 Le test chi-carré de K. Pearson

Ce test est appliqué dans une situation où l'on observe la répartition de objets dans classes. Il est utilisé pour tester l'hypothèse que la répartition des données s'effectue selon une distribution théorique. On se pose donc la question de l'adéquation d'une distribution théorique à des données.

Pour tester l'adéquation d'une répartition théorique, on dispose de deux éléments. D'une part, observations réparties dans cellules. Cela se résume par :


 

où est le nombre d'observations dans la ème cellule.

D'autre part, une distribution théorique qui fixe la probabilité () de chaque cellule.

 

Le score du test de Pearson est une mesure de la distance entre la répartition empirique et la loi théorique. Elle se base sur la répartition des objets selon la loi théorique :

 

Ensuite, on calcule :

L'hypothèse nulle que l'on teste avec le test de Pearson est  : " La distribution théorique est la vraie distribution sous-jacente aux données ". On peut démontrer que : la distribution de la statistique de Pearson sous l'hypothèse est bien approchée par une loi (chi-carré avec degrés de liberté), si le nombre espéré est suffisamment grand ().

On rejette donc l'hypothèse nulle si où est le 95%-quantile d'une loi. La figure ci-dessous illustre le principe de ce test.

Principe du test de chi-carré.

Dans le cas où la variable aléatoire considérée est continue, il faut discrétiser, ce qui introduit un élément d'ambiguïté. Pour le cas continu il existe un autre test qui utilise la distribution empirique et qui, en règle générale, est plus puissant que le test de Pearson.

A.4.3 Le test de Kolmogorov-Smirnov

Le test de Kolmogorov-Smirnov consiste à mesurer, pour une variable aléatoire continue, la plus grande distance entre la distribution théorique et la distribution expérimentale . Nous avons donc et pour au moins une valeur de . La distribution empirique, ou observée, se calcule, dans la théorie de Kolmogorov-Smirnov, par la relation classique :

On définit alors la statistique d comme suit :

La statistique est tabulée dans plusieurs ouvrages. Le principe de ce test est illustré dans la figure suivante :


 
 

Principe du test de Kolmogorov-Smirnov.

A.4.4 Test d'Anderson–Darling

Le test d'Anderson-Darling consiste à comparer la distribution théorique à la distribution expérimentale en calculant la statistique suivante :

où est une fonction de pondération.

Le cas standard d'Anderson-Darling correspond à la fonction de pondération suivante :

qui permet de donner plus d'influence aux faibles et fortes fréquences. Cela conduit à la statistique notée .

Fonction de pondération du test d'Anderson-Darling.

En modifiant la fonction de pondération en

on obtient un test sensible au comportement pour des fréquences rares. Cette procédure de test peut son se révéler particulièrement utile lorsqu'on s'intéresse, comme c'est généralement le cas en hydrologie, aux valeurs extrêmes.
 
 
 
 

A.5 Analyse des incertitudes

A ce stade de l'analyse nous disposons d'un modèle fréquentiel , obtenu après plusieurs étapes. On est donc en droit de se poser la question de sa fiabilité ou degré de confiance que l'on peut y accorder.

A.5.1 L'intervalle de confiance

L'incertitude liée au phénomène de la fluctuation d'échantillonnage peut être évaluée par la procédure classique de l'intervalle de confiance. La construction d'un tel intervalle peut-être effectuée par la méthode dite de l'erreur-type.

Dans ce cas, la construction de l'intervalle de confiance nécessite la connaissance de trois grandeurs :

  1. L'estimation du quantile, qui est donnée par l'équation .
  2. L'erreur-type , dont la détermination sera développée ci-dessous.
  3. La forme de la distribution d'échantillonnage, considérée dans la plupart des cas comme " normale ".

 

A.5.1.1 Erreur-type d'un quantile

Lorsque les paramètres et de la loi de Gumbel ont été estimés par la méthode des moments l'expression d'un quantile peut s'écrire . En substituant les estimations de et , on obtient

avec , constante d'Euler etest appelé facteur de fréquence dans la formulation désormais classique d'un quantile aux USA :.

En utilisant les formules de calcul de la variance d'une fonction de variables aléatoires et en remplaçant la variance par son estimation on trouve finalement la formule de Dick et Darwin :

où en introduisant  :

Lorsque les paramètres ont été estimés par la méthode du maximum de vraisemblance la procédure de calcul de l'erreur-type d'un quantile se base sur la méthode delta (méthode de linéarisation se basant sur le développement de Taylor). Pour la loi de Gumbel, on obtient :

Souvent la valeur de dimensionnement (ou valeur de projet) à adopter est déterminée à partir de l'erreur-type par une relation telle que celle ci-:

où est un facteur, communément nommé facteur de fréquence, dépendant de la forme de la loi de distribution d'échantillonnage et du niveau de confiance désiré. Un tel intervalle de confiance est représenté par la figure ci-dessous.
 
 

Intervalle de confiance à de la valeur de dimensionnement.

 

Exercice : Estimation des débits de crue pour différents temps de retour par la méthode statistique – Application au bassin versant de la Mentue à Yvonand (VD, Suisse)

Pour le bassin versant de la Mentue (station à Yvonand), localisé dans la région de Plateau, en Suisse Romande, et se jetant dans le lac de Neuchâtel, on vous demande :

1) Ajuster la série des débits maximums annuels selon une distribution de Gumbel. Ajuster les données graphiquement.

2) Estimer les débits de pointe de temps de retour, 5, 20, 50, 100 ans.

3) Ajuster les données par la méthode des moments. Estimer les débits de pointe de temps de retour, 5, 20, 50, 100 ans.

Données :

L’exercice porte sur le bassin versant de la Mentue (station à Yvonand). Les données nécessaires à la réalisation de cet exercice se trouvent ci-dessous et dans un fichier Excel (il s’agit d’une série de débits maximums annuels en [m3/s] ).

1973 13.20
1972 15.40
1989 16.83
1975 18.09
1974 19.08
1976 20.81
1994 21.83
1971 23.00
1993 25.41
1981 27.59
1990 27.99
1987 29.65
1984 30.47
1978 30.82
1983 32.55
1980 33.25
1988 33.60
1986 35.47
1991 37.27
1985 37.43
1992 37.99
1977 41.50
1979 43.67
1995 45.40
1982 52.66

Réponse