Shoari, Niloofar (2016). Quantitative analysis of left-censored concentration data in environmental site characterization. Thèse de doctorat électronique, Montréal, École de technologie supérieure.
Prévisualisation |
PDF
Télécharger (10MB) | Prévisualisation |
Prévisualisation |
PDF
Télécharger (1MB) | Prévisualisation |
Résumé
A key component of site characterization is the statistical analysis of contaminant concentrations in soil, water and air samples. Such analysis can pose challenges due to the presence of nondetects or left-censored observations, which are measurements smaller than a detection limit. Censored values should be accounted for because they do not imply the absence of contamination, but the insufficient accuracy of the measuring instruments. Indeed, trace levels of hazardous pollutants can pose risks to the human health and the environment. Even if an environmental investigation achieves a representative sample of concentration data according to sound analytical protocols and data validation procedures, improper statistical analyses that do not properly accommodate censored observations may not represent actual site conditions. Obviously, remedial designs based on a distorted view of the contamination condition could be ineffective and not sustainable environmentally and economically.
The main goal of this research is to scrutinize the impact of left-censored values on site characterization outcomes. To this end, we explore different statistical methods (i) to estimate descriptive statistics, (ii) to quantify uncertainty around estimates, and (iii) to examine potential dependencies across observations due to clustering as an inherent part of sampling techniques. Substituting censored values with an arbitrarily selected constant is commonly practiced by both practitioners and researchers. In contrast, there are a number of parametric and non-parametric methods that can be used to draw inferences from censored data, and therefore, provide a more realistic insight into a contamination problem. Parametric methods, such as maximum likelihood and regression-based procedures, estimate descriptive statistics through fitting a parametric distribution to data. Due to the right-skewed shape of concentration data, gamma, Weibull, and lognormal distributions are the most plausible parametric models, with the latter being the most commonly used in environmental studies. Non-parametric procedures such as the Kaplan-Meier method, however, do not require any distributional assumption.
This study employs a comprehensive data simulation exercise, in which the true underlying distribution is known, to evaluate the performance of parametric and non-parametric estimators based on a large number of scenarios differing in censoring percent, sample size, and data skewness. This research also highlights the importance of investigating the robustness of parametric methods against model misspecifications. Using simulated data, we elucidate how substituting censored observations provides biased estimates and why it should be avoided even for data with a small percentage of censoring. We found that the maximum likelihood method based on the lognormality assumption is highly sensitive to data skewness, sample size, and censoring percentage. While the lognormal maximum likelihood method is mainly used in environmental studies, our findings point out that caution should be exercised in assuming a lognormal density distribution of data. Instead, we recommend the maximum likelihood estimator based on a gamma distribution, regression-based methods (using either a lognormal or gamma distribution), and the Kaplan-Meier technique. With respect to quantifying the uncertainty around estimates for real concentration data, in which the true structure of data is unknown, we evaluate the performance of parametric and non-parametric estimators employing a bootstrapping technique. The conclusions drawn from bootstrapping of real data are in accordance with those inferred from the simulated data.
An important part of this research investigates the presence of correlation, associated with sampling techniques, among concentration observations. We provide statistical and conceptual backgrounds as well as motivations for mixed effects models that are able to accommodate dependence across data points while accounting for censored observations. Standard statistical methods assume that samples of concentration data are independent. However, in environmental site characterization studies, this assumption is likely to be violated because concentration observations collected, for example, from the same borehole are presumably correlated. This can in turn affect sample size determination procedures. We therefore employ a mixed effects model to capture potential dependencies and between group variability in data. The relevance of the estimated between-borehole variability is explained in terms of determining the optimal number of boreholes as well as samples to be collected from each borehole. Our proposed mixed effects model also provides insights into the vertical extent of contamination that can be useful in designing remediation strategies.
The findings of this doctoral research help increase the awareness of the scientific community as well as practitioners, exposure assessors, and policy-makers about the importance of censored observations. Aiming at unification of the field, this thesis contributes to literature by improving our understanding of the comparative aspects of different statistical methods in the context of site characterization studies. It thus offers considerable promise as a guideline to researchers, practitioners, and decision-makers.
Titre traduit
L'analyse quantitative des données de concentrations censurées en caractérisation environnementale des sites contaminés
Résumé traduit
L’analyse statistique de concentrations des contaminants dans les sols, l’eau et l’air constitue une composante essentielle de la caractérisation des sites contaminés. Ce type d’analyse présente des défis attribuables à la présence d'observations non détectées ou censurées à gauche relatives à des mesures inférieures à une limite de détection. Il est nécessaire de prendre en compte les valeurs censurées dans un ensemble de mesures de concentrations parce qu'elles n'impliquent pas l'absence de contamination, mais le manque de précision des instruments de mesure. En effet, des traces de polluants dangereux peuvent constituer des risques pour la santé humaine et l'environnement. Même si une étude environnementale permet de fournir un échantillon représentatif de données de concentration conformément à des protocoles analytiques bien conçus et à des procédures de validation des données, des analyses statistiques inadéquates ne prenant pas en compte correctement les observations censurées peuvent ne pas refléter l'état réel du site. Manifestement, des mesures de réhabilitation basées sur une image faussée des conditions de contamination pourraient être inefficaces et non durable écologiquement et économiquement.
L'objectif principal de cette recherche vise à examiner en détail l’influence des concentrations non détectées sur les décisions découlant des études de caractérisation des sols contaminés. À cette fin, nous explorons différentes méthodes statistiques (i) pour estimer les statistiques descriptives (ii), pour quantifier l'incertitude sur les estimés, et (iii) pour analyser les éventuelles dépendances liées aux observations groupées, lesquelles peuvent être inhérentes aux techniques d'échantillonnage. Le remplacement de valeurs censurées par une constante choisie de façon arbitraire est une pratique courante tant chez les spécialistes que chez les chercheurs. En revanche, il existe un certain nombre de méthodes paramétriques et non paramétriques permettant de tirer des déductions à partir des données censurées et, par conséquent, offrir un aperçu plus exact du problème. Les méthodes paramétriques, comprenant les procédures basées sur le maximum de vraisemblance et la régression, évaluent les statistiques descriptives grâce à l'ajustement d'une distribution paramétrique aux données. Étant donnée l’asymétrie à droite des données de concentration, les distributions gamma, Weibull et log-normale constituent les modèles paramétriques les plus plausibles, ce dernier type étant le plus souvent utilisé dans les études environnementales. Les procédures non paramétriques telles que la méthode Kaplan-Meier, cependant, ne nécessitent aucune hypothèse de distribution.
La présente étude utilise un exercice exhaustif de simulations des données, où le type de distribution sous-jacent est connu, afin d’évaluer la performance des estimateurs paramétriques et non paramétriques. Les simulations comprennent un grand nombre de scénarios avec différents pourcentages de censure, tailles d’échantillons de données et degrés d’asymétrie des données. Cette recherche met également en évidence l'importance d'examiner la robustesse des méthodes paramétriques contre une mauvaise spécification du modèle de distribution. En utilisant les données simulées, nous élucidons comment la substitution des valeurs censurées fausse les estimations et pourquoi cette approche devrait être écartée, même quand il s'agit de données où le pourcentage de censure est limité. Nous avons découvert que la méthode du maximum de vraisemblance reposant sur l'hypothèse de la loi log- normale est hautement sensible à l'asymétrie des données, à la taille de l'échantillonnage et au pourcentage des valeurs censurées. Alors que la méthode de maximum vraisemblance basée sur la distribution log-normale est principalement utilisée dans les études environnementales, notre avons constaté qu'il faut faire preuve de prudence en supposant une distribution log-normale. Nous recommandons plutôt l'estimateur du maximum de vraisemblance reposant sur une distribution gamma, ainsi que des méthodes fondées sur la régression (utilisant un modèle log-normal ou gamma) et la technique Kaplan-Meier. En ce qui concerne les incertitudes sur les estimations relatives aux données réelles de concentration, pour lesquelles la vraie structure des données est inconnue, nous évaluons la performance des estimateurs paramétriques et non paramétriques en employant une technique de "bootstrapping". Les conclusions tirées du bootstrapping de données réelles sont conformes avec celles déduites à partir des données simulées.
Une partie importante de cette recherche porte sur la présence d'une corrélation entre les concentrations, en lien avec des techniques d'échantillonnage. Nous fournissons un fondement statistique et conceptuel ainsi que les raisons d'appliquer des modèles à effets mixtes capables d'accommoder la dépendance entre les données tout en tenant compte des observations censurées. Les méthodes statistiques habituelles tiennent pour acquis que les échantillonnages de données de concentration sont indépendants. Cependant, dans les études de la caractérisation environnementale de sites, cette supposition sera probablement contredite parce que les observations de concentration obtenues, par exemple, du même trou de forage pourraient être corrélées. Cela peut ensuite affecter les procédures de détermination de nombre d’échantillons de sol. Ainsi, nous avons eu recours à des modèles à effets mixtes pour capturer d'éventuelles dépendances dans les données ainsi que la variabilité entre groupes. La pertinence de l'estimé de la variabilité inter-forage est attestée par la détermination du nombre optimal de trous de forage de même que d'échantillons devant être prélevées à chaque trou de forage. Le modèle à effets mixtes que nous proposons fournit un aperçu de l'étendue verticale de la contamination, ce qui peut être utile pour concevoir des stratégies d'assainissement.
Les conclusions de cette recherche doctorale aident à accroître la sensibilisation à l'importance des observations censurées auprès de la communauté scientifique, des professionnels de l’environnement, ainsi que des décideurs politiques. Cette thèse constitue une contribution à la littérature en améliorant notre compréhension des aspects comparatifs des diverses méthodes statistiques dans le contexte des études de caractérisation de sites ainsi qu’en proposant une uniformisation des recommandations concernant l’utilisation de ces méthodes. Elle s'annonce, par conséquent, très prometteuse en tant que ligne directrices à suivre pour les chercheurs, les spécialistes et les décideurs.
Type de document: | Mémoire ou thèse (Thèse de doctorat électronique) |
---|---|
Renseignements supplémentaires: | "Manuscript-based thesis presented to École de technologie supérieure in partial fulfillment for the degree of doctor of philosophy". Bibliographie : pages 175-180. |
Mots-clés libres: | Sites contaminés Évaluation. Observations censurées (Statistique) Statistique mathématique. Incertitude de mesure. Distribution (Théorie des probabilités) Statistique non paramétrique. Statistiques d'ordre. Modèles multiniveaux (Statistique) Sols Échantillonnage. estimateur, Kaplan, maximum, Meier, vraisemblance, observations censurées à gauche, caractérisation de sites, estimation du maximum de vraisemblance, régression sur les statistiques d’ordre, modèles à effets mixtes |
Directeur de mémoire/thèse: | Directeur de mémoire/thèse Dubé, Jean-Sébastien |
Programme: | Doctorat en génie > Génie |
Date de dépôt: | 17 mars 2017 17:59 |
Dernière modification: | 17 mars 2017 17:59 |
URI: | https://espace.etsmtl.ca/id/eprint/1836 |
Gestion Actions (Identification requise)
Dernière vérification avant le dépôt |