Modèle de régression non paramétrique

Les modèles de régression non paramétrique utilisent parfois un AIC basé sur le «nombre effectif de paramètres». [4] cela pénalise une mesure de l`ajustement par la trace de la matrice de lissage-essentiellement combien chaque point de données contribue à l`estimation elle-même, additionnée sur tous les points de données. Si, toutefois, vous utilisez la validation croisée leave-one-out dans la phase d`ajustement du modèle, la trace de la matrice de lissage est toujours zéro, ce qui correspond aux paramètres zéro pour l`AIC. Ainsi, le NPMR avec validation croisée dans la phase d`ajustement du modèle pénalise déjà la mesure de l`ajustement, de telle sorte que le taux d`erreur de l`ensemble de données de formation devrait rapprocher le taux d`erreur dans un ensemble de données de validation. En d`autres termes, le taux d`erreur de formation se rapproche du taux d`erreur de prédiction (extra-échantillon). Le lissage du diagramme de dispersion (par exemple en utilisant les fonctions LOWESS () ou loess ()) consiste à tracer une courbe lisse sur un diagramme de dispersion pour résumer une relation, d`une manière qui fait peu d`hypothèses initialement sur la forme ou la force de la relation. Il est lié à (et est un cas particulier de) régression non paramétrique, dans laquelle l`objectif est de représenter la relation entre une variable de réponse et une ou plusieurs variables prédictitrices, de nouveau de manière qui fait peu d`hypothèses sur la forme de la relation. En d`autres termes, contrairement à l`analyse de régression linéaire «standard», aucune supposition n`est faite que la relation est représentée par une ligne droite (bien que l`on puisse certainement penser à une ligne droite comme un cas particulier de régression non paramétrique). Une autre façon de regarder le lissage de diagramme de dispersion est comme un moyen de décrire la relation «locale» entre une variable de réponse et une variable de prédicteur sur des parties de leurs plages, qui peuvent différer d`une relation «globale» déterminée à l`aide de l`ensemble de données entier.

(Et encore une fois, l`idée d`une relation «locale» par opposition aux relations «globales» a une analogie géographique évidente.) La régression non paramétrique peut être considérée comme généralisant l`idée de lissage du diagramme de dispersion dans le contexte de régression multiple. Loess est l`un des nombreux Smoothers (y compris la régression linéaire en tant que membre final) qui peut être utilisé. Les différents Smoothers varient selon les hypothèses qu`ils font à ce sujet pour la régression bivariée ou multiple (linéaire) standard, le modèle est des modèles linéaires, des modèles linéaires généralisés et des modèles non linéaires sont des exemples de modèles de régression paramétrique parce que nous connaître la fonction qui décrit la relation entre la réponse et les variables explicatives. Dans de nombreuses situations, cette relation n`est pas connue. L`objectif principal de ce cours court est de guider les chercheurs qui ont besoin d`incorporer des relations inconnues, flexibles et non linéaires entre les variables dans leurs analyses de régression. Les premiers exemples de régression non paramétrique sont le diagramme de dispersion familier plus lisse LOWESS () et la fonction loess () plus flexible associée. Si vous tracez GPA contre des scores GMTA à l`aide de la fonction de nuage de points dans le menu graphique, vous verrez qu`il existe une relation raisonnablement linéaire entre GPA et GMTA. Ici, nous pouvons déduire avec 95% de confiance que la valeur réelle de la population de la pente d`une ligne de régression linéaire pour ces deux variables se situe entre 0 et 0,008. L`équation de régression est estimée à Y = 1,5811 + 0.0035 X.

La régression non paramétrique est une catégorie d`analyse de régression dans laquelle le prédicteur ne prend pas une forme prédéterminée mais est construit en fonction des informations dérivées des données. La régression non paramétrique nécessite des tailles d`échantillon plus importantes que la régression basée sur des modèles paramétriques, car les données doivent fournir la structure du modèle ainsi que les estimations du modèle. La régression du noyau évalue la variable dépendante continue à partir d`un ensemble limité de points de données en convolant les emplacements des points de données avec une fonction de noyau — à peu près parlant, la fonction du noyau spécifie comment „brouiller” l`influence des points de données afin que leurs valeurs peuvent être utilisées pour prédire la valeur des emplacements à proximité.