Menu de navegação de páginas

Cursos Offshore

Modele de r

Ces chapitres de modélisation sont encore plus opinionés que le reste du livre. J`aborde la modélisation d`un point de vue quelque peu différent à la plupart des autres, et il y a relativement peu d`espace qui lui est consacré. La modélisation mérite vraiment un livre sur ses propres, donc je vous recommande vivement de lire au moins un de ces trois livres: modélisation statistique: une nouvelle approche par Danny Kaplan, http://www.mosaic-web.org/go/StatisticalModeling/. Ce livre fournit une introduction douce à la modélisation, où vous construisez votre intuition, les outils mathématiques, et les compétences R en parallèle. Le livre remplace un cours traditionnel «Introduction à la statistique», qui fournit un curriculum qui est à jour et pertinent pour la science des données. Dans ce cours en ligne, «modélisation en R», vous apprendrez à utiliser R pour créer des modèles statistiques et les utiliser pour analyser les données. La régression multiple est couverte en premier, suivie d`une régression logistique. Le modèle linéaire généralisé est ensuite introduit et montré pour inclure la régression multiple et la régression logistique comme cas particuliers. Le modèle de poisson pour les données de comptage sera introduit et le concept de surdispersion décrit. Vous apprendrez ensuite à analyser les données longitudinales, en utilisant d`abord des graphismes relativement simples et des approches inférentielles simples. Cela sera suivi par la description des modèles à effets mixtes et l`approche d`estimation généralisée pour ces données.

L`accent est mis dans le cours sur la façon d`utiliser R pour adapter les modèles répertoriés et comment interpréter la sortie R, plutôt que l`arrière-plan théorique des modèles. Par conséquent, une certaine connaissance des modèles linéaires est exigée (statistics.com a des cours dans chacun d`eux). Les modèles pour LM sont spécifiés symboliquement. Un modèle typique a la réponse de formulaire ~ termes où la réponse est le vecteur de réponse (numérique) et les termes est une série de termes qui spécifie un prédicteur linéaire pour la réponse. Une spécification de termes de la forme première + seconde indique tous les termes en premier ensemble avec tous les termes en deuxième avec les doublons supprimés. Une spécification de la forme d`abord: la seconde indique l`ensemble des termes obtenus en prenant les interactions de tous les termes en premier avec tous les termes en deuxième. La spécification première * seconde indique le croisement de la première et de la seconde. C`est le même que premier + deuxième + premier: deuxième. Cette notation de formule est parfois appelée «notation Wilkinson-Rogers» et a été décrite dans la description symbolique des modèles factoriels pour l`analyse de la variance, par G. N. Wilkinson et C.

E. Rogers https://www.jstor.org/stable/2346786. Il vaut la peine de creuser et de lire le papier original si vous souhaitez comprendre les détails complets de l`algèbre de modélisation. Les modèles additifs généralisés sont un outil puissant pour la prédiction et l`inférence. Plus flexibles que les modèles linéaires, et plus compréhensibles que les méthodes de boîte noire, les relations de modèle de GAMs dans les données en tant que fonctions non linéaires qui sont hautement adaptables à différents types de données et de problèmes de science des données. Dans ce cours, vous apprendrez comment les GAMs fonctionnent et comment les construire avec le package mgcv populaire. Vous apprendrez comment interpréter, expliquer et visualiser les résultats de votre modèle, et comment diagnostiquer et résoudre les problèmes de modèle. Vous travaillerez avec des ensembles de données qui vous montreront comment appliquer des GAMs à diverses situations: les données de performance automobile pour la construction de modèles linéaires et non linéaires mixtes, les données sur la pollution des sols pour la construction de modèles géospatiaux et les données d`achat des consommateurs pour classification et de prédiction. À la fin de ce cours, vous aurez une boîte à outils pour résoudre de nombreux problèmes de science des données.