Modèle gaussien mixte

Le critère BIC peut être utilisé pour sélectionner le nombre de composants dans un mélange gaussien de manière efficace. En théorie, il récupère le vrai nombre de composants seulement dans le régime asymptotique (c.-à-d. si beaucoup de données sont disponibles et en supposant que les données ont été effectivement générées i.i.d. d`un mélange de distribution gaussienne). Notez que l`utilisation d`un mélange gaussien bayésien variationnel évite la spécification du nombre de composants pour un modèle de mélange gaussien. Un modèle typique de mélange bayésien avec des observations catégoriques ressemble à ceci: lorsque le nombre de composants n`est pas connu a priori, il est typique de deviner le nombre de composants et d`adapter ce modèle aux données à l`aide de l`algorithme EM. Ceci est fait pour de nombreuses valeurs différentes de. Habituellement, le modèle avec le meilleur compromis entre l`ajustement et le nombre de composants (modèles plus simples ont moins de composants) est conservé. Le fait que GMM est un modèle génératif nous donne un moyen naturel de déterminer le nombre optimal de composants pour un jeu de données donné. Un modèle génératif est intrinsèquement une distribution de probabilité pour le jeu de données, et nous pouvons donc tout simplement évaluer la probabilité de la donnée sous le modèle, en utilisant la validation croisée pour éviter le surajustement. Un autre moyen de correction pour le surajustement consiste à ajuster le modèle probabilités en utilisant un critère analytique tel que le critère d`information Akour (AIC) ou le critère d`information Bayésien (BIC). L`estimateur GMM de Scikit-Learn comprend en fait des méthodes intégrées qui calculent ces deux, et il est donc très facile d`opérer sur cette approche. Un modèle de mélange gaussien est un modèle probabiliste qui suppose que tous les points de données sont générés à partir d`un mélange d`un nombre fini de distributions gaussiennes avec des paramètres inconnus.

On peut penser à des modèles de mélange comme généralisant k-moyens clustering pour incorporer des informations sur la structure de covariance des données ainsi que les centres des gaussiens latents. Les rendements financiers se comportent souvent différemment dans les situations normales et en période de crise. Un modèle de mélange [3] pour les données de retour semble raisonnable. Parfois, le modèle utilisé est un modèle de saut-diffusion, ou comme un mélange de deux distributions normales. Voir l`économie financière # défis et critiques pour un contexte ultérieur. D`un point de vue intuitif, nous pourrions nous attendre à ce que l`affectation de clustering pour certains points soit plus sûre que d`autres: par exemple, il semble y avoir un très léger chevauchement entre les deux grappes intermédiaires, de sorte que nous n`ayons peut-être pas une confiance totale dans le l`attribution de points entre eux. Malheureusement, le modèle k-means n`a pas de mesure intrinsèque de probabilité ou d`incertitude des affectations de clusters (bien qu`il puisse être possible d`utiliser une approche bootstrap pour estimer cette incertitude).