Flexibles Erkennen von Gruppen in Daten
Flexible Detection of Groups in Data
Wissenschaftsdisziplinen
Andere Sozialwissenschaften (40%); Informatik (10%); Mathematik (40%); Wirtschaftswissenschaften (10%)
Keywords
-
Mixture Models,
Regularization,
Unobserved Heterogeneity,
R,
Em Algorithm,
Market Segmentation
Beobachtungen stammen häufig aus einer heterogenen Population, die aus mehreren Gruppen besteht. Jedoch wird die Information, aus welcher Gruppe die Beobachtung stammt, nicht beobachtet. So ein Fall tritt auf, wenn es entweder Schwierigkeiten beim Erheben der Gruppenzugehörigkeit gibt oder weil keine einzelne Variable identifiziert werden konnte, die die Gruppierung einfangen würde. Bei der statistischen Modellierung werden finite Mischmodelle seit mehr als 100 Jahren als eine flexible Modellklasse eingesetzt, um solche Daten zu beschreiben und sowohl die Gruppenzugehörigkeit der Beobachtungen als auch die Gruppengrößen und gruppenspezifische statistische Modelle zu bestimmen. Die Anwendungsgebiete reichen von Astronomie, über Biologie, Ökonomie und Marketing bis zur Medizin. Die Nützlichkeit der Verwendung von finiten Mischmodellen leidet oft darunter, dass zwar a-priori Wissen über bestimmte Eigenschaften der Gruppierung zur Verfügung steht, diese aber nicht leicht in das Modell einfließen kann. Dieses Projekt hat zum Ziel, diesen Nachteil zu beseitigen, indem ein geeigneter Ansatz erarbeitet wird, wodurch beim Schätzen eines finiten Mischmodells diese zusätzliche Information gleichzeitig mitberücksichtigt wird. Besonders die Möglichkeit, Information darüber, welche Beobachtungen wahrscheinlich aus derselben Gruppe bzw. aus verschiedenen Gruppen stammen, mit einzubeziehen, wird untersucht. Ein mögliches Anwendungsgebiet für diese neuentwickelte Methode ist die Marktsegmentierung. Bei der Marktsegmentierung ist das Ziel, den Gesamtmarkt in Teilmärkte zu gliedern. Segmente sind zumeist so definiert, dass sie aus Konsumenten mit ähnlichem Verhalten bestehen. Jedoch ist das Umsetzen einer erfolgreichen Marktsegmentierung nur dann garantiert, wenn diese Segmente sich nicht nur in ihrem Verhalten unterscheiden, sondern auch in ihren soziodemographischen Charakteristika. Ein kombinierter Ansatz, wo alle Anforderungen an Marktsegmente berücksichtigt werden, erleichtert somit die statistische Analyse und verbessert die schlussendlich gefundene Lösung. Zusätzlich wird die rigorose Anwendung von verschiedenen finiten Regressionsmischmodellen für zwei verschiedene Fragestellungen untersucht: die Validierung von Kreditratingsystemen unter Verwendung eines Ansatz mit latenten Variablen und das Berücksichtigen von unterschiedlichem Antwortverhalten, das die Befragten unabhängig vom Inhalt zeigen, in Segmentierungsstudien, wo Fragebogendaten verwendet werden.
In Daten wird häufig vermutet, dass latente Gruppen vorhanden sind, aber dass die Gruppenzugehörigkeiten nicht beobachtet worden sind. In diesem Fall werden statistische Verfahren benötigt, um die latente Struktur zu enthüllen und mehr über die gruppenspezifischen Charakteristika zu lernen. Finite Mischmodelle stellen dabei die State-of-the-Art-Methode dar, um diese Aufgabe mithilfe eines statistischen modellbasierten Ansatz zu lösen.In diesem Projekt wurden mehrere Erweiterungen der generellen Klasse der finiten Mischmodelle untersucht. Diese Erweiterungen erlauben die geeignete Modellierung von verschiedenen Datentypen in einer Reihe von Anwendungen und vergrößern die Toolbox der statistischen Methoden, um die Information aus den Daten besser zu erfassen. Die theoretischen statistischen Eigenschaften sowie Schätzmethoden für diese Modelle wurden analysiert und die Algorithmen wurden in dem frei verfügbaren, quelloffenen Zusatzpaket flexmix für die statistische Softwareumgebung R implementiert. Innerhalb des Bayesianischen Frameworks wurden die Wahl der Priorverteilungen untersucht und eine Spezifikation entwickelt, die zu sparsamen Lösungen führt. Anwendungen inkludierten die Modellierung von HIV RNA Niveaus über die Zeit unter der Verwendung von Mischungen von linearen gemischten Modellen für zensierte Daten, Geneexpressionsdaten im Zeitverlauf mithilfe von Mischungen von linearen additiven Modellen, Evaluierung von Lesefähigkeiten bei Kindern mithilfe von Mischungen von Betaregressionen und Text Mining Anwendungen mithilfe von Topic Models basierend auf der Latenten Dirichlet-Allokationsmethode und Mischungen von Mises-Fisher Verteilungen. Zusätzlich wurden Empfehlungen für die Stichprobengröße bei Marktsegmentierungsanwendungen im Tourismus entwickelt.
- Universität Linz - 100%
- Sara Dolnicar, University of Queensland - Australien
Research Output
- 2465 Zitationen
- 28 Publikationen
- 1 Datasets & Models
-
2013
Titel Dynamic, Interactive Survey Questions Can Increase Survey Data Quality DOI 10.1080/10548408.2013.827546 Typ Journal Article Autor Dolnicar S Journal Journal of Travel & Tourism Marketing Seiten 690-699 -
2012
Titel Extended Beta Regression in R: Shaken, Stirred, Mixed, and Partitioned Typ Journal Article Autor Gruen Bettina Journal JOURNAL OF STATISTICAL SOFTWARE Seiten 1-25 -
2017
Titel Effect fusion using model-based clustering DOI 10.48550/arxiv.1703.07603 Typ Preprint Autor Malsiner-Walli G -
2017
Titel Identifying Mixtures of Mixtures Using Bayesian Estimation DOI 10.1080/10618600.2016.1200472 Typ Journal Article Autor Malsiner-Walli G Journal Journal of Computational and Graphical Statistics Seiten 285-295 Link Publikation -
2016
Titel Increasing sample size compensates for data problems in segmentation studies DOI 10.1016/j.jbusres.2015.09.004 Typ Journal Article Autor Dolnicar S Journal Journal of Business Research Seiten 992-999 Link Publikation -
2018
Titel Market Segmentation Analysis, Understanding It, Doing It, and Making It Useful DOI 10.1007/978-981-10-8818-6 Typ Book Autor Dolnicar S Verlag Springer Nature -
2014
Titel On standard conjugate families for natural exponential families with bounded natural parameter space DOI 10.1016/j.jmva.2014.01.003 Typ Journal Article Autor Hornik K Journal Journal of Multivariate Analysis Seiten 14-24 Link Publikation -
2012
Titel Extended Beta Regression in R : Shaken, Stirred, Mixed, and Partitioned DOI 10.18637/jss.v048.i11 Typ Journal Article Autor Grün B Journal Journal of Statistical Software Link Publikation -
2012
Titel ‘Pick Any’ Measures Contaminate Brand Image Studies DOI 10.2501/ijmr-54-6-821-834 Typ Journal Article Autor Dolnicar S Journal International Journal of Market Research Seiten 821-834 Link Publikation -
2012
Titel Modelling Human Immunodeficiency Virus Ribonucleic Acid Levels with Finite Mixtures for Censored Longitudinal Data DOI 10.1111/j.1467-9876.2011.01007.x Typ Journal Article Autor Grün B Journal Journal of the Royal Statistical Society Series C: Applied Statistics Seiten 201-218 Link Publikation -
2012
Titel Validly Measuring Destination Image in Survey Studies DOI 10.1177/0047287512457267 Typ Journal Article Autor Dolnicar S Journal Journal of Travel Research Seiten 3-14 Link Publikation -
2014
Titel Gingival Tissue Transcriptomes Identify Distinct Periodontitis Phenotypes DOI 10.1177/0022034514527288 Typ Journal Article Autor Kebschull M Journal Journal of Dental Research Seiten 459-468 Link Publikation -
2014
Titel Including Don't know answer options in brand image surveys improves data quality DOI 10.2501/ijmr-2013-043 Typ Journal Article Autor Dolnicar S Journal International Journal of Market Research Seiten 33-50 -
2014
Titel Branding water DOI 10.1016/j.watres.2014.03.056 Typ Journal Article Autor Dolnicar S Journal Water Research Seiten 325-338 Link Publikation -
2014
Titel Model-based clustering based on sparse finite Gaussian mixtures DOI 10.1007/s11222-014-9500-2 Typ Journal Article Autor Malsiner-Walli G Journal Statistics and Computing Seiten 303-324 Link Publikation -
2014
Titel movMF: An R Package for Fitting Mixtures of von Mises-Fisher Distributions Typ Journal Article Autor Gruen Bettina Journal JOURNAL OF STATISTICAL SOFTWARE Seiten 1-31 -
2012
Titel Water conservation behavior in Australia DOI 10.1016/j.jenvman.2012.03.042 Typ Journal Article Autor Dolnicar S Journal Journal of Environmental Management Seiten 44-52 Link Publikation -
2011
Titel topicmodels : An R Package for Fitting Topic Models DOI 10.18637/jss.v040.i13 Typ Journal Article Autor Grün B Journal Journal of Statistical Software Link Publikation -
2016
Titel Model-based clustering based on sparse finite Gaussian mixtures DOI 10.48550/arxiv.1606.06828 Typ Preprint Autor Malsiner-Walli G -
2015
Titel Response style corrected market segmentation for ordinal data DOI 10.1007/s11002-015-9375-9 Typ Journal Article Autor Grün B Journal Marketing Letters Seiten 729-741 Link Publikation -
2015
Titel Identifying Mixtures of Mixtures Using Bayesian Estimation DOI 10.48550/arxiv.1502.06449 Typ Preprint Autor Malsiner-Walli G -
2013
Titel “Translating” between survey answer formats DOI 10.1016/j.jbusres.2012.02.029 Typ Journal Article Autor Dolnicar S Journal Journal of Business Research Seiten 1298-1306 Link Publikation -
2013
Titel Required Sample Sizes for Data-Driven Market Segmentation Analyses in Tourism DOI 10.1177/0047287513496475 Typ Journal Article Autor Dolnicar S Journal Journal of Travel Research Seiten 296-306 Link Publikation -
2013
Titel On conjugate families and Jeffreys priors for von Mises–Fisher distributions DOI 10.1016/j.jspi.2012.11.003 Typ Journal Article Autor Hornik K Journal Journal of Statistical Planning and Inference Seiten 992-999 Link Publikation -
2013
Titel Amos-type bounds for modified Bessel function ratios DOI 10.1016/j.jmaa.2013.05.070 Typ Journal Article Autor Hornik K Journal Journal of Mathematical Analysis and Applications Seiten 91-101 Link Publikation -
2013
Titel On maximum likelihood estimation of the concentration parameter of von Mises–Fisher distributions DOI 10.1007/s00180-013-0471-0 Typ Journal Article Autor Hornik K Journal Computational Statistics Seiten 945-957 Link Publikation -
2014
Titel movMF : An R Package for Fitting Mixtures of von Mises-Fisher Distributions DOI 10.18637/jss.v058.i10 Typ Journal Article Autor Hornik K Journal Journal of Statistical Software Link Publikation -
2011
Titel Modelling time course gene expression data with finite mixtures of linear additive models DOI 10.1093/bioinformatics/btr653 Typ Journal Article Autor Grün B Journal Bioinformatics Seiten 222-228 Link Publikation
-
2016
Link
Titel Identifying Mixtures of Mixtures Using Bayesian Estimation DOI 10.6084/m9.figshare.3439301 Typ Database/Collection of data Öffentlich zugänglich Link Link