|
GOR 2001 Homepage
Contributions
article-info
Indices
Management - Staff only
|
GOR 2001 - content
This is the http://kiwi.uni-psych.gwdg.de/congress/gor-2001/contrib/contrib/silberer-guenter/contrib/hemsing-werner/hemsing-werner Document.
Main Author: Hemsing, Werner
Co-Authors:
;
Institution: Globalpark GmbH, Hürth
Contribution Title: Methodentest unter Einsatz von Macromedia-FLASH-Technologie.
Authors Email: hemsing@globalpark.de
URLs:
http://www.globalpark.de
Abstract
German (version: 25/06/2002 - 07:47, size: 1305)
German: Im Rahmen eines Online-Methodenexperiments wurde eine Item-Bewertungsskala variiert.
Den Umfrageteilnehmern wurde die Bewertungsskala zum einen als fünfstufige HTML-Fragebogen-Skala und
zum anderen als stufenlose Flash-Variante präsentiert. Der Methodentest wurde als Web-Experiment realisiert,
wobei die Untersuchungsteilnehmer (N=523) randomisiert einer der beiden Bedingungen zugewiesen wurden.
Sofern Probanden der Flash-Version nicht über den benötigten PlugIn verfügten, bekamen diese automatisch die
HTML-Fassung des Fragebogens vorgelegt. Somit konnten soziodemographische Kennwerte und
Internetnutzungsstile der nicht Flash-Nutzer zu denen der Flash-Nutzer kontrastiert werden. Darüber hinaus
konnten Daten zur generellen Verbreitung von Macromedia Flash in Deutschland gewonnen werden.
Hintergrund dieser Studie war eine Positionierungsstudie verschiedener Online-Shopping-Portale.
Folgende Fragen sollen in unserem Vortrag beantwortet werden:
(1) Wird durch den Einsatz der Macromedia-FLASH-Technologie im Rahmen von Item-Bewertungsskalen eine höhere Datenqualität erzielt?
(2) Welchen Effekt hat die gesteigerte Attraktivität des Fragedesigns auf die Teilnahmebereitschaft und auf eventuelle
Befragungsabbrüche?
Article
(version: 25/06/2002 - 07:47, size: 17680)
Methodenvergleich unter Einsatz von Macromedia-FLASH-Technologie. Die Möglichkeit der Darstellung von Ratio-Skalen in Web-Befragungen
Globalpark GmbH
In der folgenden Studie geht es um den methodischen Vergleich zwischen
dem Einsatz konventioneller (fünfstufiger) HTML-Radiobuttonskalen
und einer kontinuierlichen Flash-Skala. Der Flash-Skala liegt eine
Ratio-Skala mit 100 Werten zu Grunde.
Drei zentrale Fragestellungen stehen im Mittelpunkt des Methodentests:
- Wie hoch ist der Anteil der Personen, die die Möglichkeiten zur Darstellung
der Flash-Technologie haben und unterscheidet sich diese Gruppe systematisch
von der Gruppe, die keinen flash-fähigen Browser zur Verfügung haben?
- Welchen Effekt hat der Einsatz von Flash auf die Befragungsabbrüche?
- Wird durch den Einsatz der Flash-Skalen die Datenqualität erhöht?
2.1 Fragebogenaufbau
Insgesamt 1014 Teilnehmer eines Online-Panels wurden per E-Mail zu einer Umfrage zur Bewertung vier verschiedener Shopping-Portale eingeladen. Die Auswahl erfolgte
an Hand eines geschichten Zufallsverfahrens. Jeweils die Hälfte der
Befragten sollten einen reinen HTML-Fragebogen beantworten, die andere
Hälfte entsprechend einen Flash-Fragebogen. Von den 1014 Personen
begannen 681 Personen die Umfrage, von denen 73 Personen diese nicht
beendet haben.
Bei der Gruppe, die der Flash-Umfragen zugewiesen werden sollte, wurde
automatisch überprüft, ob das entsprechende Macromedia-Plugin zur
Darstellung von Flash-Elementen installiert war. Falls nicht, so wurden
die Befragten zu einer HTML-Version des Fragebogens weitergeleitet,
die identisch mit dem Fragebogen war, die der HTML-Stichproben zugewiesen
wurde.
Nach diesen vier Einzelbewertung wurden die Shops direkt miteinander
verglichen und bewertet. Zu diesem Zweck sollten alle vier Shops bezüglich
eines Items bewertet werden. In diesem Gesamtvergleich wurde ein Item
pro Seite in einer Matrixfrage präsentiert.
Die erste Art der Bewertung der einzelnen Shops wird im folgenden
Einzelbewertung genannt.
Die zweite Art der Bewertung wird im folgenden Gesamtvergleich
genannt.
Die Unterschiede zwischen dem HTML- und dem Flash-Fragebogen bestanden
in der Darstellung der Skalen. Während in der HTML-Version im Gesamtvergleich
und der Einzelbewertung eine gleichbleibende fünfstufige Skala verwandt
wurde, sollten beim Flash-Fragebogen zusätzlich zwei unterschiedliche Skalen
benutzt werden.
Beim Einzelvergleich der Flash-Skala konnte der Befragte innerhalb
einer eingezeichneten Linie durch anklicken eine Position "ankreuzen. Die relative Bewertung der Shops im Gesamtvergleich wurde mittels
einer Skala bewertet, bei der die Logi der Shops auf einer Skala verschoben
werden konnten.
Um möglichst exakt gleiche Bedingungen für beide Versuchsgruppen
zu wahren, wurde auf eine Erläuterung der Skalen und einer Ausfüllhilfe
verzichtet. Lediglich der rechte Extrempunkt war mit einem - Zeichen
gekennzeichnet, wo hingegen der linke Extremwert analog mit einem
+ Zeichen gekennzeichnet wurde.
2.2 Abbruch- und Ausschöpfungsquote
Die Ausschöpfungsquote ist für Online-Befragungen akzeptabel. Die Ausschöpfungsquoten sind in der HTML-Stichprobe durchweg höher. Da jedoch die Abbruchquote
annähernd konstant ist, handelt es sich nicht um ein methodisches
Artefakt, sondern vielmehr um stichprobenneutrale Ausfälle.
Die Abbruchquote ist mit 10,4% in der Flash-Version zu 11,0% in der
HTML-Stichprobe nahezu identisch. Die Stichproben unterscheiden sich
nicht signifikant in den Abbrüchen voneinander. Die geringe Absolutanzahl
der Abbrüche spricht für die hohe Qualität der Fragebogenkonzeption.
Auf Grund der geringen Abbrecherzahl wird auf eine weitere Analyse
z.B. der Korrelation mit der Zugangsgeschwindigkeit als irrelevant
eingestuft.
Der Einsatz von Flash hat keinen negativen Einfluß auf die Befragungsabbrüche.
Vorraussetzung dafür ist jedoch die Bereitstellung eines alternativen
HTML-Fragebogens. Wird dieser nicht angeboten, dürfte die Abbruchquote
der Personen, denen das Plugin nicht zur Verfügung steht, steigen.
Im Folgenden soll geprüft werden, ob dadurch systematische Verzerrungen
auftreten können.
In diesem Kapitel werden die Nutzung des Internets und die zentralen
soziodemographischen Variablen zwischen den Personen, die Flash nutzen
können und denjenigen, deren Webbrowser nur in der Lage ist, pures
HTML anzuzeigen, beschrieben.
3.1 Soziodemographische Unterschiede
252 der 307 Befragten der Flash-Befragung (82%), die an der Umfrage teilgenommen haben,
konnten bereits zum Zeitpunkt der Umfrage Flash-Elemente mit ihrem
Browser darstellen. Allerdings besteht ein Unterschied zwischen den
Geschlechtern. Während 88,5% der Männer auf ihrem Rechner das Flash-Plugin
installiert hatten, war dies "nur" bei 73% der Frauen der
Fall. Dieser Unterschied ist auf dem 99,9% Niveau hochsignifikant.
Die Altersverteilung ist anders als erwartet. Im Durchschnitt sind
die Flash-Nutzer etwas älter. Sieht man sich die Möglichkeit des Einsatzes
der Flashtechnologie im Altersverlauf an, so stellt sich heraus, daß der Verlauf bis zu etwa einem Alter
von 40 Jahren nahezu linear ansteigt. Der Altersverlauf der Befragten,
die ausschließlich HTML nutzen können, steigt hingegen treppenförmig
an und bleibt ab einem Alter von Mitte 30 nahezu konstant.
Sehr junge Menschen meiden somit den Einsatz des Macromedia Plugins,
wo hingegen Personen im mittleren Alter der Technologie aufgeschlossener
gegenüber stehen.
Der Bildungsvergleich zeigt, daß in den beiden Gruppen der Personen,
die einen niedrigen Bildungsabschluß haben und in der, die die (Fach-)hochschulreife
besitzen, der geringste Anteil an Flash-Nutzer ist. Dieses Ergebnis
korrespondiert mit dem Altersverlauf. Während jüngere Menschen zum
einen sich noch in der Schullaufbahn befinden, erreichen sie zum anderen
aber nach Abschluß der Schule ein höheres Bildungsniveau gegenüber
älteren Menschen. Der Zusammenhang zwischen Flash-Nutzung und Bildung
gilt jedoch ausschließlich für Frauen. Deutlich wird dies bei einem
hohen Bildungsabschluß: 65% der Flash-Nutzung bei den Frauen stehen
84% bei den Männern gegenüber. Der Bildungsunterschied ist nur für
die Gruppe der Frauen auf dem 95%-Niveau signifikant.
Weiterhin nutzen die Personen Flash, die länger im Internet sind.
Während unter den Kurznutzern (unter 5 h pro Tag) nur 69% ein Flash-Plugin
haben, steigt der Wert für die Gruppen mit einer Nutzungsdauer von
mehr als 6 h sprunghaft auf 82-89% an. Auch dieser Unterschied ist
auf dem 95%-Niveau signifikant. Zwischen Männern und Frauen besteht
kein wesentlicher Unterschied. Eine Erklärung für die längere Verweildauer
dürfte sein, daß durch intensiveres "surfen" die Wahrscheinlichkeit
größer wird, auf eine Seite zu stossen, die ein Flash-Plugin benötigt.
Das Einkaufsverhalten via Internet korrespondiert bei den Frauen mit der Flash-Nutzung. Während nur
1/3 der Frauen, die noch nie über das Internet eingekauft haben, das
Flash-Plugin installiert haben, sind dies bei den anderen Gruppen
zwischen 77% und 82%. Die Nutzungsquote von Flash bei Männern ist
annähernd konstant. Die Unterschiede sind bei den Frauen auf dem 99%-Niveau
hoch signifikant.
4.1 Transformation und Kategorisierung
Der methodische Vergleich kann nur erfolgen, wenn die selbe Skaleneinheit
zu Grunde liegt. Zwei unterschiedliche Konzepte werden im folgenden verwandt.
- Kategorisierung. Die ehemals 100-stufige Flash-Skala wird zur Vergleichbarkeit
in fünf Intervalle unterteilt.
- Transformation. Die fünfstufige HTML-Skala wird in eine pseudo 100-stufige
Skala transformiert.
Nach der Kategorisierung sind die Extremwerte der Flash-Gruppe nicht
bei allen Items stärker besetzt als bei der HTML-Gruppe. Dies widerspricht
den Erkenntnissen aus der Offline-Forschung. Nur die schlechteste
Bewertung - d.h. der Wert 1 - weist nahezu konstant bei allen
Fragen eine höhere Besetzung beim Flash-Fragebogens auf, als dies
beim HTML-Fragebogen der Fall ist. In allen anderen Kategorien sind
die Unterschiede uneinheitlich und folgen keinem bestimmten Schema.
Im Gesamtvergleich hingegen scheinen die Befragten des HTML-Fragebogens
häufiger die Extremwerte zu nutzen. Als Grund könnte man annehmen,
daß die relative Bewertung der einzelnen Shoppingportale verlangt,
daß zur Abstufung auf die Extremwerte zurückgegriffen werden muß.
Als Beispiel sei genannt, daß eine Person, die den Shop X gut bewertet
möchte und ihm somit z.B. den Wert vier gibt, bei der Bewertung von
Shop Y zwangsläufig den Wert fünf vergeben muß, wenn Y besser als
X eingeschätzt werden soll. Flash-Skalen profitieren hingegen von
einer feineren und differenzierteren Möglichkeit der Abstufung, die
durch die Kategorisierung wieder verloren geht.
4.2 Missing-Analyse
Die erstaunlich hohe Zahl der Mittelkategorie - und zwar nicht nur
des Wertes drei in der Kategorisierung, sondern des einzelnen Wertes
50 - im Gesamtvergleich und die hohe Anzahl der Missings deutet
darauf hin, daß die User den Fragebogen mißverstanden haben. Problemverschärfend
kommt hinzu, daß sich die Flash-Skalen zwischen der Einzelbewertung
und dem Gesamtvergleich unterscheiden. Im folgenden soll zunächst für den
Gesamtvergleich eine Missinganalyse vorgenommen werden.
Nur 45% der Flash-Nutzer (111) haben bei allen Logi gültige Werte.
Von diesen haben aber nur 88 Personen auch alle Logi verschoben. Prozentuiert
auf die Gesamtzahl der Flash-Nutzer sind dies nur 35,8%. Etwas mehr
als nur ein Drittel der Flash-Nutzer haben die Skala voll ausgenutzt.
Schwächt man den Anspruch etwas ab und zählt auch die Personen hinzu,
die einen oder mehrere Shops in der Mitte der Skala haben stehen lassen,
so erhöht sich der Prozentsatz auf 45,1%. 7,3% der Flash-Nutzer
haben die Seite ohne Anklicken auch nur eines Logos verlassen. Ein
weiterer großer Teil der Flash-Nutzer (37,8%) hat nur ein Logo angeklickt
bzw. auch bewegt. Von diesen haben wiederum nur 1/3 ein Logo angeklickt
und nicht bewegt.
Die Befragten hatten also bei dieser neuen Art von Skala große Schwierigkeiten
mit der Handhabung. Aus Gründen der Vergleichbarkeit der HTML- und
Flash-Skalen wurde auf eine Erläuterung der Skala im Rahmen dieses
Methodentestes verzichtet.
Erschwerend kommt hinzu, daß das Verschieben eine höhere Vertrautheit
des Nutzers mit der Maus erfordert.
Aufgrund der hohen Zahl von fehlenden Werten bzw. der schwer einzuschätzenden
Mittelkategorien beim Gesamtvergleich werden wir uns bei der weiteren
Analyse auf die Ergebnisse des Einzelvergleichs beschränken. Aber
auch hier müssen die Verteilung der fehlenden Werte genauer betrachtet
werden.
Die erste Frage in einer Itembatterie hat bei allen Portalen der Flash-Skala den geringsten Anteil fehlender
Werte von 7-8%. Ähnliche Ergebnisse weist die HTML-Skala auf.
Anders hingegen bei den folgenden Items. Während die HTML-Version
einen nahezu konstanten Missing-Anteil von 8,5% (7-10%) der Probanden
aufweist, liegt dieser bei der Flash-Skala zwischen 45 und 50%! Auch
bei dieser neuen Flash-Skala hatte rund die Hälfte der Befragten anscheinend
Schwierigkeiten.
Der hohe Ausfall in der Flash-Fragebogenversion kann auch hier darin
begründet liegen, daß es keine klaren Ausfüllanweisungen gab. Um die
Vergleichbarkeit zwischen den beiden Versionen zu gewährleisten, wurde
den Probanden nur der Fragetext und die Antwortskalen präsentiert.
Während die Befragten der HTML-Version scheinbar vertraut mit der
Beantwortung auf Basis von Radio-Buttons sind, so sind die Flash-Skalen
kein Standard und bedürfen der näheren Erläuterung. In Zukunft könnten
die Umfrageteilnehmer langsam mit konkreten Handlungsanweisungen an
die Flash-Skala heran geführt werden.
4.3 Mittelwert- und Streuungsvergleich
In der Analyse des Einzelvergleichs zwischen Flash- und HTML-Skalen
ergeben sich nur geringe Unterschiede beim Mittelwert. Zwar sind die
Mittelwerte bei Flash-Skalen etwas niedriger, jedoch sind nur vier
von 24 Unterschieden signifikant.
Auffallend sind die z.T. parallelen Verläufe der Flash- und HTML-
Mittelwertkurven bei den Shops 2-4 und z.T. auch bei
der Berurteilung von Shop 1. Es findet also eine annähernd gleiche
Einschätzung der vier Portale bei den Flash- und HTML-Skalennutzern
statt. Neben den bereits beschriebenen Useability-Problemen bei der
Handhabung der Flashskalen, ist dies eines der zentralen Ergebnisse
dieses Methodentests. Der Einsatz von kontinuierlichen Flash-Skalen
führt zu keinem wesentlich anderen Ergebnis im Vergleich zur herkömmlichen
- und von den Befragten kognitiv besser zu bewältigende - HTML-Skala.
In der Beurteilung des ersten Shops treten zwar die meisten Unterschiede
zwischen den Flash- und HTML-Skalen auf, diese Unterschiede sind jedoch
bei der Einschätzung der anderen Portale nicht zu finden und es ist
auch keine Systematik zu erkennen.
Die Streuung ist tendenziell
bei den Flash-Umfragen etwas größer, jedoch sind diese Unterschiede
äußerst klein und der Levene-Test auf Varianzengleichheit lieferte nur für ein Item eines Shops ein signifikantes Ergebnis.
Flash-Skalen sind allgemein dann sinnvoll einsetzbar,
wenn es um kontinuierliche Skalen geht. Besonders eignen sie sich
bei Fragen mit Gegensatzpaaren und -polen, wie von semantischen Differentialen
und + und - Polen, da sie die volle Bandbreite ausschöpfen können.
Dieser Methodentest
zeigt, daß bei den verwendeten kontinuierlichen Flash-Skalen keine wesentliche Verbesserung der Datenqualität gegenüber herkömmlichen fünfstufigen Skalen
erreicht werden konnte. Der weiteren Grundlagen- und Methodenforschung
bleibt vorbehalten, spezifischere Erkenntnisse über das Antwortverhalten
herauszufinden, wenn die Befragten nicht mit der neuen Technologie
alleine gelassen werden. Dort kann auch Szenarien erarbeitet werden,
welche Formen der Ausfüllanweisung zu bevorzugen sind.
Als Fazit läßt sich sagen, daß mit der Möglichkeit der Einbindung
einer Flash-Skala sich die Palette der Antwortskalen in der Online-Forschung
sinnvoll erhöhen kann. Layouteffekte, die sich durch den Browser,
das Betriebssystem und die Einstellung der Nutzer ergeben, werden
minimiert, da die Flash-Technologie verspricht, weitgehend unabhängig
von der Software der Computer die gleiche Ausgabe zu erzeugen. Die
Anzahl der Personen, die Flash nutzen können ist hoch, jedoch nicht
für alle Fälle ausreichend und hängt letztendlich von der untersuchten
Grundgesamtheit ab.
Der Informationsgewinn durch die differenzierte Skala kann durch weitere
Forschung in diesem Bereich verbessert werden. Dort kann auch bestimmt
werden, welche Form der Skala den größten Gewinn versprechen. Dieser
Methodentest legt nahe, daß insbesondere die Variante mit den verschiebbaren
Logi zum jetzigen Zeitpunkt nicht sinnvoll erscheint.
Zusammenfassend müssen folgende Punkte erfüllt sein, um einen erfolgversprechenden
Einsatz zu gewährleisten. In der Analyse dieser Punkte sollte auch
der Fokus weiterer Forschung liegen.
- Tatsächlich metrische Antwortmöglichkeiten (z.B. semantisches Differential,
Gegensatzpole).
- Kontrolle der Downloadzeit der Fragebogenseite.
- Verständlichkeit der Fragen, der Antworten und der Erläuterung dieser.
- Useability. Wird der Fragebogen bei möglichst vielen Nutzern mit unterschiedlichen
Verbindungsgeschwindigkeiten und Rechner überhaupt in einer vertretbaren
Form angezeigt.
- Beobachtung des Nutzungsanteils der Flash-Plugins in unabhängigen
Befragungen.
- Alternativfragebogen in HTML.
- Die interpretierten Skalenpunkte dürfen nicht zu weit gespannt sein.
Die Reliabilität kann nur gewährleistet werden, wenn es dem Befragten
möglich ist, bei der gleichen Einstellung auch wieder auf demselben Skalenpunkt
zu antworten.
- Der Einsatz von Hilfsmitteln zur Erläuterung des Umgangs mit den Flash-Skalen.
Nur reifliche Vorüberlegungen und Tests machen somit den Einsatz von
Flash-Antwort-Elementen möglich. Viele der aufgetretenen Probleme
lassen sich als "Kinderkrankheiten" eines neuen Typus von Antwort-Skalen
charakterisieren. Der umsichtige Gebrauch erweitert die Palette der
Skalen in der Online-Forschung um einen Bereich, der schwer bei schriftlichen
Offline-Umfragen und gar nicht bei Telefon-Studien eingesetzt werden
kann.
Der Einsatz von Flash bedeutet einen Schritt in die Richtung wirklicher
multimedialer Gestaltung von Fragebögen. Analog zu den ersten Versuchen
mit Telefoninterviews bedeutet dies, daß ein weites Untersuchungsfeld
für die Grundlagenforschung entsteht, welches erst im Laufe der Zeit
zu einem validen Meßinstrument reift.
Copyright
Werner Hemsing,
Holger Nowak
2001-05-11, Globalpark GmbH
|