GOR 2001 Homepage

Contributions

Abstracts
Articles

article-info

Indices
first-author-index
complete-author-index

Management - Staff only
Infos

GOR 2001 - content

This is the http://kiwi.uni-psych.gwdg.de/congress/gor-2001/contrib/hemsing-werner/hemsing-werner Document.

Main Author: Hemsing, Werner

Co-Authors: ;

Institution: Globalpark GmbH, Hürth

Contribution Title: Methodentest unter Einsatz von Macromedia-FLASH-Technologie.

Authors Email: hemsing@globalpark.de

URLs:
http://www.globalpark.de


Abstract German (version: 25/06/2002 - 07:47, size: 1305)
German: Im Rahmen eines Online-Methodenexperiments wurde eine Item-Bewertungsskala variiert. Den Umfrageteilnehmern wurde die Bewertungsskala zum einen als fünfstufige HTML-Fragebogen-Skala und zum anderen als stufenlose Flash-Variante präsentiert. Der Methodentest wurde als Web-Experiment realisiert, wobei die Untersuchungsteilnehmer (N=523) randomisiert einer der beiden Bedingungen zugewiesen wurden. Sofern Probanden der Flash-Version nicht über den benötigten PlugIn verfügten, bekamen diese automatisch die HTML-Fassung des Fragebogens vorgelegt. Somit konnten soziodemographische Kennwerte und Internetnutzungsstile der „nicht Flash-Nutzer“ zu denen der Flash-Nutzer kontrastiert werden. Darüber hinaus konnten Daten zur generellen Verbreitung von Macromedia Flash in Deutschland gewonnen werden. Hintergrund dieser Studie war eine Positionierungsstudie verschiedener Online-Shopping-Portale. Folgende Fragen sollen in unserem Vortrag beantwortet werden:
(1) Wird durch den Einsatz der Macromedia-FLASH-Technologie im Rahmen von Item-Bewertungsskalen eine höhere Datenqualität erzielt?
(2) Welchen Effekt hat die gesteigerte Attraktivität des Fragedesigns auf die Teilnahmebereitschaft und auf eventuelle Befragungsabbrüche?
Article (version: 25/06/2002 - 07:47, size: 17680)

Methodenvergleich unter Einsatz von Macromedia-FLASH-Technologie.
Die Möglichkeit der Darstellung von Ratio-Skalen in Web-Befragungen

Globalpark GmbH

1. Einleitung/Fragestellung

In der folgenden Studie geht es um den methodischen Vergleich zwischen dem Einsatz konventioneller (fünfstufiger) HTML-Radiobuttonskalen und einer kontinuierlichen Flash-Skala. Der Flash-Skala liegt eine Ratio-Skala mit 100 Werten zu Grunde.

Drei zentrale Fragestellungen stehen im Mittelpunkt des Methodentests:

  • Wie hoch ist der Anteil der Personen, die die Möglichkeiten zur Darstellung der Flash-Technologie haben und unterscheidet sich diese Gruppe systematisch von der Gruppe, die keinen flash-fähigen Browser zur Verfügung haben?
  • Welchen Effekt hat der Einsatz von Flash auf die Befragungsabbrüche?
  • Wird durch den Einsatz der Flash-Skalen die Datenqualität erhöht?

2. Untersuchungsdesign

2.1 Fragebogenaufbau

Insgesamt 1014 Teilnehmer eines Online-Panels wurden per E-Mail zu einer Umfrage zur Bewertung vier verschiedener Shopping-Portale eingeladen. Die Auswahl erfolgte an Hand eines geschichten Zufallsverfahrens. Jeweils die Hälfte der Befragten sollten einen reinen HTML-Fragebogen beantworten, die andere Hälfte entsprechend einen Flash-Fragebogen. Von den 1014 Personen begannen 681 Personen die Umfrage, von denen 73 Personen diese nicht beendet haben.

Bei der Gruppe, die der Flash-Umfragen zugewiesen werden sollte, wurde automatisch überprüft, ob das entsprechende Macromedia-Plugin zur Darstellung von Flash-Elementen installiert war. Falls nicht, so wurden die Befragten zu einer HTML-Version des Fragebogens weitergeleitet, die identisch mit dem Fragebogen war, die der HTML-Stichproben zugewiesen wurde.

Nach diesen vier Einzelbewertung wurden die Shops direkt miteinander verglichen und bewertet. Zu diesem Zweck sollten alle vier Shops bezüglich eines Items bewertet werden. In diesem Gesamtvergleich wurde ein Item pro Seite in einer Matrixfrage präsentiert.

Die erste Art der Bewertung der einzelnen Shops wird im folgenden Einzelbewertung genannt.
Die zweite Art der Bewertung wird im folgenden Gesamtvergleich genannt.

Die Unterschiede zwischen dem HTML- und dem Flash-Fragebogen bestanden in der Darstellung der Skalen. Während in der HTML-Version im Gesamtvergleich und der Einzelbewertung eine gleichbleibende fünfstufige Skala verwandt wurde, sollten beim Flash-Fragebogen zusätzlich zwei unterschiedliche Skalen benutzt werden.

Beim Einzelvergleich der Flash-Skala konnte der Befragte innerhalb einer eingezeichneten Linie durch anklicken eine Position "ankreuzen. Die relative Bewertung der Shops im Gesamtvergleich wurde mittels einer Skala bewertet, bei der die Logi der Shops auf einer Skala verschoben werden konnten.

Um möglichst exakt gleiche Bedingungen für beide Versuchsgruppen zu wahren, wurde auf eine Erläuterung der Skalen und einer Ausfüllhilfe verzichtet. Lediglich der rechte Extrempunkt war mit einem - Zeichen gekennzeichnet, wo hingegen der linke Extremwert analog mit einem + Zeichen gekennzeichnet wurde.

2.2 Abbruch- und Ausschöpfungsquote

Die Ausschöpfungsquote ist für Online-Befragungen akzeptabel. Die Ausschöpfungsquoten sind in der HTML-Stichprobe durchweg höher. Da jedoch die Abbruchquote annähernd konstant ist, handelt es sich nicht um ein methodisches Artefakt, sondern vielmehr um stichprobenneutrale Ausfälle.

Die Abbruchquote ist mit 10,4% in der Flash-Version zu 11,0% in der HTML-Stichprobe nahezu identisch. Die Stichproben unterscheiden sich nicht signifikant in den Abbrüchen voneinander. Die geringe Absolutanzahl der Abbrüche spricht für die hohe Qualität der Fragebogenkonzeption. Auf Grund der geringen Abbrecherzahl wird auf eine weitere Analyse z.B. der Korrelation mit der Zugangsgeschwindigkeit als irrelevant eingestuft.

Der Einsatz von Flash hat keinen negativen Einfluß auf die Befragungsabbrüche. Vorraussetzung dafür ist jedoch die Bereitstellung eines alternativen HTML-Fragebogens. Wird dieser nicht angeboten, dürfte die Abbruchquote der Personen, denen das Plugin nicht zur Verfügung steht, steigen. Im Folgenden soll geprüft werden, ob dadurch systematische Verzerrungen auftreten können.

3. Flash- vs. HTML-Nutzer

In diesem Kapitel werden die Nutzung des Internets und die zentralen soziodemographischen Variablen zwischen den Personen, die Flash nutzen können und denjenigen, deren Webbrowser nur in der Lage ist, pures HTML anzuzeigen, beschrieben.

3.1 Soziodemographische Unterschiede

252 der 307 Befragten der Flash-Befragung (82%), die an der Umfrage teilgenommen haben, konnten bereits zum Zeitpunkt der Umfrage Flash-Elemente mit ihrem Browser darstellen. Allerdings besteht ein Unterschied zwischen den Geschlechtern. Während 88,5% der Männer auf ihrem Rechner das Flash-Plugin installiert hatten, war dies "nur" bei 73% der Frauen der Fall. Dieser Unterschied ist auf dem 99,9% Niveau hochsignifikant.

Die Altersverteilung ist anders als erwartet. Im Durchschnitt sind die Flash-Nutzer etwas älter. Sieht man sich die Möglichkeit des Einsatzes der Flashtechnologie im Altersverlauf an, so stellt sich heraus, daß der Verlauf bis zu etwa einem Alter von 40 Jahren nahezu linear ansteigt. Der Altersverlauf der Befragten, die ausschließlich HTML nutzen können, steigt hingegen treppenförmig an und bleibt ab einem Alter von Mitte 30 nahezu konstant. Sehr junge Menschen meiden somit den Einsatz des Macromedia Plugins, wo hingegen Personen im mittleren Alter der Technologie aufgeschlossener gegenüber stehen.

Der Bildungsvergleich zeigt, daß in den beiden Gruppen der Personen, die einen niedrigen Bildungsabschluß haben und in der, die die (Fach-)hochschulreife besitzen, der geringste Anteil an Flash-Nutzer ist. Dieses Ergebnis korrespondiert mit dem Altersverlauf. Während jüngere Menschen zum einen sich noch in der Schullaufbahn befinden, erreichen sie zum anderen aber nach Abschluß der Schule ein höheres Bildungsniveau gegenüber älteren Menschen. Der Zusammenhang zwischen Flash-Nutzung und Bildung gilt jedoch ausschließlich für Frauen. Deutlich wird dies bei einem hohen Bildungsabschluß: 65% der Flash-Nutzung bei den Frauen stehen 84% bei den Männern gegenüber. Der Bildungsunterschied ist nur für die Gruppe der Frauen auf dem 95%-Niveau signifikant.

Weiterhin nutzen die Personen Flash, die länger im Internet sind. Während unter den Kurznutzern (unter 5 h pro Tag) nur 69% ein Flash-Plugin haben, steigt der Wert für die Gruppen mit einer Nutzungsdauer von mehr als 6 h sprunghaft auf 82-89% an. Auch dieser Unterschied ist auf dem 95%-Niveau signifikant. Zwischen Männern und Frauen besteht kein wesentlicher Unterschied. Eine Erklärung für die längere Verweildauer dürfte sein, daß durch intensiveres "surfen" die Wahrscheinlichkeit größer wird, auf eine Seite zu stossen, die ein Flash-Plugin benötigt.

Das Einkaufsverhalten via Internet korrespondiert bei den Frauen mit der Flash-Nutzung. Während nur 1/3 der Frauen, die noch nie über das Internet eingekauft haben, das Flash-Plugin installiert haben, sind dies bei den anderen Gruppen zwischen 77% und 82%. Die Nutzungsquote von Flash bei Männern ist annähernd konstant. Die Unterschiede sind bei den Frauen auf dem 99%-Niveau hoch signifikant.

4. Methodischer Vergleich Flash-Skala

4.1 Transformation und Kategorisierung

Der methodische Vergleich kann nur erfolgen, wenn die selbe Skaleneinheit zu Grunde liegt. Zwei unterschiedliche Konzepte werden im folgenden verwandt.

  1. Kategorisierung. Die ehemals 100-stufige Flash-Skala wird zur Vergleichbarkeit in fünf Intervalle unterteilt.
  2. Transformation. Die fünfstufige HTML-Skala wird in eine pseudo 100-stufige Skala transformiert.

Nach der Kategorisierung sind die Extremwerte der Flash-Gruppe nicht bei allen Items stärker besetzt als bei der HTML-Gruppe. Dies widerspricht den Erkenntnissen aus der Offline-Forschung. Nur die schlechteste Bewertung - d.h. der Wert 1 - weist nahezu konstant bei allen Fragen eine höhere Besetzung beim Flash-Fragebogens auf, als dies beim HTML-Fragebogen der Fall ist. In allen anderen Kategorien sind die Unterschiede uneinheitlich und folgen keinem bestimmten Schema.

Im Gesamtvergleich hingegen scheinen die Befragten des HTML-Fragebogens häufiger die Extremwerte zu nutzen. Als Grund könnte man annehmen, daß die relative Bewertung der einzelnen Shoppingportale verlangt, daß zur Abstufung auf die Extremwerte zurückgegriffen werden muß. Als Beispiel sei genannt, daß eine Person, die den Shop X gut bewertet möchte und ihm somit z.B. den Wert vier gibt, bei der Bewertung von Shop Y zwangsläufig den Wert fünf vergeben muß, wenn Y besser als X eingeschätzt werden soll. Flash-Skalen profitieren hingegen von einer feineren und differenzierteren Möglichkeit der Abstufung, die durch die Kategorisierung wieder verloren geht.

4.2 Missing-Analyse

Die erstaunlich hohe Zahl der Mittelkategorie - und zwar nicht nur des Wertes drei in der Kategorisierung, sondern des einzelnen Wertes 50 - im Gesamtvergleich und die hohe Anzahl der Missings deutet darauf hin, daß die User den Fragebogen mißverstanden haben. Problemverschärfend kommt hinzu, daß sich die Flash-Skalen zwischen der Einzelbewertung und dem Gesamtvergleich unterscheiden. Im folgenden soll zunächst für den Gesamtvergleich eine Missinganalyse vorgenommen werden.

Nur 45% der Flash-Nutzer (111) haben bei allen Logi gültige Werte. Von diesen haben aber nur 88 Personen auch alle Logi verschoben. Prozentuiert auf die Gesamtzahl der Flash-Nutzer sind dies nur 35,8%. Etwas mehr als nur ein Drittel der Flash-Nutzer haben die Skala voll ausgenutzt. Schwächt man den Anspruch etwas ab und zählt auch die Personen hinzu, die einen oder mehrere Shops in der Mitte der Skala haben stehen lassen, so erhöht sich der Prozentsatz auf 45,1%. 7,3% der Flash-Nutzer haben die Seite ohne Anklicken auch nur eines Logos verlassen. Ein weiterer großer Teil der Flash-Nutzer (37,8%) hat nur ein Logo angeklickt bzw. auch bewegt. Von diesen haben wiederum nur 1/3 ein Logo angeklickt und nicht bewegt.

Die Befragten hatten also bei dieser neuen Art von Skala große Schwierigkeiten mit der Handhabung. Aus Gründen der Vergleichbarkeit der HTML- und Flash-Skalen wurde auf eine Erläuterung der Skala im Rahmen dieses Methodentestes verzichtet.

Erschwerend kommt hinzu, daß das Verschieben eine höhere Vertrautheit des Nutzers mit der Maus erfordert.

Aufgrund der hohen Zahl von fehlenden Werten bzw. der schwer einzuschätzenden Mittelkategorien beim Gesamtvergleich werden wir uns bei der weiteren Analyse auf die Ergebnisse des Einzelvergleichs beschränken. Aber auch hier müssen die Verteilung der fehlenden Werte genauer betrachtet werden.

Die erste Frage in einer Itembatterie hat bei allen Portalen der Flash-Skala den geringsten Anteil fehlender Werte von 7-8%. Ähnliche Ergebnisse weist die HTML-Skala auf.

Anders hingegen bei den folgenden Items. Während die HTML-Version einen nahezu konstanten Missing-Anteil von 8,5% (7-10%) der Probanden aufweist, liegt dieser bei der Flash-Skala zwischen 45 und 50%! Auch bei dieser neuen Flash-Skala hatte rund die Hälfte der Befragten anscheinend Schwierigkeiten.

Der hohe Ausfall in der Flash-Fragebogenversion kann auch hier darin begründet liegen, daß es keine klaren Ausfüllanweisungen gab. Um die Vergleichbarkeit zwischen den beiden Versionen zu gewährleisten, wurde den Probanden nur der Fragetext und die Antwortskalen präsentiert. Während die Befragten der HTML-Version scheinbar vertraut mit der Beantwortung auf Basis von Radio-Buttons sind, so sind die Flash-Skalen kein Standard und bedürfen der näheren Erläuterung. In Zukunft könnten die Umfrageteilnehmer langsam mit konkreten Handlungsanweisungen an die Flash-Skala heran geführt werden.

4.3 Mittelwert- und Streuungsvergleich

In der Analyse des Einzelvergleichs zwischen Flash- und HTML-Skalen ergeben sich nur geringe Unterschiede beim Mittelwert. Zwar sind die Mittelwerte bei Flash-Skalen etwas niedriger, jedoch sind nur vier von 24 Unterschieden signifikant.

Auffallend sind die z.T. parallelen Verläufe der Flash- und HTML- Mittelwertkurven bei den Shops 2-4 und z.T. auch bei der Berurteilung von Shop 1. Es findet also eine annähernd gleiche Einschätzung der vier Portale bei den Flash- und HTML-Skalennutzern statt. Neben den bereits beschriebenen Useability-Problemen bei der Handhabung der Flashskalen, ist dies eines der zentralen Ergebnisse dieses Methodentests. Der Einsatz von kontinuierlichen Flash-Skalen führt zu keinem wesentlich anderen Ergebnis im Vergleich zur herkömmlichen - und von den Befragten kognitiv besser zu bewältigende - HTML-Skala.

In der Beurteilung des ersten Shops treten zwar die meisten Unterschiede zwischen den Flash- und HTML-Skalen auf, diese Unterschiede sind jedoch bei der Einschätzung der anderen Portale nicht zu finden und es ist auch keine Systematik zu erkennen.

Die Streuung ist tendenziell bei den Flash-Umfragen etwas größer, jedoch sind diese Unterschiede äußerst klein und der Levene-Test auf Varianzengleichheit lieferte nur für ein Item eines Shops ein signifikantes Ergebnis.

5. Fazit

Flash-Skalen sind allgemein dann sinnvoll einsetzbar, wenn es um kontinuierliche Skalen geht. Besonders eignen sie sich bei Fragen mit Gegensatzpaaren und -polen, wie von semantischen Differentialen und + und - Polen, da sie die volle Bandbreite ausschöpfen können.
Dieser Methodentest zeigt, daß bei den verwendeten kontinuierlichen Flash-Skalen keine wesentliche Verbesserung der Datenqualität gegenüber herkömmlichen fünfstufigen Skalen erreicht werden konnte. Der weiteren Grundlagen- und Methodenforschung bleibt vorbehalten, spezifischere Erkenntnisse über das Antwortverhalten herauszufinden, wenn die Befragten nicht mit der neuen Technologie alleine gelassen werden. Dort kann auch Szenarien erarbeitet werden, welche Formen der Ausfüllanweisung zu bevorzugen sind.

Als Fazit läßt sich sagen, daß mit der Möglichkeit der Einbindung einer Flash-Skala sich die Palette der Antwortskalen in der Online-Forschung sinnvoll erhöhen kann. Layouteffekte, die sich durch den Browser, das Betriebssystem und die Einstellung der Nutzer ergeben, werden minimiert, da die Flash-Technologie verspricht, weitgehend unabhängig von der Software der Computer die gleiche Ausgabe zu erzeugen. Die Anzahl der Personen, die Flash nutzen können ist hoch, jedoch nicht für alle Fälle ausreichend und hängt letztendlich von der untersuchten Grundgesamtheit ab.

Der Informationsgewinn durch die differenzierte Skala kann durch weitere Forschung in diesem Bereich verbessert werden. Dort kann auch bestimmt werden, welche Form der Skala den größten Gewinn versprechen. Dieser Methodentest legt nahe, daß insbesondere die Variante mit den verschiebbaren Logi zum jetzigen Zeitpunkt nicht sinnvoll erscheint.

Zusammenfassend müssen folgende Punkte erfüllt sein, um einen erfolgversprechenden Einsatz zu gewährleisten. In der Analyse dieser Punkte sollte auch der Fokus weiterer Forschung liegen.

  • Tatsächlich metrische Antwortmöglichkeiten (z.B. semantisches Differential, Gegensatzpole).
  • Kontrolle der Downloadzeit der Fragebogenseite.
  • Verständlichkeit der Fragen, der Antworten und der Erläuterung dieser.
  • Useability. Wird der Fragebogen bei möglichst vielen Nutzern mit unterschiedlichen Verbindungsgeschwindigkeiten und Rechner überhaupt in einer vertretbaren Form angezeigt.
  • Beobachtung des Nutzungsanteils der Flash-Plugins in unabhängigen Befragungen.
  • Alternativfragebogen in HTML.
  • Die interpretierten Skalenpunkte dürfen nicht zu weit gespannt sein. Die Reliabilität kann nur gewährleistet werden, wenn es dem Befragten möglich ist, bei der gleichen Einstellung auch wieder auf demselben Skalenpunkt zu antworten.
  • Der Einsatz von Hilfsmitteln zur Erläuterung des Umgangs mit den Flash-Skalen.
Nur reifliche Vorüberlegungen und Tests machen somit den Einsatz von Flash-Antwort-Elementen möglich. Viele der aufgetretenen Probleme lassen sich als "Kinderkrankheiten" eines neuen Typus von Antwort-Skalen charakterisieren. Der umsichtige Gebrauch erweitert die Palette der Skalen in der Online-Forschung um einen Bereich, der schwer bei schriftlichen Offline-Umfragen und gar nicht bei Telefon-Studien eingesetzt werden kann.

Der Einsatz von Flash bedeutet einen Schritt in die Richtung wirklicher multimedialer Gestaltung von Fragebögen. Analog zu den ersten Versuchen mit Telefoninterviews bedeutet dies, daß ein weites Untersuchungsfeld für die Grundlagenforschung entsteht, welches erst im Laufe der Zeit zu einem validen Meßinstrument reift.

Copyright

Werner Hemsing, Holger Nowak

2001-05-11, Globalpark GmbH