Jodel fristet jetzt schon seit geraumer Zeit sein Dasein auf meinem Handy. Die Plattform ist schnell erklärt: Ähnlich wie bei Twitter kann man per Jodel kurze Nachrichten und Bilder versenden, die dann von anderen bewertet (Upvote/Downvote) und kommentiert werden können. Die Summe aus Upvotes und Downvotes ergibt das Karma eines Posts - die User (viele User) versuchen möglichst viel Karma zu sammeln. Im Folgenden werde ich die Summe aus Upvotes und Downvotes aber schlicht als Upvotes bezeichnen.

Der Trick an Jodel: Die Nachrichten werden anonym (zumindest für andere Nutzer/innen) versendet und sind ortsgebunden. Als Nutzer/in sehe ich nur Jodel aus meiner direkten Umgebung. Nachrichten mit mehr als fünf Downvotes werden automatisch gelöscht, Moderator/innen sorgen dafür, dass sich die Nachrichten und Bilder innerhalb bestimmter Grenzen bewegen.

Neben solider (meistens) Unterhaltung hilft Jodel aber auch dabei, anonym über heikle Themen zu sprechen und etwas über die eigene Umgebung zu erfahren - angefangen bei Kontrolleur/innen in Straßenbahnen über Beziehungsprobleme bis hin zu kulinarischen Insidertipps wird auf Jodel alles diskutiert.

Irgendwann entstand der Gedanke, sich diese Nachrichten einmal etwas genauer anzusehen. Genau das soll in dieser kleinen Reihe passieren - Stück für Stück und sicherlich abhängig von meiner Motivation. Um das Ganze etwas spannender zu gestalten, stelle ich mir die Frage, was den “perfekten Jodel”, natürlich gemessen in Upvotes, eigentlich ausmacht.

Ein kleiner Disclaimer: In diesen Artikel soll es in erster Linie um den Spaß an den Daten gehen, nicht darum, den Anspruch einer wissenschaftlichen Studie zu erreichen.

Daten

Als Datenbasis dienen 2242 Top-Jodel aus 20 deutschen Städten die zwischen dem 13.07.2016 und dem 06.08.2016 erhoben wurden. Da Jodel keine eigene API zur Verfügung stellt, stammen die Daten von jodelstats.com, die eine eigene API gebastelt haben.

Der Nachteil an dieser Methode liegt darin, dass ausschließlich “gute” Jodel im Korpus landen. Außerdem ist die Anzahl der Upvotes natürlich nur eine Momentaufnahme, die sich potenziell noch verändern hätte können.

Aus praktischen Gründen wurden für das Korpus (46.752 Token) nur textbasierte Jodel gesammelt. Die Jodel im Korpus sind Top-Jodel, also Nachrichten, die am gegebenen Tag besonders viele Upvotes erhalten haben.

Erste Ergebnisse

Upvotes

Ein durchschnittlicher Top-Jodel hat 178 Upvotes. Die Zahl der Upvotes hängt, unter anderem, vom Wochentag des Jodels ab. Generell lässt sich sagen, dass die durchschnittliche Zahl an Upvotes über die Woche hinweg abnimmt.

Tag Mittelwert (Upvotes) N σ
Sonntag 184,24 270 73,603
Montag 189,23 290 83,041
Dienstag 184,71 325 77,104
Mittwoch 179,61 358 75,346
Donnerstag 174,82 292 72,795
Freitag 171,01 311 62,645
Samstag 171,41 376 68,526

Interessant ist die Tatsache, dass am Wochenende weniger Top-Jodel verzeichnet worden sind. Eine Erklärung für die Abweichung im Mittelwert könnte die größere Verteilung von Upvotes auf mehr unterschiedliche Jodel unter der Woche sein. Das würde dann wieder implizieren, dass Jodel-User pro Tag nur eine bestimmte Zahl an Jodel bewerten.

Interessanterweise gibt es außerdem einen Zusammenhang zwischen der Stadt und der Zahl der Upvotes für Top-Jodel.

Stadt Mittelwert (Upvotes) N σ
Münster 258,21 169 93,317
Aachen 255,78 175 82,464
Frankfurt am Main 236,00 81 69,811
Karlsruhe 217,26 137 57,592
Tübingen 189,80 96 50,915
Heidelberg 188,50 152 50,315
Köln 188,03 198 70,282
Total 178,87 2242 73,540
Konstanz 166,22 72 38,815
Düsseldorf 163,59 135 52,579
Hannover 161,98 185 55,473
Dresden 159,00 2 36,770
Hamburg 154,14 37 35,432
Mannheim 152,94 103 45,086
Stuttgart 152,81 177 50,839
Leipzig 151,60 104 38,995
Berlin 139,86 57 44,647
Dortmund 131,03 188 42,263
Essen 110,79 148 37,914
München 79,85 20 15,139
Bremen 73,67 6 17,037

Top-Jodel in Münster haben im Mittel 258 Upvotes, wohingegen Top-Jodel in Essen nur 110 Upvotes erhalten. Logischerweise hängt die Zahl der Upvotes (und Downvotes) mit der Nutzerzahl in der Region zusammen.

Der Upvote-Mittelwert der Städte mit mindestens 100 Top-Jodel korreliert sowohl mit der Einwohnerzahl (r = -.427) als auch der Zahl an Studierenden (r = .338). Während die Daten zur Einwohnerzahl relativ präzise sind (Quelle: WolframAlpha), ist es mit der Studierendenzahl komplizierter: In vielen Städten existieren mehrere Hochschulen und die Studierendenzahlen sind nicht immer öffentlich. Für die Betrachtung wurden deshalb jeweils die aktuellsten Studierendenzahlen der größten Hochschule/n veranschlagt.

Scatterplots für Einwohner und Studierendenzahl

Die Statistik zeigt relativ deutlich, dass Jodel seine Zielgruppe - Studierende - trifft. In Städten mit höheren Studierendenzahlen ist die Menge der Upvotes (die als indirektes Maß für die Userzahl genutzt werden können) zum Teil deutlich höher.

Länge

Im Mittel sind Top-Jodel 21 Wörter (einfache Tokenisierung durch Trennzeichen) beziehungsweise 134 Zeichen lang. Die durchschnittliche Wortlänge beträgt 5,17 Zeichen und ist damit im Vergleich zum Dudenkorpus (5,7) leicht unterdurchschnittlich.

Je länger ein Jodel, desto größer die Zahl der Upvotes (r = .052).

Der durchschnittliche Top-Jodel hat 0.6 Hashtags. Je mehr Hastags ein Jodel hat, desto niedriger die Upvotes (r = -.079).

Semantik

Eine tiefere semantische Analyse soll eigentlich Teil eines späteren Beitrags werden, dennoch zumindest ein paar Einblicke:

Frequenzanalyse und Hashtags

Einen ersten Eindruck gewinnt man häufig am besten, indem man einen Blick auf die Frequenzen verschiedener Begriffe wirft.

Wordcloud aus 2242 Top-Jodel

Besonders ins Auge fallen Begriffspaare wie Freundin(139) & Freund(79), Mutter(58) &Vater(24), Mädchen(51) & Junge(20) oder Frau/en(109) & Mann/Männer(56). Auffällig ist hier das stetig häufigere Auftreten der weiblichen Form.

Im großen und ganzen, basierend auf der Frequenzanalyse, sind die Themen Familie und Beziehung besonders stark unter den Top-Jodel vertreten.

Eine oberflächliche Analyse der Hashtags erhärtet diesen Eindruck. Zu den häufigsten Hashtags im Sample gehörten #FLIRTENKANNICH (21) und #FOREVERALONE (5).

Wordcloud Hashtags aus 2242 Top-Jodel

Interessanterweise ist die Zahl der wiederkehrenden Hashtags im Sample jedoch relativ klein. Nur vier Hashtags sind häufiger als 10 Mal im Datensatz. Dies lässt sich vermutlich dadurch erklären, dass Hashtags in Jodel keine technische, sondern nur eine Zeichenfunktion erfüllen. Daher besteht kein Grund, standardisierte Hashtags zu etablieren - sie dienen schlicht als Stilmittel.

N-Grams

Neben dieser reinen Frequenzanalyse bietet es sich schlussendlich an, einen Blick auf N-Grams und Kollokationen zu werfen. Mithilfe von Python, NLTK und dem pattern.de Paket habe ich die Bi-/Trigramme ermittelt, die häufiger als fünf mal im Korpus erscheinen und die höchste PMI (Pointwise Mutual Information) aufweisen.

import nltk
from nltk.collocations import *
from pattern.de import parse, split

bigram_measures = nltk.collocations.BigramAssocMeasures()
trigram_measures = nltk.collocations.TrigramAssocMeasures()

Korpus = open('jodel-Korpus.txt', 'r')
tokens = nltk.word_tokenize(unicode(Korpus.read(), errors='ignore'))

finder_bi = BigramCollocationFinder.from_words(tokens)
finder_tri = TrigramCollocationFinder.from_words(tokens)

finder_bi.apply_freq_filter(5) 
finder_tri.apply_freq_filter(5) 

print finder_bi.nbest(bigram_measures.pmi, 25)
print finder_tri.nbest(bigram_measures.pmi, 25)

Folgende Bi-/Trigramme garantieren ;) Top-Jodel (Liste ohne syntaktischen Unsinn):

  • aufs Bett wirfst
  • bei uns abholen
  • beim Bäcker
  • das schönste Mädchen
  • des Tages
  • dieser Moment wenn
  • dir kein Eis
  • Donald Trump
  • einen Einkaufswagen holen
  • Einkaufswagen holen
  • Freilandhühner für Käfighaltung
  • für jeden Upvote
  • ganze Zeit
  • gerne bei uns
  • gilt das schon
  • Glas Wasser
  • hat allerdings Asthma
  • ins Zimmer kommt
  • jahre alt
  • Kommt mein Mitbewohner
  • Lörres reinhämmern
  • Oh Gott
  • pink und behindert
  • Pokemon Go / Pokémon Go
  • schon als Fernbeziehung
  • statt dem Handy
  • vergessen zu tanken

Interessant ist außerdem, dass das Type/Token-Verhältnis von 19,12 (STTR 55,47) rund vier Punkte unter dem Vergleichskorpus des IDS (50,444/51,619) liegt. Die lexikalische Vielfalt, basierend auf diesem kruden Maß, kann demzufolge als durchschnittlich bezeichnet werden.

Was wir bisher wissen

Diese erste, recht oberflächliche Betrachtung führt zu folgender Erkentniss. Möchte man das eigene Jodel-Karma maximieren, bietet es sich an:

  1. Am Montag…
  2. in einer Studierendenstadt wie Münster…
  3. einen lustigen Jodel über die eigene Beziehung oder Familie…
  4. mit einem Hashtag und
  5. 134 Zeichen zu verfassen, der idealerweise mit
  6. “Dieser Moment, wenn…” beginnt und
  7. ein sexistisches Klischee bedient :(( [hier muss auf jeden Fall nachgeforscht werden!]