Der Perfekte Jodel - Teil 1
Jodel fristet jetzt schon seit geraumer Zeit sein Dasein auf meinem Handy. Die Plattform ist schnell erklärt: Ähnlich wie bei Twitter kann man per Jodel kurze Nachrichten und Bilder versenden, die dann von anderen bewertet (Upvote/Downvote) und kommentiert werden können. Die Summe aus Upvotes und Downvotes ergibt das Karma eines Posts - die User (viele User) versuchen möglichst viel Karma zu sammeln. Im Folgenden werde ich die Summe aus Upvotes und Downvotes aber schlicht als Upvotes bezeichnen.
Der Trick an Jodel: Die Nachrichten werden anonym (zumindest für andere Nutzer/innen) versendet und sind ortsgebunden. Als Nutzer/in sehe ich nur Jodel aus meiner direkten Umgebung. Nachrichten mit mehr als fünf Downvotes werden automatisch gelöscht, Moderator/innen sorgen dafür, dass sich die Nachrichten und Bilder innerhalb bestimmter Grenzen bewegen.
Neben solider (meistens) Unterhaltung hilft Jodel aber auch dabei, anonym über heikle Themen zu sprechen und etwas über die eigene Umgebung zu erfahren - angefangen bei Kontrolleur/innen in Straßenbahnen über Beziehungsprobleme bis hin zu kulinarischen Insidertipps wird auf Jodel alles diskutiert.
Irgendwann entstand der Gedanke, sich diese Nachrichten einmal etwas genauer anzusehen. Genau das soll in dieser kleinen Reihe passieren - Stück für Stück und sicherlich abhängig von meiner Motivation. Um das Ganze etwas spannender zu gestalten, stelle ich mir die Frage, was den “perfekten Jodel”, natürlich gemessen in Upvotes, eigentlich ausmacht.
Ein kleiner Disclaimer: In diesen Artikel soll es in erster Linie um den Spaß an den Daten gehen, nicht darum, den Anspruch einer wissenschaftlichen Studie zu erreichen.
Daten
Als Datenbasis dienen 2242 Top-Jodel aus 20 deutschen Städten die zwischen dem 13.07.2016 und dem 06.08.2016 erhoben wurden. Da Jodel keine eigene API zur Verfügung stellt, stammen die Daten von jodelstats.com, die eine eigene API gebastelt haben.
Der Nachteil an dieser Methode liegt darin, dass ausschließlich “gute” Jodel im Korpus landen. Außerdem ist die Anzahl der Upvotes natürlich nur eine Momentaufnahme, die sich potenziell noch verändern hätte können.
Aus praktischen Gründen wurden für das Korpus (46.752 Token) nur textbasierte Jodel gesammelt. Die Jodel im Korpus sind Top-Jodel, also Nachrichten, die am gegebenen Tag besonders viele Upvotes erhalten haben.
Erste Ergebnisse
Upvotes
Ein durchschnittlicher Top-Jodel hat 178 Upvotes. Die Zahl der Upvotes hängt, unter anderem, vom Wochentag des Jodels ab. Generell lässt sich sagen, dass die durchschnittliche Zahl an Upvotes über die Woche hinweg abnimmt.
Tag | Mittelwert (Upvotes) | N | σ |
---|---|---|---|
Sonntag | 184,24 | 270 | 73,603 |
Montag | 189,23 | 290 | 83,041 |
Dienstag | 184,71 | 325 | 77,104 |
Mittwoch | 179,61 | 358 | 75,346 |
Donnerstag | 174,82 | 292 | 72,795 |
Freitag | 171,01 | 311 | 62,645 |
Samstag | 171,41 | 376 | 68,526 |
Interessant ist die Tatsache, dass am Wochenende weniger Top-Jodel verzeichnet worden sind. Eine Erklärung für die Abweichung im Mittelwert könnte die größere Verteilung von Upvotes auf mehr unterschiedliche Jodel unter der Woche sein. Das würde dann wieder implizieren, dass Jodel-User pro Tag nur eine bestimmte Zahl an Jodel bewerten.
Interessanterweise gibt es außerdem einen Zusammenhang zwischen der Stadt und der Zahl der Upvotes für Top-Jodel.
Stadt | Mittelwert (Upvotes) | N | σ |
---|---|---|---|
Münster | 258,21 | 169 | 93,317 |
Aachen | 255,78 | 175 | 82,464 |
Frankfurt am Main | 236,00 | 81 | 69,811 |
Karlsruhe | 217,26 | 137 | 57,592 |
Tübingen | 189,80 | 96 | 50,915 |
Heidelberg | 188,50 | 152 | 50,315 |
Köln | 188,03 | 198 | 70,282 |
Total | 178,87 | 2242 | 73,540 |
Konstanz | 166,22 | 72 | 38,815 |
Düsseldorf | 163,59 | 135 | 52,579 |
Hannover | 161,98 | 185 | 55,473 |
Dresden | 159,00 | 2 | 36,770 |
Hamburg | 154,14 | 37 | 35,432 |
Mannheim | 152,94 | 103 | 45,086 |
Stuttgart | 152,81 | 177 | 50,839 |
Leipzig | 151,60 | 104 | 38,995 |
Berlin | 139,86 | 57 | 44,647 |
Dortmund | 131,03 | 188 | 42,263 |
Essen | 110,79 | 148 | 37,914 |
München | 79,85 | 20 | 15,139 |
Bremen | 73,67 | 6 | 17,037 |
Top-Jodel in Münster haben im Mittel 258 Upvotes, wohingegen Top-Jodel in Essen nur 110 Upvotes erhalten. Logischerweise hängt die Zahl der Upvotes (und Downvotes) mit der Nutzerzahl in der Region zusammen.
Der Upvote-Mittelwert der Städte mit mindestens 100 Top-Jodel korreliert sowohl mit der Einwohnerzahl (r = -.427) als auch der Zahl an Studierenden (r = .338). Während die Daten zur Einwohnerzahl relativ präzise sind (Quelle: WolframAlpha), ist es mit der Studierendenzahl komplizierter: In vielen Städten existieren mehrere Hochschulen und die Studierendenzahlen sind nicht immer öffentlich. Für die Betrachtung wurden deshalb jeweils die aktuellsten Studierendenzahlen der größten Hochschule/n veranschlagt.
Die Statistik zeigt relativ deutlich, dass Jodel seine Zielgruppe - Studierende - trifft. In Städten mit höheren Studierendenzahlen ist die Menge der Upvotes (die als indirektes Maß für die Userzahl genutzt werden können) zum Teil deutlich höher.
Länge
Im Mittel sind Top-Jodel 21 Wörter (einfache Tokenisierung durch Trennzeichen) beziehungsweise 134 Zeichen lang. Die durchschnittliche Wortlänge beträgt 5,17 Zeichen und ist damit im Vergleich zum Dudenkorpus (5,7) leicht unterdurchschnittlich.
Je länger ein Jodel, desto größer die Zahl der Upvotes (r = .052).
Der durchschnittliche Top-Jodel hat 0.6 Hashtags. Je mehr Hastags ein Jodel hat, desto niedriger die Upvotes (r = -.079).
Semantik
Eine tiefere semantische Analyse soll eigentlich Teil eines späteren Beitrags werden, dennoch zumindest ein paar Einblicke:
Frequenzanalyse und Hashtags
Einen ersten Eindruck gewinnt man häufig am besten, indem man einen Blick auf die Frequenzen verschiedener Begriffe wirft.
Besonders ins Auge fallen Begriffspaare wie Freundin(139) & Freund(79), Mutter(58) &Vater(24), Mädchen(51) & Junge(20) oder Frau/en(109) & Mann/Männer(56). Auffällig ist hier das stetig häufigere Auftreten der weiblichen Form.
Im großen und ganzen, basierend auf der Frequenzanalyse, sind die Themen Familie und Beziehung besonders stark unter den Top-Jodel vertreten.
Eine oberflächliche Analyse der Hashtags erhärtet diesen Eindruck. Zu den häufigsten Hashtags im Sample gehörten #FLIRTENKANNICH (21) und #FOREVERALONE (5).
Interessanterweise ist die Zahl der wiederkehrenden Hashtags im Sample jedoch relativ klein. Nur vier Hashtags sind häufiger als 10 Mal im Datensatz. Dies lässt sich vermutlich dadurch erklären, dass Hashtags in Jodel keine technische, sondern nur eine Zeichenfunktion erfüllen. Daher besteht kein Grund, standardisierte Hashtags zu etablieren - sie dienen schlicht als Stilmittel.
N-Grams
Neben dieser reinen Frequenzanalyse bietet es sich schlussendlich an, einen Blick auf N-Grams und Kollokationen zu werfen. Mithilfe von Python, NLTK und dem pattern.de Paket habe ich die Bi-/Trigramme ermittelt, die häufiger als fünf mal im Korpus erscheinen und die höchste PMI (Pointwise Mutual Information) aufweisen.
Folgende Bi-/Trigramme garantieren ;) Top-Jodel (Liste ohne syntaktischen Unsinn):
- aufs Bett wirfst
- bei uns abholen
- beim Bäcker
- das schönste Mädchen
- des Tages
- dieser Moment wenn
- dir kein Eis
- Donald Trump
- einen Einkaufswagen holen
- Einkaufswagen holen
- Freilandhühner für Käfighaltung
- für jeden Upvote
- ganze Zeit
- gerne bei uns
- gilt das schon
- Glas Wasser
- hat allerdings Asthma
- ins Zimmer kommt
- jahre alt
- Kommt mein Mitbewohner
- Lörres reinhämmern
- Oh Gott
- pink und behindert
- Pokemon Go / Pokémon Go
- schon als Fernbeziehung
- statt dem Handy
- vergessen zu tanken
Interessant ist außerdem, dass das Type/Token-Verhältnis von 19,12 (STTR 55,47) rund vier Punkte unter dem Vergleichskorpus des IDS (50,444/51,619) liegt. Die lexikalische Vielfalt, basierend auf diesem kruden Maß, kann demzufolge als durchschnittlich bezeichnet werden.
Was wir bisher wissen
Diese erste, recht oberflächliche Betrachtung führt zu folgender Erkentniss. Möchte man das eigene Jodel-Karma maximieren, bietet es sich an:
- Am Montag…
- in einer Studierendenstadt wie Münster…
- einen lustigen Jodel über die eigene Beziehung oder Familie…
- mit einem Hashtag und
- 134 Zeichen zu verfassen, der idealerweise mit
- “Dieser Moment, wenn…” beginnt und
- ein sexistisches Klischee bedient :(( [hier muss auf jeden Fall nachgeforscht werden!]
Thank you for visiting!
I hope, you are enjoying the article! I'd love to get in touch! 😀
Follow me on LinkedIn