Die 10 häufigsten Sprachen auf Steem
Welche Sprachen sind die 10 häufigsten auf Steem, was denkst du? Ganz klar: Englisch ist dominierend, aber was kommt dann?
Als kleines Nebenprodukt meiner Arbeit an einer einfachen Spracherkennung für SteemSearch ergab sich folgende Tabelle:
Sprache | % | Anzahl | Abweichend | Erkennungsrate |
---|---|---|---|---|
en | 58.37% | 2524 | 18 | 99.29% |
ko | 12.95% | 560 | 0 | 100.00% |
es | 9.88% | 427 | 17 | 96.02% |
bn | 6.38% | 276 | 0 | 100.00% |
id | 4.23% | 183 | 1 | 99.45% |
ru | 1.83% | 79 | 3 | 96.20% |
zh | 1.43% | 62 | 0 | 100.00% |
uk | 1.25% | 54 | 0 | 100.00% |
it | 0.81% | 35 | 6 | 82.86% |
de | 0.76% | 33 | 3 | 90.91% |
Das sind die Werte der letzten 4324 Posts (ca. 2 Tage) mit mehr als 30 Worten aus dem aktuellen Feed, als Säulendiagramm sieht das so aus:
(en=English, ko=Korean, es=Spanish, bn=Bengali, id=Indonesian, ru=Russian, zh=Chinese, uk=Ukrainian, it=Italian, de=German)
Deutsch könnte noch ein klein wenig zulegen, oder?
Ah, vielleicht wundert ihr euch über die relativ schlechten Erkennungsraten bei it und de. Öhm, ja - die Tabelle generiert mir ein Python-Skript, falls es Abweichungen von meiner zur internen Spracherkennung von Python gibt, dann wird das als abweichend gezählt und der Datensatz in einer Datei protokolliert. Das hilft mir, die Wortliste ggf. zu erweitern.
Von den drei de-Abweichungen in der Tabelle sind zwei Posts mit jeweils nur einem Wort, "unterwegslichendendes" und "fortschrittlichendendes" was Python tatsächlich als deutsch, meine Erkennung jedoch als unbekannt eingestuft hat. Drei Mal dürft ihr raten, von wem die beiden sprachlich "fortschrittlichendendes" Posts stammen :-)
Oh, erstaunlich - ich habe diesmal tatsächlich 250 deutsche Wörter geschafft und außerdem "de" von 33 auf 34 Posts hochkatapultiert, ist doch schon mal ein Anfang...
Interessant!
Ich hätte nicht gedacht, dass Koreanisch gleich an zweiter Stelle steht. Wahrscheinlich entgeht uns das insoweit, dass wir die Posts wegen der Schriftzeichen irgendwie doch so links liegen lassen.
Was mich noch interessieren würde: Dein Script unterscheidet schon zwischen Chinesich, Japanisch und Koreanisch? Hast du dafür auch "Musterwörter"?
Die Abweichung ist ebenfalls interessant. Aber im Grunde auch nachvollziehbar, da das "externe" Skript sicherlich den ganzen übergebenen Text überprüft und du nur die ersten x Zeichen/Wörter. Oder übergibst du denselben String auch an das "externe" Skript?
Die fortschrittlichendendes Entwokelung ist nicht nur atemberauschend, sondern auch bingrößenwerdend für die zinköfenbede Implongmantierung nouier Dools hier uif der Blogchain.
Daher 👍👍👍
✨🦋🕊️
Was ist mit PD= Panzerdeutsch?
Dinosaurisch fehlt....
Ebenso Fiepen, Brodeln, Zwitschern und Grunzen.
Ansonsten vulkanisch gut...🤩
🐉🦖🦕
Hallo?! Willst du dir etwa den Titel als Comment-Spammer verdienen! ;-)
Wenn Du wüsstest was der kleine für ein süsser Kerl ist und wie aufgeweckt dazu...
Gestern nach 3 Monaten wieder gesehen - fast 1 Stunde lang Pumatoni Geschichten erzählt - die Urwaldbande und Monstertruckgang und der böse Bürgermeister der mit seinen Kumpanen Steuern von den Urwaldbewohnern haben will und dafür eins auf die Schnüss bekommt sind besonders begehrt...
Pumatoni ist vielsprachig begabt - kaka kann er fliessend und noch so manch andere Sprachen die man schon lange für ausgestorben hielt.
Das Hosenbaby ist übrigens besonders beliebt derzeit...
Happy days.
0.00 SBD,
0.40 STEEM,
0.40 SP
Ich kaufe ein U.
Ding! Ding!
0.00 SBD,
0.35 STEEM,
0.35 SP
U da beuist du richtig, U ist außerdem gerade im Angebot, nur zwei Ding Ding statt regulär drei ;-)
0.00 SBD,
0.25 STEEM,
0.25 SP
Das ist ja mega. Fast wie beim türkischen Glücksrad. Da brauchste nur ein Ü kaufen.
Ding, Ding, Ding, Ding, Ding.... :D
0.00 SBD,
0.38 STEEM,
0.38 SP