Kommentar-Label Workshop in Münster
In den Nachrichten, aber auch im akademischen Diskurs, wird vielfach von sogenannter Hassrede, Beschimpfungen, Enthemmung oder auch Hate Speech gesprochen. Während die generelle Bedeutung dieser Begriffe vielen Menschen intuitiv klar sein dürfte, fällt es selbst erfahrenen Community Manager teilweise schwer die Kommentare klar den jeweiligen Konzepten zuzuordnen. Darüber hinaus sind viele der verwendeten Kategorien-Schemata organisch entstanden und nie mit dem Ziel entwickelt worden, inhaltlich sauber abgetrennte Bereiche zu definieren. Während dieser Status Quo dem händischen Moderationsbetrieb genüge tut, ist es schwer, auf den so entstandenen Daten Algorithmen des maschinellen Lernens zu trainieren. Diesen fehlt die menschliche Fähigkeit der Interpretation, wodurch sie auf möglichst klar differenzierbare Kategorien angewiesen sind, ebenso wie eine einheitliche Verwendung eben dieser. Entsprechend stellt sich für uns die Frage: Welche Kategorien problematischer Sprache brauchen wir, um sinnvoll moderieren und teil-automatisieren zu können?
Am 12. März 2020 haben sich Dr. Dennis Riehle, Jens Brunk und Marco Niemann von der WWU Münster mit Hannah Monderkamp, Julia Nix und Oliver Stein von der Rheinischen Post getroffen, um dieser spannenden Frage im Hinblick auf das Projekt nachzugehen. In einem knapp dreistündigen, intensiven Workshop wurde ein an der WWU erarbeitetes konzeptionelles Labeling-Schema ebenso diskutiert, wie die aktuell von der Rheinischen Post verwendeten Kategorien. Von beiden Seiten eher unerwartet, wurde man sich schnell einig, dass beispielsweise insbesondere juristisch klar problematische Kategorien wie Rassismus oder Beleidigungen erfasst, aber auch getrennt behandelt werden müssen. Darüber hinaus wurde im Laufe des Workshops schnell deutlich, dass neben den Labeln zur Erfassung tatsächlich bedenklicher Kommentare (bspw. Rassismus oder Aufforderungen zu Gewalt) auch Kategorien zur Erfassung anderer ungewünschter Inhalte benötigt werden. So sind bspw. Duplikate oder die Überleitung zu vollkommen unzusammenhängenden Themen eventuell keine juristisch bedenklichen Äußerungen, werden jedoch aus naheliegenden Gründen trotzdem gesperrt bzw. nicht freigeschaltet. Auch wenn ein Algorithmus nicht jeden möglichen Sonderfall erkennen kann und soll, so müssen doch adäquate Abgrenzungen eingezogen werden, damit entsprechende Kommentare nicht andere Kategorien „verwässern“.
Die besprochenen Kategorien werden von der Rheinischen Post und der WWU jeweils intern auf Vollständigkeit und Konsistenz geprüft. Anschließend sollen diese bei der Rheinischen Post umgesetzt und in gemeinsamen Auswertungen mit der WWU auf Angemessenheit geprüft werden. Sollte sich das Schema bewähren, werden die so gelabelten Daten schnellstmöglich zum Training unterstützender Algorithmen und Systeme verwendet.