Wissenswert: Softwares, die Plagiate enttarnen

Foto: flickr.com/Karen Roe, Rafael Robles L, Lars Kasper, NASA Goddard Photo and Video; Montage: Marc Patzwald, Teaserfoto: flickr.com/poniblog

Wissenschaftliche Arbeiten landen heutzutage nicht einfach nur in den Schließfächern der jeweiligen Dozenten – sondern sollen vor  der Abgabe auch von Plagiatserkennungssoftwares  gescannt werden. So ist es inzwischen Gang und Gebe an vielen deutschen Universitäten, zur Freude vieler Professoren: Für die haben es Programme wie  Turnitin nämlich  einfacher gemacht, den Guttenbergs und Schavans unter den Studierenden auf die Schliche zu kommen. Aber wie schafft es so eine Software eigentlich genau die Schummler zu enttarnen?

Das Zauberwort zur Beantwortung dieser Frage lautet: Algorithmus. Turnitin, der globale Martkführer unter den Softwares und das Treueprodukt der TU Dortmund, benutzt beispielsweise einen so genannten String-Matching-Algorithmus. Wer  aufgrund von Formel-Phobie ein zahlenarmes Fach studiert und sich jetzt an leidvolle Mathe-Stunden aus der Oberstufe erinnert, der darf beruhigt sein: String-Matching-Algorithmen, denen Programme wie Turnitin folgen, lassen sich recht simpel in Laiensprache übersetzen.

Turnitin ist die prominenteste Software zum Enttarnen von Plagiaten. Foto: flickr/Jisc

Turnitin ist die prominenteste Software zum Enttarnen von Plagiaten. Foto: flickr/Jisc, Teaserbild: flickr/buddhadog

Denn Strings sind  nichts weiter als Wortgruppen oder Wortfragmente. Diese Strings bestehen bei Turnitin aus jeweils acht Wörtern. Das heißt, dass ein Satz aus einer Haus- oder Bachelorarbeit mit acht aufeinanderfolgenden Worten aus einem Text der Turnitin-Datenbank übereinstimmen muss, damit die Software eine Gemeinsamkeit feststellt. Alle übereinstimmenden Strings werden von dem Programm markiert, woraufhin eine prozentuale Gemeinsamkeit zwischen der  Arbeit des Studierenden und den abgeschriebenen Texten errechnet wird.

Programme können nur Hinweise geben

Wenn dieser Index bei etwa 50 Prozent liegt, dann heißt das jedoch nicht gleich, dass der Studierende mit zurückgegelten Haaren und runden Brillengläsern gebrandmarkt werden sollte. Es könnte auch einfach heißen, dass er viel aus einem Werk zitiert hat. Denn kein einziges Plagiatsprogramm kann bis jetzt korrekt gekennzeichnete Zitate erkennen. Da aber nur derjenige plagiiert, der ohne korrekte Kennzeichnung zitiert, müssen alle Gemeinsamkeiten, die eine Plagiatssoftware erkennt, sorgfältig geprüft werden. Selbst ein weit entwickeltes Programm wie Turnitin kann also nur auf heiße Spuren führen, den Täter muss der Dozent letztendlich  selbst packen.

plagiatsoftware-1-wissenswert

Der Lieblings-Handgriff aller Schummler. Foto: flickr/reallyboring

Doch die Hinweise, die Turnitin und Co. liefern, nehmen viele Lehrkräfte anscheinend als sehr hilfreich wahr: Turnitin wird von einer Million Lehrkräfte aus 126 Ländern genutzt, über 10.000 Hochschulen haben sich die Lizenzgebühr für das Programm besorgt. Darunter fällt auch die TU Dortmund. Die Ruhr-Universität Bochum und die Universität Duisburg-Essen dagegen greifen bei ihrer Plagiatsprüfung auf das Programm SafeAssign zurück.

Große Datenbank mit noch größeren Lücken

SafeAssign? Das ist doch ein „für die Lehre kaum brauchbares System“.  Jedenfalls, wenn man sich Testergebnisse der Plagiats-Spezialisten aus der Hochschule für Technik und Wirtschaft in Berlin zu Herzen nimmt. Seit 2004 testen Mitarbeiter der Berliner Hochschule jegliche Plagiatserkennungssoftwares auf dem Markt. Im letzten Test aus dem Jahr 2010  hat SafeAssign dabei  nicht besonders gut abgeschnitten. Aber auch Turnitin wurde nur als „brauchbar“ eingestuft.  Generell hat die Berliner Hochschule für keine Plagiatssoftware eine Verkaufsempfehlung ausgesprochen.  Zu gering sei etwa die Trefferquote für Plagiate, da die Datenbanken der Programme einfach zu klein seien.

Wer abschreibt ohne korrekt zu zitieren, der plagiiert. Foto: photobucket/actrices.

Wer abschreibt ohne korrekt zu zitieren, der plagiiert. Foto: photobucket/actrices.

Dennoch müsste man wahrscheinlich ein Weilchen in der Welt der Lexika und Lehrbücher wühlen, um Werke als Abschreib-Quelle zu finden, die nicht in der Turnitin-Datenbank vorhanden sind. Denn das Lieblingsprogramm der TU Dortmund hat Zugriff auf 24 Milliarden aktuelle und archivierte Websites, 300 Millionen archivierte Studentenarbeiten und 129 Millionen digitalisierte Artikel.

Die meisten dieser Artikel stammen aus den Bibliotheken zahlreicher Universitäten, darunter auch die der Universitäten aus dem Ruhrgebiet. So hat Turnitin auch Zugriff auf das gesamte öffentlich zugängliche Repositorium der TU Dortmund, in dem unter anderem 6.000 Artikel aus der Universitätsbibliothek enthalten sind.

Auf die digitalisierten Bücher von Google Books kann der String-Matching-Algorithmus von Turnitin allerdings noch nicht angewendet werden. Nach Angaben des IT- und Mediencentrum der TU Dortmund (ITMC) sei Turnitin allerdings gerade mit Google im Gespräch über mögliche Verhandlungen. Sollten sich beide Seiten einigen, dann dürften Schummler-Studenten in Zukunft eine noch bedrohlichere Existenz führen.