top of page
Dr. Timo Ehmann

Text und Data Mining nach der Urheberrechtsrichtlinie 2019 – eine Tragödie!

Aktualisiert: 6. Mai 2022



Was darf man eigentlich an Daten von fremden Webseiten oder anderen Quellen crawlen, aggregieren, analysieren, anzeigen? Eine interessante Frage eigentlich, zumal das weltmächtigste Unternehmen eigentlich nichts anderes macht. Und eine Vielzahl von Internet-Startups verwenden dieselben Technologien.


Ein Crawler ist dabei eine kleine Datei oder ein „Bot“ (Kurzform für „Roboter“), der Internetseiten aufruft, den Inhalt oder Teile davon in eine Datei schreibt und den Links einer Webseite folgt, um dort diesen Vorgang zu wiederholen. Mit den so gewonnen Daten kann man dann alles mögliche machen, z.B. Suchanfragen vorbereiten und auf entsprechende Nutzereingaben Trefferlisten anzeigen. Die Anwendungsvielfalt ist aber unüberschaubar. Es wäre natürlich gut zu wissen, welche Regeln dabei gelten, schließlich sind Daten ja das Öl des 21. Jahrhunderts. Das gilt im Zeitalter von KI (Künstliche Intelligenz) noch mehr als im Zeitalter von Big Data und das Internet ist dabei die wichtigste Quelle zum Abbau dieses Rohstoffs.


Die Aufgabe des Gesetzgebers wäre es also, hier klare Entscheidungen zu treffen, die für gleiche Wettbewerbsbedingungen sorgen, so dass alle wissen, was erlaubt und was verboten ist, und alle innerhalb der geltenden Regeln gleiche Chancen haben. Das ist leider nicht der Fall.


Teilweise wird nach Content (insbesondere Daten und Bilder) gecrawlt, so macht es etwas Google für seine Suche. Teilweise wird nach Daten gecrawlt, wenn etwas Flugsuchmaschinen oder andere Metasuchen eine Vielzahl von Angeboten auf anderen Webseiten durchsuchen, um es dem Nutzer zu ermöglichen, mit einer Abfrage eine Vielzahl von Quellen zu durchsuchen. Preissuchmaschinen, aggregierte Bewertungen, Metasuchmaschinen für Immobilien, Fahrzeuge oder andere Waren oder Dienstleistungen sind verwandte Fallkonstellationen. Teilweise werden Anfragen nach der Eingabe des Nutzers an eine Vielzahl von Zielseiten weitergeleitet und die Antworten jeweils für den anfragenden Nutzer zusammengestellt. Dann dauert die Suche ein wenig. Oder die Daten werden in einem eigenen Index vorgehalten wie bei Google, dann geht es sehr schnell. Auch Assistenzsysteme wie Amazons Alexa und Apples Siri und natürlich „Okay Google“ sind technologisch eng verwandt. Auch hier wird eine Anfrage verarbeitet und ein Suchergebnis ausgegeben, nur gibt es keine Trefferliste, sondern entweder einen eindeutigen Treffer oder ein Fallback („Das habe ich nicht verstanden!“). Im Hintergrund verarbeitet eine Software Daten, die von irgendwo kommen müssen. Glücklich kann sich schätzen, wer Millionen von Kunden hat, denn dort werden Daten in großer Menge angespült. Kleinere Marktteilnehmer müssen da mit kleineren Schaufeln arbeiten und präziser, schneller und nutzerzentrierter ihre Dienste anbieten, um so im Wettbewerb zu bestehen.


Wem gehören also die Daten im Netz? Es geht an dieser Stelle eigentlich um die Grundlagen unserer Zukunft und so ist es im Prinzip auch positiv zu sehen, wenn die Urheberrechtsrichtlinie, nun eine Regelung zum Thema „Text und Data Mining“ bereithält. Und für sich genommen ist die Regelung nicht einmal so schlecht. Immerhin erkennt die Urheberrechtsrichtlinie an, dass „Text und Data Mining“ irgendwie wichtig sind, insbesondere im wissenschaftlichen Umfeld, aber auch im kommerziellen Umfeld. So heißt es in Erwägungsgrund 18:


„Verfahren des Text und Data Mining haben nicht nur im Zusammenhang mit der wissenschaftlichen Forschung hohe Bedeutung, sondern sie werden auch in großem Umfang sowohl von privaten als auch öffentlichen Einrichtungen eingesetzt, um große Datenmengen in verschiedenen Lebensbereichen und zu unterschiedlichen Zwecken zu analysieren, auch für staatliche Dienste, komplexe unternehmerische Entscheidungen und die Entwicklung neuer Anwendungen oder Technologien.“


Damit erschöpft sich das Positive aber bereits. Wer gehofft hatte, dass über die Schrankenbestimmung für "Text und Data Mining" endlich Klarheit in das Thema „Crawling“ kommt, der wird bereits im nächsten Satz eines Besseren belehrt.

Denn weiter heißt es:


„Die Rechteinhaber sollten auch künftig Lizenzen für die Nutzung ihrer Werke oder sonstigen Schutzgegenstände erteilen können, die weder unter die in dieser Richtlinie vorgesehene verbindliche Ausnahme für Text und Data Mining zum Zwecke der wissenschaftlichen Forschung noch unter die gemäß der Richtlinie 2001/29/EG geltenden Ausnahmen und Beschränkungen fallen.“


Mit anderen Worten: Der Rechteinhaber soll entscheiden, ob seine Inhalte gecrawlt werden oder nicht. In Art. 4 Abs. 3 der UrhR-Rili heißt es dann auch:


„Die Ausnahmen und Beschränkungen nach Absatz 1 finden Anwendung, sofern die jeweiligen Rechteinhaber die in Absatz 1 genannten Werke und sonstigen Schutzgegenstände nicht ausdrücklich in angemessener Weise, etwa mit maschinenlesbaren Mitteln im Fall von online veröffentlichten Inhalten, mit einem Nutzungsvorbehalt versehen haben.“


So formuliert die Richtlinie nun also die Klarstellung, dass die Robots.txt beachtlich ist. So weit so vertretbar. Problematisch sind vor allem zwei Aspekte:


1. In aller Regel werden Webseiten-Betreiber Google zulassen. Wer kann es sich schon leisten unsichtbar im Internet zu sein? Wenn der Webseiten Betreiber andere nicht zulassen will, so kann das aus individueller Sicht gute Gründe haben. Wenn etwa Bing 10% des Crawl-Traffics ausmacht (und so auch die Server belastet), aber nur 1% der Nutzer zuführt, so mag man Bing vielleicht ausschließen. Wenn etwa eine Spezialsuchmaschine im Wettbewerb näher steht, so mag man diese vielleicht ausschließen. „So ist es halt!“ mag man sagen. Ja, aber so zementiert man Monopole. Und Wettbewerb wäre eine feine Sache.


2. Außerdem betrifft das Crawling von Daten das Schutzrecht für Datenbanken gemäß §§ 87a ff. UrhG. Hier ist die Frage, ob ein Eingriff in ein Schutzrecht vorliegt, noch weitaus diffuser als bei urheberrechtlich geschützten Texten oder Bildern. Das liegt unter anderem daran, dass der Schutz für Datenbanken von „wesentlichen Investitionen“ des Datenbankherstellers abhängt und die Übernahme „einzelner Daten“ erlaubt ist und lediglich die Übernahme „wesentlicher Teile“ verboten ist. Hingewiesen sei an dieser Stelle lediglich auf die Entscheidungen Automobilsuchmaschine Entscheidung des Bundesgerichtshofs vom 22. Juni 2011 (Az. I ZR 159/10 – Automobil-Onlinebörse) und die Entscheidung des EuGH, Urteil vom 19. Dezember 2013 – C-202/12. Beiden Entscheidungen lag ein vergleichbarer Sachverhalt einer Metasuchmaschine zugrunde. Beide Entscheidungen kommen zu unterschiedlichen Ergebnissen. Der BGH findet die Metasuchmaschine rechtmäßig, weil die Suchmaschine nichts anderes macht als die Nutzer der gecrawlten Seite. Der EuGH sah das anders, weil die Metasuchmaschine der gecrawlten Seite evtl. Klicks und damit Werbeeinnahmen abspenstig macht. Eine gesetzgeberische Entscheidung, ob diese Sachverhalte nun erlaubt oder verboten sein sollen, wäre hilfreich gewesen.


Fazit:

In der aktuellen Form ist die Schrankenbestimmung eine vertane Chance. Denn sie lässt die im Rahmen des Urheberrechts und des Datenbankherstellerrechts bestehenden Unklarheiten unberührt. Eine durchsetzungsstarke Schranke wäre vorzugswürdig gewesen. Im Bereich Crawling bringt die Urheberrechtsrichtlinie das Urheberrecht damit nicht entscheidend weiter. Innovative datenbasierte Onlinedienste bewegen sich nach wie vor in einem Graubereich. Dieser ist für multinationale Großkonzerne allerdings ein relativ komfortabler Raum. Für Startups dagegen ist dieser Raum unbequem, denn geschäftsmodellkritische Risiken belasten die Investorensuche bereits, bevor Abmahnungen und Klagen kommen. In gewissem Umfang positiv ist noch, dass angesichts der zunehmenden Diffusion der Rechtsklarheit fast immer die Zulässigkeit eines Geschäftsmodells mit guten Argumenten begründet werden kann. Das Gegenteil ist leider auch der Fall.


Vertiefung:

Ehmann, Timo: Big Data auf unsicherer Grundlage - was ist "wesentlich" beim Investitionsschutz für Datenbanken? K&R 2014, 394

435 Ansichten0 Kommentare

Aktuelle Beiträge

Alle ansehen

Comments


bottom of page