Der Anfang vom Ende? - Reddit sperrt alle Suchmaschinen außer Google aus

Bonn (KNA) Suchmaschinen gehörten schon zum Internet, bevor es kommerziellen Erfolg hatte. Für viele sind sie sogar die Voraussetzung für den kommerziellen Erfolg der Technologie. Denn sie erleichtern es, sich auch als Laie im Netz zurechtzufinden und machen die Bandbreite der Inhalte und Angebote zugänglicher und auffindbarer. In der vergangenen Woche fanden Journalisten des US-Online-Mediums 404media heraus, dass die Plattform Reddit offenbar alle Suchmaschinen außer Google von seiner Webseite ausgesperrt hatte. Wer also auf einer alternativen Suchmaschine nach einem Stichwort suchte, fand keine Inhalte von Reddit mehr unter den Ergebnissen. Reddit ist eine Plattform, die vor allem aus großen und kleine Foren besteht, in denen Nutzer zu bestimmten Themen diskutieren und Inhalte austauschen. Was bedeutet es, wenn nur noch Google auf diese Inhalte zugreifen kann? Über die Jahre hat die Macht der Suchmaschinen im Internet immer weiter zugenommen. Medienschaffende sehen sich mittlerweile gezwungen, ihre Online-Inhalte so aufzubereiten und ihre Themen so auszuwählen, dass sie bei Suchmaschinen möglichst erfolgreich sind, weil ein Großteil der Menschen Inhalte im Netz nur über Suchmaschinen (und über andere Plattformen) aufruft. Das geht oft zulasten von Qualität und Themenvielfalt im Journalismus, weil die Kriterien, nach denen Suchmaschinen Inhalte bewerten, nicht mit journalistischen Qualitätskriterien übereinstimmen. Wenn man von "Suchmaschinen" spricht, ist vor allem Google gemeint. Der US-Konzern Alphabet stellt die mit riesigem Abstand erfolgreichste Suchmaschine bereit, mit Marktanteilen von zeitweise über 90 Prozent - eine enorme Marktmacht. Kleinere Anbieter wie Duck-Duck-Go, Baidu, Bing oder Yandex haben kaum eine Chance gegen den Giganten. Und doch hatten Nutzer in der Vergangenheit theoretisch immer die Wahl, welche Suchmaschinen sie benutzen wollten. Die Ergebnisse unterschieden sich je nach Suchalgorithmus, aber im Grunde taten alle dasselbe: Das Netz durchkämmen und - je nach Suchbegriff - die vermutlich nützlichsten und interessantesten Ergebnisse für die suchende Person ausspucken. Was nützlich und interessant ist, hatten zum Beispiel die Google-Gründer ursprünglich danach bemessen, wie oft andere Webseiten auf ein Angebot verlinkt haben. Der Gedanke dahinter: Was andere oft verlinken, muss einen Mehrwert haben. Mittlerweile ist das aber nur noch ein kleiner Teil des Algorithmus, der die Ergebnisse sortiert. Im Zeitalter des Überwachungskapitalismus weiß Google längst genug über jeden einzelnen Nutzer und jede einzelne Nutzerin, um Ergebnisse personalisiert und individuell zu sortieren - nicht immer nur zugunsten der suchenden Person, sondern auch zugunsten der eigenen Werbeeinnahmen. Die große Menge an Informationen, die Google über seine Nutzerinnen und Nutzer sammelt, brachte dem Konzern viele Vorteile, die für andere Marktteilnehmer schwer auszugleichen sind. So kann Google die Ergebnisse optimal an die Bedürfnisse der Nutzer anpassen und ist so oft die bequemste Wahl. Außerdem verdient Google mehr durch sein Werbegeschäft, weil es Anzeigenkunden versprechen kann, auch die Anzeigen so gezielt an die Menschen auszuliefern, dass sie die größtmögliche Wirkung erzielen. Das bringt Google einen finanziellen Vorsprung. Gar nicht so leicht für unabhängige Anbieter, da mitzuhalten. Wenn nun auch noch Plattformen wie Reddit mit Google eine offenbar mehr oder weniger exklusive Partnerschaft für die eigenen Inhalte schließen, Nutzer also zum Finden von Reddit-Inhalten endgültig auf Google angewiesen sind, könnte das den Todesstoß für den Markt der Suchmaschinen bedeuten - und der Anfang vom Ende des offenen Internets sein. Hintergrund der Entscheidung sind neue Nutzungsbedingungen auf Reddit, die vor einigen Monaten in Kraft getreten sind. Demnach befürchte man, dass immer mehr KI-Unternehmen die Inhalte der Plattform für das Training von KI-Modellen nutzen, ohne um Erlaubnis zu bitten oder dafür zu bezahlen: "Wir glauben immer noch an ein offenes Internet, aber wir glauben nicht, dass Dritte ein Recht haben, öffentliche Inhalte zu missbrauchen, nur weil sie öffentlich sind", heißt es in den Nutzungsbedingungen. Man stelle fest, dass immer mehr Unternehmen unbefugten Zugang, beispielsweise über Scraping oder Datenhändler, nutzen, um die öffentlichen Reddit-Daten in großen Mengen zu sammeln. Scraping bedeutet nichts anderes als das massenhafte, automatisierte Einsammeln von Inhalten im Netz. Explizit nennt Reddit hier generative KI als einen der großen Treiber dieser Entwicklung. "Diese Unternehmen sammeln öffentliche Daten, darunter auch Reddit-Inhalte, für ihren eigenen kommerziellen Gewinn, ohne dass ihnen Grenzen für die Nutzung dieser Daten gesetzt werden und ohne Rücksicht auf die Recht oder die Privatsphäre der Nutzer", so das Unternehmen weiter. Eine Entwicklung, über die sich inzwischen viele Inhalteanbieter im Netz beklagen. Die "New York Times" geht juristisch gegen OpenAI vor. Das Medienhaus sieht sein Urheberrecht verletzt, wenn der KI-Konzern sein Sprachmodell ChatGPT mit den Artikeln des Mediums trainiert, ohne dafür zu bezahlen. Hoster, die Webseiten bereitstellen, gehen mittlerweile davon aus, dass 50 Prozent oder mehr des Datenverkehrs auf ihren Webseiten auf Bots zurückgeht - Tendenz steigend. Verantwortlich hierfür sind zunehmend Bots, die im Rahmen der KI-Entwicklung die riesigen Datenmengen einsammeln, die für das Training neuer Modelle nötig sind. In dieser Woche äußerten mehrere Herausgeber von Webseiten Vorwürfe gegenüber dem KI-Start-Up Anthropic. Demnach soll auch dieser Konzern ohne Rücksicht auf Nutzungsbedingungen und Lizenzen Datenmaterial für die eigenen KI-Modelle einsammeln. Dieses Verhalten könnte einerseits illegal sein, weil es die Anbieter der Inhalte finanziell schädigt. Andererseits verstößt es aber vor allem auch gegen eine Art Gentleman's Agreement des Internets. Webseiten verwenden seit Jahrzehnten ein Protokoll namens robots.txt. Mit diesem Protokoll können Webseiten festlegen, wer unter welchen Bedingungen welche Inhalte der Seite einsammeln oder durchsuchen darf, um das reibungslose Funktionieren der Webseite zu gewährleisten. In vielen Fällen ist das Durchsuchen im Interesse der Webseite, weil sie so beispielsweise in den Ergebnislisten von Suchmaschinen auftaucht. Wer das nicht möchte, kann in diesem Protokoll ein Stopp-Schild für Suchmaschinen angeben. Es gibt kein Gesetz, dass die Anbieter verpflichtet, sich daran zu halten. Bislang war es aber Konsens unter den meisten Akteuren im Netz, die Vorgaben einzuhalten. Doch in den letzten Monaten und Jahren scheinen sich immer mehr KI-Firmen über diese Vereinbarung hinwegzusetzen und trotz Einschränkungen ungebremst Material zu sammeln. Dass Anbieter wie Reddit sich das unkontrollierte Datensammeln nicht mehr gefallen lassen wollen, scheint daher im ersten Moment durchaus verständlich. Doch zur Wahrheit gehört auch, dass das Unternehmen vor kurzem mit Google einen Vertrag über jährlich 60 Millionen Dollar abgeschlossen hat. Nun darf Google nach Lust und Laune die Daten von Reddit-Nutzern zum Training seiner KI-Modelle nutzen. Dass ein direkter Zusammenhang zwischen diesem Vertrag und dem Aussperren anderer Suchmaschinen besteht, bestreitet Reddit dem Online-Magazin 404media gegenüber. Man habe alle Webcrawler blockiert, die sich nicht verpflichten wollten, eine Nutzung der Daten für das Training von KI zu unterlassen. Betreiber von alternativen Suchmaschinen, die feststellten, dass sie ausgesperrt worden waren, berichten jedoch, dass Reddit auf ihre Kontaktaufnahme zunächst gar nicht reagiert habe. Diese Vorgänge brechen mit Paradigmen, die das Netz seit seiner Erfindung begleiten. Auf der technischen Seite einigte man sich stets auf gemeinsame Standards und Protokolle, nach denen alle Nutzer, ob Privatpersonen, Unternehmen oder andere Akteure, sich richteten und die so eine gewissen Offenheit garantierten. Zwar wurden im Zuge der Kommerzialisierung des Netzes und der damit verbundenen Geschäftsmodelle schon viele dieser Ideale aufgegeben. Der Datenverkehr beschränkt sich immer stärker auf die großen Plattformen, wer gesehen und gefunden werden will, muss dort präsent sein und sich den Bedingungen dieser Player unterordnen. Seit dem Hype rund um Künstliche Intelligenz hoffen Webseite-Anbieter, mit ihren mehrheitlich menschengemachten Inhalten ein neues Geschäftsmodell zu entwickeln, indem sie Daten zum Training von KI-Modellen verkaufen oder lizenzieren. Google wiederum hofft, dass Nutzer eines Tages nach einer Suchanfrage die Webseite der Suchmaschine gar nicht mehr verlassen, sondern mithilfe von KI dort Zusammenfassungen anderer Inhalte finden und Google somit den vollen Erlös aus Werbeanzeigen kassieren kann. Unter diesen Begehrlichkeiten leidet der Wettbewerb zwischen den Suchmaschinen, weil gerade kleinere Anbieter sich derartige Exklusiv-Deals nicht leisten können. Die Nutzer werden so immer mehr zum Spielball kommerzieller Interessen, wobei ihr Informationsbedürfnis schon lange nicht mehr an erster Stelle steht.