HTML – Dentaku

Diese Woche tritt das unselige Leistungsschutzrecht für Presserverlage in Kraft. Es verbietet Suchmaschinen und Aggregatoren, (auch kleine) Ausschnitte aus Presseerzeugnissen ohne Genehmigung der Verlage wiederzugeben. Die Verlage hatten gehofft, damit von den großen Suchmaschinen Geld bekommen zu können. Doch Google hat es sich einfach gemacht, und lässt sich von den Verlagen eine zukünftige kostenlose Nutzung bestätigen — andernfalls würden ihre Webseiten nicht mehr in den Suchergebnissen auf Google News erscheinen. Ich gehe im Moment davon aus, dass kein Verlag — auch keiner der Befürworter des Leistungsschutzrechts — darauf verzichten möchte und dass daher alle zähneknirschend eingewilligt haben werden. Leider haben die anderen Aggregatoren keine so große Marktmacht, und so trifft das Gesetz jetzt den, für den es sich die Verlage gewünscht hatten am wenigsten.

Rivva lässt konsequenterweise die Snippets verschwinden. In den Kommentaren zu dem entsprechenden Artikel erklären jetzt massenweise Blogger und andere Seitenbetreiber ein explizites Opt-In. Das ist nett (und der Zuspruch wird Frank Westphal vermutlich auch freuen), aber wirklich nützlich ist es nur, wenn der Rivva-Bot ein solches Opt-In beim Lesen der Seite sehen kann. Auch auf den Gedanken bin ich natürlich nicht allein gekommen, und so tauchen — ebenfalls in den Kommentaren — bereits zwei unterschiedliche Implementierungen auf.

Felix Schwenzel (@diplix) schlägt


<meta name="rivva" content="Allow: *"/>

in der Seite vor, @herzi schlägt eine Erweiterung der robots.txt vor:


User-agent: Rivva
X-allow-snippets: true

Das ganze kann nur wirklich funktionieren, wenn wir uns einigen, drum habe ich mir die Spezifikationen der beiden Methoden kurz angesehen und mache auf dieser Basis hier einen dritten Vorschlag. 😉

Vorschlag:

In Anlehnung an Googles nosnippet-Direktive würde ich in robots.txt und in den Robots-Meta-Tags eine snippet-Direktive einbauen. Das würde keinen der aktuellen Parser verwirren, denn sowohl in HTML-Meta-Tags als auch in robots.txt soll der Parser laut Spezifikation unbekannte Direktiven ignorieren. Das würde dann so aussehen:

<meta name="rivva" content="index,follow,snippet"/>

bzw.


user-agent: rivva
allow: /
snippet: /

Snippets könnten damit natürlich auch für weitere (oder alle) Crawler freigegeben werden. Was meint Ihr?

Und wichtiger: kann der Rivva-Bot so etwas (in absehbarer Zukunft) berücksichtigen?