Als Google anfing, auch nicht webtypische Dokumente wie PDF,
RTF oder Word-Files zu indizieren und solche Dateien dann
bei Google sichtbar wurden, mussten sich Web-Verantwortliche
vorhalten lassen, Server inkorrekt konfiguriert zu haben.
Eine neue Google-Ungereimtheit legt nahe, dass diese Schelte
- möglicherweise - nicht immer gerechtfertigt war.
Wie die Firma Klaus Schallhorn Omnisearch jetzt belegt,
indiziert Google auch Seiten auf sog. Sicheren Servern [SSL],
die über das HTTPS-Protokoll geliefert werden, obwohl
Google vorgibt, solche Seiten nicht zu indizieren. Inzwischen
wurden mehr als 3.8 Millionen solcher Seiten durch Google
indiziert.
Schlimmer noch: Google gibt zwar vor, den robots.txt-Standard
zu beachten, ignoriert aber zumindest beim Abruf von Seiten
über HTTPS genau das Protokoll, das Spidern den Zugriff auf
bestimmte Web-Bereiche verbietet. Inzwischen haben Googles
Spider 161,000 cgi-bin Programme auf HTTPS-Servern ein- oder
mehrfach ausgeführt.
Wer die in entsprechenden Suchergebnissen genannten Server
prüft, findet schon unter den ersten 10 Ergebnissen solche,
deren robots.txt-Dateien Spidern den Zugriff auf /cgi-bin und
andere Bereiche auf HTTPS-Servern ausdrücklich verbieten.
Web-Verantwortliche, die verhindern wollen, dass Seitenaufrufe
oder Programmausführungen über HTTPS von Spidern ausgelöst
werden, sind gezwungen, neue Schutzmaßnahmen zu ergreifen.
Weitere Informationen finden Sie unter dem Titellink.
(ps)
[Meldung: 04. Mär. 2002, 12:29] [Kommentare: 8 - 04. Mär. 2002, 18:28]
[Per E-Mail versenden] [Druck-Version] [ASCII-Version]