Jeroen.com | weblog | woordenboek | zoeken | contact
Google Weblog    
 

23 Mrt '04 - + 4 - 1 Google indexeert nu ook externe Javascripts


Uit verschillende bronnen is vernomen dat er een nieuwe Googlebot is die nu ook javascripts indexeert. Een ogenschijnlijk klein detail dat wel eens grote gevolgen zou kunnen hebben...


Javascripts zijn over het algemeen een drempel voor de zoekmachines. Javascripts worden door de zoekmachines genegeerd omdat in tegenstelling tot eenvoudige HTML het bij javascripts voor zoekmachines vaak veel minder duidelijk is wat het script nu doet. Met grofweg 15 HTML codes heb je de belangrijkste functies van HTML wel in kaart, bij javascript is het aantal functies dat je samen kunt stellen bijna oneindig. Dat is de reden waarom javascripts tot nu toe door zoekmachines achterwege zijn gelaten.


Google spammers en javascripts als "doorway"

Javascripts worden door zoekmachine spammers vaak gebruikt om een soort van "smokescreen" op te werpen. Zo kun je door een slim javascript te schrijven een pagina laten redirecten (doorverwijzen) naar een heel ander pagina dan dat in Google getoond wordt. Deze aloude truc wordt ook wel Doorway page genoemd en is een van de oudste vormen van zoekmachine spam.

Al in 1997 maakte ik tijdens een bezoek bij ilse.nl mee dat sites handmatig verwijderd moesten worden vanwege een javascript doorway / redirect. Ongeveer een jaar geleden werd me nog door een medewerker van ilse verteld dat ilse bezig was met het uitbreiden van de zoekmachine ilse met de mogelijkheid om ook javascript te doorzoeken. Zoals het er nu naar uit ziet is Google ilse blijkbaar voor met de nieuwe "bot".


Pagerank Leakage en javascripts

Sommige mensen zijn bang dat hun eigen site door Google minder goed gewaardeerd wordt wanneer ze links naar andere sites plaatsen.

Pagerank wordt aan andere sites doorgegeven door de pagerank van een linkende pagina te verdelen over het aantal links. Hoe meer links, hoe minder punten een pagina doorgeeft aan de achterliggende pagina's. Links naar andere sites zouden wel eens voor het weglekken van punten naar de eigen pagina's kunnen zorgen, en dus een lagere waardering voor de eigen site kunnen opleveren, zo redeneren deze mensen. Dit noemt men ook wel het "Pagerank lek" ofwel "Pagerank Leakage".

Deze mensen lossen dit probleem op door de links naar andere sites dan hun eigen in een javascript te plaatsen. De bezoeker krijgt dan gewoon alle links te zien en heeft verder niets in de gaten. Tot nu toe werden deze links niet gezien door Google en zo werd de pagerank verdeeld over de andere links die op de pagina stonden. Als Google ook javascript gaat indexeren dan zal deze truc waarschijnlijk geen lang leven meer hebben.


Privacy issues en het indexeren van Javascripts

Javascript wordt soms ook gebruikt om juist een drempel op te gooien voor zoekmachines. Met een eenvoudig scriptje kun je een simpele (weliswaar makkelijk te hacken) "javascript wachtwoord beveiliging" maken. Maar wat nu als de zoekmachine hier doorheen kan breken en de "beveiligde" pagina toevoegt aan haar resultaten? Het indexeren van Javascripts kan dus ook ongewenste resultaten opleveren.


De nieuwe javascript Googlebot en de robots.txt

Overigens kijkt de Googlebot wel naar de robots.txt en indexeert hij geen files waarvan in de robots.txt wordt gemeld dat die niet geindexeerd mogen worden. Het indexeren van files waarvan in de robots.txt wordt gezegd dat ze niet mogen worden geindexeerd wordt als zeer onethisch gezien en zou een storm van protesten opleveren. Een van de *allereerste* Googlebots schijnt dit ooit per abuis genegeerd te hebben wat toen veel negatieve reacties opleverde.

Dit betekent dus dat Webmasters via de robots.txt wel de mogelijkheid hebben Google buiten de deur te houden om zo te voorkomen dat Google bijvoorbeeld een bepaalde externe javascript file indexeert. Google kan daar in de toekomst echter ook op reageren door sites met javascripts die de googlebot buiten de deur willen houden een lagere waardering te geven.




5 Googley reacties!:

Heeft iemand enig idee wat te doen aan de website http://matsuri.site.ne.jp/neko/.. Zij indexeren domeinnnamen en vervangen iedere image door een kat. Google indexeerd echter hun link voor trefwoorden waarop ook de domein naam geindexeerd wordt. Ik heb de indruk dat Google er iets aan doet, want na enige tijd verdwijnt de officiele domeinnaam uit de indexering, maar blijft de matsuri link naar de domeinnaam wel geindexeerd. Hoe krijg ik de matsuri links uit de Google indexatie?

Andre - 12 Januari '06 - 02:48

Al in 1997 maakte ik tijdens een bezoek bij ilse.nl mee dat sites handmatig verwijderd moesten worden vanwege een javascript doorway / redirect. Ongeveer een jaar geleden werd me nog door een medewerker van ilse verteld dat ilse bezig was met het uitbreiden van de zoekmachine ilse met de mogelijkheid om ook javascript te doorzoeken. Zoals het er nu naar uit ziet is Google ilse blijkbaar voor met de nieuwe “bot”.

cjaj () (link) - 10 April '06 - 15:19

Ik heb op me site gebruikt gemaakt van javascripts.1 voor het menu..1 om losse pagina;s van me website naar me hoofdindex te verwijzen…kan iemand mij vertellen of google nu al deze pagina;s negeerd in hun zoekmachine;s??????

Paul de Zwaan () (link) - 29 November '06 - 02:33


DISABLED BECAUSE OF COMMENT SPAM submit3 . php#message" id="form">
Naam:  
Persoonlijke info onthouden?

Email:
URL:
Reactie:Emoticons / Textile


Kleine lettertjes: Alle HTML-tags behalve <b> en <i> zullen uit je reactie worden verwijderd. Je maakt links door gewoon een URL of email-adres in te typen.
--> -->