De meeste websites willen graag zo goed mogelijk gevonden worden door zoekmachines. En niet alleen gevonden maar ook nog eens goed scoren op geselecteerde trefwoorden. Toch zijn er een aantal redenen te bedenken waarom je bepaalde pagina”s of zelfs complete websites juist niet in google wilt hebben:
Onderstaande een aantal technieken om pagina”s, websites of delen van een van twee juist uit google en andere zoekmachines te houden. Sommige werken ook om andere bots zoals backlink-checkers en scrappers zoals majestic en semrushg buiten de deur te houden.
1-Robots.txt
De eenvoudigste en meest vlotte manier om zoekrobots buiten te deur te houden is gebruik te maken van een robots.txt bestand ( voorbeeld : robots.txt). Meer uitleg over gebruik van dit bestand vind je hier). Gebruik van robots.txt is met name handig om (grote) delen van een website af te sluiten.
2-Robots meta tag
Door een robots metatag met de waarde “nodindex” aan afzonderlijk bestanden toe te voegen voorkom je dat deze pagina”s opgenomen worden in de index. Dit is bijvoorbeeld handig om de voorkomen dat een boodschappenmandje geindexeerd wordt. Of varianten van een pagina, bijvoorbeeld een productenlijst die alleen in de standaard volgorde opgenomen moet worden ( en niet in andere volgordes door sorteren, dit om dublicate content problemen te voorkomen).
3-Iframes
Stel je wilt een deel van een webpagina niet geindexeerd hebben. Je kunt dan die betreffende text via een iframe opnemen. De inhoud van de iframe bescherm je dan via de robots.txt of de noindex robot metatag
4-Plaatjes
De grote zoekmachines deden lang niets met tekst in plaatjes. Een effectieve manier om te voorkomen dat gegevens op zoekportalen als google of bing verschijnen was de tekst in een plaatje te zetten. Onderhoud is wel een stuk lastiger dan bijvoorbeeld iframes. Voordeel is wel dat de tekst lastiger te knippen en plakken is voor bezoekers. Helaas is met name google heel beter geworden in het lezen van afbeeldingen
5-Flash
Hoewel zoekmachines steeds handiger worden in het analyseren van flash is dit nog steeds een efficiënte methode om ervoor te zorgen dat je pagina(s) niet gevonden worden. Hetzelfde geld ook voor java applets
6-Formulieren
Zoekmachines zullen geen formulieren (forms) versturen. Dus je inhoud achter een formulier verbergen is effectief om zoekmachines buiten te houden. Het helpt echter niet als bezoekers deeplinken naar teksten of bestanden achter het formulier. Hier kan weer een robots.txt helpen of het gebruik van tijdelijke bestandsnamen.
7-Gebruikersnaam en wachtwoord
Het gebruik van wachtwoorden of captchas op een site houdt zoekmachines buiten de deur. Eigenlijk is bescherming met een (goed) wachtwoord de enige methode die echt werkt om alle ongewenst bezoekers buiten de deur te houden. Terwijl gebruik van de robots.txt goed werken bij robots die meewerken, is een bescherming met wachtwoord de enige manier om minder meewerkende bots buiten de deur te houden.
8-Blokkeren & cloaken.
Op server niveau, in de .htaccess of in de script kan gekeken worden of de user-agent die van een bekende robot is. Naar aanleiding hiervan kan dan andere (of geen) inhoud verzonden worden. Eenvoudig voorbeeld hieronder.
BrowserMatchNoCase "bot for jce" bad_bot BrowserMatchNoCase "yff35 firefox/3.6.3" bad_bot BrowserMatchNoCase ahrefsbot bad_bot BrowserMatchNoCase JDatabaseDriverMysqli bad_bot BrowserMatchNoCase brandwatch bad_bot BrowserMatchNoCase bubing bad_bot BrowserMatchNoCase compspybot bad_bot BrowserMatchNoCase exabot bad_bot BrowserMatchNoCase ezooms bad_bot BrowserMatchNoCase spinn3r bad_bot BrowserMatchNoCase fairshare bad_bot BrowserMatchNoCase genieo bad_bot BrowserMatchNoCase ia_archiver bad_bot BrowserMatchNoCase ichiro bad_bot BrowserMatchNoCase java bad_bot BrowserMatchNoCase libwww-perl bad_bot BrowserMatchNoCase mj12bot bad_bot BrowserMatchNoCase semrushbot bad_bot <RequireAny> <RequireAll> Require all granted Require not env bad_bot </RequireAll> </RequireAny>
9-Blokkeren IP
Van veel zoekmachines is bekend welk ip nummer ze gebruiken, de server kan geconfigureerd worden deze te blokkeren.
10-URL’s verwijderen
Als het leed dan toch geschied is bieden onder andere Yahoo en Google diensten aan om url weer te verwijderen.
- http://help.yahoo.com/l/us/yahoo/search/siteexplorer/delete/siteexplorer-46.html
- https://www.google.com/accounts/ServiceLogin?service=sitemaps&passive=true&nui=1&continue=http%3A%2F%2Fwww.google.com%2Fwebmasters%2Ftools%2Fremovals&followup=http%3A%2F%2Fwww.google.com%2Fwebmasters%2Ftools%2Fremovals<mpl=urlremoval&hl=en
11-Nofollow tag.
Met behulp van de nofollow tag kun je zoekmachines instrueren bepaalde links niet te volgen. Gebruik van deze tag is nuttig in “bestel nu” links, of bij de sorteer links boven een lijst met producten.
12-Potjes Latijn.
Of schrijf in geheim taal: allohay estebay ezerlay
©