Zoek-systemen werken volgens hetzelfde principe en bestaan globaal uit drie delen:
Voor de robot worden verschillende namen gebruikt: zoekrobot, robot, webspider, spider, webbot of eenvoudig bot. De robot haalt webpagina’s op, en stuurt deze naar de database voor analyse. Na een tijdje bezoekt de robot dezelfde pagina weer om te kijken of er nog verandering zijn. Een bezoek van een robot is terug te vinden in de log. De meeste robots laten een ‘handtekening’ achter, de ‘agent’:
De pagina wordt geanalyseerd en in een database gestopt en er wordt een doorzoekbare index gemaakt. Per pagina en per woord op die pagina worden er referenties aangemaakt in de database, een kopie wordt opgeslagen (snapshot) links woorden uit de pagina gehaald en veel meer. Tegelijkertijd wordt ook beoordeelt hoeveel waarde een bepaalt woord op een bepaalde pagina heeft. Deze waarde bepaalt later of die pagina voor die zoekterm ook getoond wordt. Het algoritme hoe die waarde bepaald wordt is het grote geheim van zoek-systemen, en verschilt van systeem tot systeem.
De database bepaalt welke pagina’s opnieuw bezocht moeten worden door de robot en welke nieuwe URL’s door de robot bezocht moeten worden.
De portaal is de website die een gebruiker ziet en gebruikt. De zoektermen die een gebruiker hier intypt gaan naar de database, de termen leveren een serie pagina’s op die dan weer op de portaal getoond worden.
De meeste zoek-systemen hebben meerder robot’s databases en portalen. Google werkt vanuit verschillende data-centers die elk een kopie van de database bevat. Deze verschillende databases werden in het verleden periodiek gesynchroniseerd ( de google-dance) tegenwoordig lijkt de synchronisatie meer continue te gebeuren. Elke keer als je http://www.google.com bezoekt kom je daar een handige dns-truk uit bij een andere data-center. Hierdoor kan het gebeuren dat dezelfde zoekopdracht verschillende resultaten oplevert. Zo zijn er vaak ook verschillen tussen de verschillende landen-portalen ( http://www.google.nl en dergelijke)
Daarnaast wordt de google-database door verschillende portalen gebruikt, niet alleen google maar ook AOL netscape en de zoekmachine van amozone.com (http://www.a9.com) toont resultaten uit de google database.
Er zijn ook zoekers die geen portaal hebben (bijv Inktomi) zij leveren uitsluiten een database die portalen zonder eigen robot kunnen gebruiken (msn.com)