Hai sentito parlare di Googlebot e vuoi comprendere meglio di cosa si tratta? In questa guida completa, tratta dalla documentazione ufficiale e dedicata a chi vuole diventare SEO specialist, ti spiego tecnicamente cos’è e come funziona.
Indice dei contenuti:
Googlebot identifica il web crawler di Google. Per la precisione identifica due diversi tipi di crawler: un crawler desktop che simula un utente da dispositivo desktop e un crawler mobile che simula un utente da dispositivo mobile.
Il 1° si occupa di accedere ai contenuti web in modalità “desktop-browser”, mentre il 2° si occupa di effettuare il crawling dei contenuti destinati agli utenti mobile.
Entrambi i crawler rispettano però il medesimo token di prodotto (token dello user-agent) nel file robots.txt, quindi non possiamo scegliere selettivamente come target Googlebot Smartphone o Desktop tramite il file robots.txt.
Se hai un sito convertito in sito con priorità ai contenuti per dispositivi mobili su Google (Mobile-first indexing enabled), la maggior parte delle scansioni viene effettuata tramite Googlebot Smartphone, mentre una piccola parte continua ad essere svolta con il crawler desktop.
Per i siti che invece non sono stati ancora convertiti, la maggior parte delle scansioni continua ad essere svolta attraverso il crawler desktop.
In entrambi i casi, il crawler di minoranza effettua la scansione soltanto degli URL già sottoposti a scansione dal crawler di maggioranza.
Probabilmente il tuo sito sarà sottoposto a scansione da entrambi i crawler (Desktop e Smartphone) e puoi identificare il sottotipo di Googlebot esaminando la stringa dello user-agent nella richiesta presente nei file log del tuo server.
Nella tabella che segue vengono indicati i crawler usati da vari prodotti e servizi Google:
Crawler | User agent | Stringa completa dello user-agent |
---|---|---|
APIs-Google |
| APIs-Google (+https://developers.google.com/webmasters/APIs-Google.html) |
AdSense |
| Mediapartners-Google (Analizza i contenuti AdSense) |
AdsBot Mobile Web Android |
| Mozilla/5.0 (Linux; Android 5.0; SM-G920A) AppleWebKit (KHTML, like Gecko) Chrome Mobile Safari (compatible; AdsBot-Google-Mobile; +http://www.google.com/mobile/adsbot.html) (Verifica la qualità dell’annuncio nella pagina web Android) |
AdsBot Mobile Web |
| Mozilla/5.0 (iPhone; CPU iPhone OS 9_1 like Mac OS X) AppleWebKit/601.1.46 (KHTML, like Gecko) Version/9.0 Mobile/13B143 Safari/601.1 (compatible; AdsBot-Google-Mobile; +http://www.google.com/mobile/adsbot.html) (Verifica la qualità dell’annuncio nella pagina web dell’iPhone) |
AdsBot |
| AdsBot-Google (+http://www.google.com/adsbot.html) (Verifica la qualità dell’annuncio nella pagina web per desktop) |
Googlebot Immagini |
| Googlebot-Image/1.0 (Analizza le immagini) |
Googlebot News |
| Googlebot-News |
Googlebot Video |
| Googlebot-Video/1.0 |
Googlebot (Desktop) |
|
o (utilizzato raramente):
(Analizza le pagine web) |
Googlebot (Smartphone) |
| Mozilla/5.0 (Linux; Android 6.0.1; Nexus 5X Build/MMB29P) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/41.0.2272.96 Mobile Safari/537.36 (compatible; Googlebot/2.1; +http://www.google.com/bot.html) (Analizza le pagine web per i dispositivi mobile) |
Mobile AdSense |
| (Vari tipi di dispositivi mobili) (compatible; Mediapartners-Google/2.1; +http://www.google.com/bot.html) |
Mobile Apps Android |
| AdsBot-Google-Mobile-Apps (Verifica la qualità dell’annuncio nella pagina per app Android. Segue le regole dei robot AdsBot-Google.) |
Come mostrato nella tabella, alcuni crawler hanno più di uno user agent, ma devi utilizzare un solo token corrispondente per poter applicare una regola.
Il token dello user-agent viene usato nella riga User-agent del file robots.txt in modo che ci sia corrispondenza con un tipo di crawler durante la scrittura delle regole di scansione per il tuo sito.
La stringa completa dello user-agent è una descrizione completa del crawler che viene mostrata nella richiesta e nei log web.
Questo elenco non è completo, ma include la maggior parte dei crawler che puoi vedere analizzando il log del tuo sito web.
Questi valori possono essere oggetto di spoofing. Se devi verificare che il visitatore è realmente Googlebot, esegui una ricerca DNS inversa.
Googlebot è stato progettato per essere eseguito contemporaneamente da migliaia di computer per migliorare il rendimento e seguire il ritmo di crescita del Web.
Normalmente accede alla maggioranza dei siti non più di una volta ogni pochi secondi. In alcuni casi e per brevi periodi, tale frequenza potrebbe risultare leggermente superiore.
Inoltre, per ridurre l’utilizzo di larghezza di banda esegue molte scansioni su computer vicini fisicamente ai siti che potrebbero essere sottoposti a scansione.
Di conseguenza i tuoi log potrebbero registrare visite di Google da diversi computer, tutte con lo user-agent Googlebot, ma con IP differenti. Di solito l’IP di Googlebot presenta la seguente classe c: 66.249.
Ricorda che l’obiettivo di Googlebot è prelevare il maggior numero di pagine del tuo sito evitando però di sovraccaricare il tuo web server.
Se il tuo server è lento e non riesce a stare al passo con le richieste di scansione di Google, puoi limitare la frequenza di scansione massima tramite le impostazioni sito di Google Search Console.
Risulta molto difficile tenere segreto un server web evitando di pubblicare link che rimandano a esso.
Ad esempio, non appena un utente segue un link che dal tuo server “segreto” rimanda a un altro server, il tuo URL “segreto” potrebbe essere visualizzato nel tag referrer ed essere memorizzato e pubblicato nel file log dall’altro server.
Allo stesso modo, sul Web esistono molti link obsoleti e inaccessibili. Quando qualcuno pubblica un link sbagliato che rimanda al tuo sito o non aggiorna i link per riflettere i cambiamenti avvenuti nel tuo server, Googlebot prova a eseguire la scansione di questo link sbagliato dal tuo sito.
Se vuoi impedire a Googlebot di eseguire la scansione dei contenuti del tuo sito, hai a disposizione le seguenti opzioni:
Tieni sempre presente la differenza tra:
Sono cose molto differenti che se non gestite correttamente da un consulente SEO esperto, possono provocare gravi danni al traffico organico del sito.
Di tanto in tanto gli indirizzi IP utilizzati da Googlebot cambiano, pertanto è normale che vi siano più richieste con il medesimo user agent da diversi IP.
Googlebot si identifica con una stringa dello user-agent, che però potrebbe essere oggetto di spoofing.
Il modo migliore per identificare gli accessi effettivamente eseguiti dal crawler di Google consiste nell’utilizzare una ricerca DNS inversa.
Tieni presente che tutti i bot dei motori di ricerca rispettano le direttive presenti nel file robots.txt, ma alcuni crawler e spammer non le seguono ignorandole completamente.
Se vuoi maggiori informazioni su Googlebot, non esitare ad usare i commenti!
Ottieni l’accesso a guide, strategie e tutorial esclusivi che non condivido da nessun’altra parte.
Sottoscrivo la Privacy Policy di Valentino Mea. Sottoscrivendo acconsenti a ricevere informazioni e offerte riservate. Rispettiamo la tua privacy, i tuoi dati sono al sicuro e non saranno mai ceduti a terzi.
Vuoi sviluppare un business online di successo o vuoi essere formato anche tu ad alti livelli?
Copyright © 2013 - 2023 · Valentino Mea Srls rating 5.0/5 su 22 recensioni · C.F. / P.iva: 04373930611 · Privacy Policy · Cookie Policy · Sitemap · All rights reserved
Ottimo articolo su Googlebot, veramente completo e soprattutto utile ai fini pratici.
Buongiorno Davide,
grazie per il feedback. Ci vediamo presto!