Logo Valentino Mea Consulente SEO e SEM
Googlebot cos'è e come funziona

Googlebot cos’è e come funziona

Hai sentito parlare di Googlebot e vuoi comprendere meglio di cosa si tratta? In questa guida completa, tratta dalla documentazione ufficiale e dedicata a chi vuole diventare SEO specialist, ti spiego tecnicamente cos’è e come funziona.

Indice dei contenuti:


Che cos’è Googlebot

Googlebot identifica il web crawler di Google. Per la precisione identifica due diversi tipi di crawler: un crawler desktop che simula un utente da dispositivo desktop e un crawler mobile che simula un utente da dispositivo mobile.

Il 1° si occupa di accedere ai contenuti web in modalità “desktop-browser”, mentre il 2° si occupa di effettuare il crawling dei contenuti destinati agli utenti mobile.

Entrambi i crawler rispettano però il medesimo token di prodotto (token dello user-agent) nel file robots.txt, quindi non possiamo scegliere selettivamente come target Googlebot Smartphone o Desktop tramite il file robots.txt.

Se hai un sito convertito in sito con priorità ai contenuti per dispositivi mobili su Google (Mobile-first indexing enabled), la maggior parte delle scansioni viene effettuata tramite Googlebot Smartphone, mentre una piccola parte continua ad essere svolta con il crawler desktop.

Per i siti che invece non sono stati ancora convertiti, la maggior parte delle scansioni continua ad essere svolta attraverso il crawler desktop.

In entrambi i casi, il crawler di minoranza effettua la scansione soltanto degli URL già sottoposti a scansione dal crawler di maggioranza.

Probabilmente il tuo sito sarà sottoposto a scansione da entrambi i crawler (Desktop e Smartphone) e puoi identificare il sottotipo di Googlebot esaminando la stringa dello user-agent nella richiesta presente nei file log del tuo server.

Elenco user-agent di Google

Nella tabella che segue vengono indicati i crawler usati da vari prodotti e servizi Google:

Crawler User agent Stringa completa dello user-agent
APIs-Google
  • APIs-Google
APIs-Google (+https://developers.google.com/webmasters/APIs-Google.html)
AdSense
  • Mediapartners-Google
Mediapartners-Google

(Analizza i contenuti AdSense)

AdsBot Mobile Web Android
  • AdsBot-Google-Mobile
Mozilla/5.0 (Linux; Android 5.0; SM-G920A) AppleWebKit (KHTML, like Gecko) Chrome Mobile Safari (compatible; AdsBot-Google-Mobile; +http://www.google.com/mobile/adsbot.html)

(Verifica la qualità dell’annuncio nella pagina web Android)

AdsBot Mobile Web
  • AdsBot-Google-Mobile
Mozilla/5.0 (iPhone; CPU iPhone OS 9_1 like Mac OS X) AppleWebKit/601.1.46 (KHTML, like Gecko) Version/9.0 Mobile/13B143 Safari/601.1 (compatible; AdsBot-Google-Mobile; +http://www.google.com/mobile/adsbot.html)

(Verifica la qualità dell’annuncio nella pagina web dell’iPhone)

AdsBot
  • AdsBot-Google
AdsBot-Google (+http://www.google.com/adsbot.html)

(Verifica la qualità dell’annuncio nella pagina web per desktop)

Googlebot Immagini
  • Googlebot-Image
  • Googlebot
Googlebot-Image/1.0

(Analizza le immagini)

Googlebot News
  • Googlebot-News
  • Googlebot
Googlebot-News
Googlebot Video
  • Googlebot-Video
  • Googlebot
Googlebot-Video/1.0
Googlebot (Desktop)
  • Googlebot
  • Mozilla/5.0 (compatible; Googlebot/2.1; +http://www.google.com/bot.html)
  • Mozilla/5.0 AppleWebKit/537.36 (KHTML, like Gecko; compatible; Googlebot/2.1; +http://www.google.com/bot.html) Safari/537.36

o (utilizzato raramente):

  • Googlebot/2.1 (+http://www.google.com/bot.html)

(Analizza le pagine web)

Googlebot (Smartphone)
  • Googlebot
Mozilla/5.0 (Linux; Android 6.0.1; Nexus 5X Build/MMB29P) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/41.0.2272.96 Mobile Safari/537.36 (compatible; Googlebot/2.1; +http://www.google.com/bot.html)

(Analizza le pagine web per i dispositivi mobile)

Mobile AdSense
  • Mediapartners-Google
(Vari tipi di dispositivi mobili) (compatible; Mediapartners-Google/2.1; +http://www.google.com/bot.html)
Mobile Apps Android
  • AdsBot-Google-Mobile-Apps
AdsBot-Google-Mobile-Apps

(Verifica la qualità dell’annuncio nella pagina per app Android. Segue le regole dei robot AdsBot-Google.)

Come mostrato nella tabella, alcuni crawler hanno più di uno user agent, ma devi utilizzare un solo token corrispondente per poter applicare una regola.

Il token dello user-agent viene usato nella riga User-agent del file robots.txt in modo che ci sia corrispondenza con un tipo di crawler durante la scrittura delle regole di scansione per il tuo sito.

La stringa completa dello user-agent è una descrizione completa del crawler che viene mostrata nella richiesta e nei log web.

Questo elenco non è completo, ma include la maggior parte dei crawler che puoi vedere analizzando il log del tuo sito web.

Questi valori possono essere oggetto di spoofing. Se devi verificare che il visitatore è realmente Googlebot, esegui una ricerca DNS inversa.

Ogni quanto passa Googlebot

Googlebot è stato progettato per essere eseguito contemporaneamente da migliaia di computer per migliorare il rendimento e seguire il ritmo di crescita del Web.

Normalmente accede alla maggioranza dei siti non più di una volta ogni pochi secondi. In alcuni casi e per brevi periodi, tale frequenza potrebbe risultare leggermente superiore.

Inoltre, per ridurre l’utilizzo di larghezza di banda esegue molte scansioni su computer vicini fisicamente ai siti che potrebbero essere sottoposti a scansione.

Di conseguenza i tuoi log potrebbero registrare visite di Google da diversi computer, tutte con lo user-agent Googlebot, ma con IP differenti. Di solito l’IP di Googlebot presenta la seguente classe c: 66.249.

Ricorda che l’obiettivo di Googlebot è prelevare il maggior numero di pagine del tuo sito evitando però di sovraccaricare il tuo web server.

Se il tuo server è lento e non riesce a stare al passo con le richieste di scansione di Google, puoi limitare la frequenza di scansione massima tramite le impostazioni sito di Google Search Console.

Frequenza di scansione massima Google Search Console

Come impedire a Googlebot di visitare il proprio sito

Risulta molto difficile tenere segreto un server web evitando di pubblicare link che rimandano a esso.

Ad esempio, non appena un utente segue un link che dal tuo server “segreto” rimanda a un altro server, il tuo URL “segreto” potrebbe essere visualizzato nel tag referrer ed essere memorizzato e pubblicato nel file log dall’altro server.

Allo stesso modo, sul Web esistono molti link obsoleti e inaccessibili. Quando qualcuno pubblica un link sbagliato che rimanda al tuo sito o non aggiorna i link per riflettere i cambiamenti avvenuti nel tuo server, Googlebot prova a eseguire la scansione di questo link sbagliato dal tuo sito.

Se vuoi impedire a Googlebot di eseguire la scansione dei contenuti del tuo sito, hai a disposizione le seguenti opzioni:

  1. file robots.txt;
  2. meta tags Robots;
  3. intestazione http X-Robots-Tag;
  4. file del server web protetti da password.

Tieni sempre presente la differenza tra:

  1. impedire a Googlebot di eseguire la scansione di una pagina;
  2. impedire a Googlebot di indicizzare una pagina;
  3. impedire del tutto l’accesso a una pagina sia ai crawler sia agli utenti.

Sono cose molto differenti che se non gestite correttamente da un consulente SEO esperto, possono provocare gravi danni al traffico organico del sito.

Problemi con spammer e altri user-agent

Di tanto in tanto gli indirizzi IP utilizzati da Googlebot cambiano, pertanto è normale che vi siano più richieste con il medesimo user agent da diversi IP.

Googlebot si identifica con una stringa dello user-agent, che però potrebbe essere oggetto di spoofing.

Il modo migliore per identificare gli accessi effettivamente eseguiti dal crawler di Google consiste nell’utilizzare una ricerca DNS inversa.

Tieni presente che tutti i bot dei motori di ricerca rispettano le direttive presenti nel file robots.txt, ma alcuni crawler e spammer non le seguono ignorandole completamente.

Se vuoi maggiori informazioni su Googlebot, non esitare ad usare i commenti!

Commenti (2)

  • Avatar

    |

    Ottimo articolo su Googlebot, veramente completo e soprattutto utile ai fini pratici.

    Reply

    • Avatar

      |

      Buongiorno Davide,
      grazie per il feedback. Ci vediamo presto!

      Reply

Lascia un commento

Categorie del Blog

Telefona 02 8718 8516
preventivo@valentinomea.it