Crawl Budget SEO

Crawl Budget SEO: cos’è e come si ottimizza per Google

Il Crawl Budget è il tempo che i motori di ricerca dedicano alla scansione del tuo sito web. Indica una serie di concetti e sistemi che i motori di ricerca utilizzano per decidere quante e quali pagine di un sito scansionare.

E’ un termine ormai comune quando si parla di ottimizzazione per i motori di ricerca e talvolta viene anche definito crawling budget, crawl space (spazio di scansione) o crawl time (tempo di scansione).

In questa guida completa vedremo:


Perché i motori di ricerca assegnano il Crawl Budget ai siti

La capacità di scansione dei motori di ricerca è davvero enorme, ma non illimitata e i crawler devono dividere la loro attenzione su milioni di siti.

Per questo motivo hanno bisogno di un sistema che li aiuti a definire un livello di priorità durante il processo di scansione.

Assegnare un crawl budget a ciascun sito web li aiuta proprio a concentrare gli sforzi di scansione sui siti di qualità.

Il Crawl Budget riguarda solo le pagine HTML?

No, in quanto parliamo di pagine per semplicità, ma questo concetto si applica a qualsiasi documento di cui i motori di ricerca possono eseguire la scansione.

Alcuni esempi di altri documenti sono:

  • file JavaScript e CSS;
  • versione mobile delle pagine;
  • varianti hreflang;
  • file PDF;
  • documenti Word;
  • ecc.

In fase di consulenza SEO è quindi importante comprendere quali risorse vengono scansionate dai crawler e se queste risorse sono utili al posizionamento.

Come viene stabilito il Crawl Budget

Google assegna crawl budget ad uno specifico sito in base a 2 fattori:

  1. Crawl Rate Limit: quante scansioni può gestire un sito web;
  2. Crawl Demand: quali URL vale la pena riscansionare, in base alla popolarità e alla frequenza con cui vengono aggiornati.

Cos’è il Crawl Rate Limit

Il Crawl Rate Limit (o crawl host load) rappresenta un aspetto molto importante per determinare il crawl budget.

GoogleBot e gli altri crawler dei motori di ricerca infatti, sono progettati per evitare di sovraccaricare di richieste i server e vi prestano molta attenzione.

Per tale motivo determinano il limite di scansione di un sito basandosi su diversi fattori, tra cui:

  1. Prestazioni del Web Server: con quale frequenza gli URL richiesti vanno in Timeout o restituiscono errori di server;
  2. Quantità di siti in esecuzione sull’host: se il tuo sito è su un hosting condiviso con centinaia di altri siti, il suo limite di scansione sarà molto limitato poiché viene determinato a livello di host.

Ciò significa che devi condividere il Crawl Rate Limit dell’host con tutti gli altri siti in esecuzione su di esso.

Pertanto è preferibile scegliere un server dedicato, che con ogni probabilità ridurrebbe notevolmente i tempi di caricamento per i tuoi visitatori.

Devi inoltre prestare attenzione nel caso tu abbia siti mobili e desktop separati in esecuzione sullo stesso host, anche loro hanno un limite di scansione condiviso.

Cos’è la Crawl Demand

La Crawl Demand, o pianificazione di scansione, consiste nel determinare se valga la pena o meno di riscansionare un determinato URL.

Molti sono i fattori che influenzano la pianificazione di scansione, tra cui:

  • Popolarità: quanti link in entrata (sia interni che esterni) ha una determinata pagina web e per quante query si posiziona;
  • Freshness: con quale frequenza viene aggiornato il contenuto della pagina web;
  • Tipo di pagina: con quale frequenza una pagina tende a subire modifiche.

Ad esempio, se prendi in considerazione la pagina di categoria di un sito eCommerce e la pagina di Privacy Policy, quale pensi che cambi più spesso e meriti di essere sottoposta a scansione più frequentemente?

Perché dovresti ottimizzare il Crawl Budget

L’obiettivo di un consulente SEO è che Google trovi e sia in grado di comprendere il maggior numero possibile di pagine indicizzabili del tuo sito e che lo faccia il più rapidamente possibile.

Quando aggiungi nuove pagine, o aggiorni pagine già esistenti, è auspicabile che i crawler le individuino nel più breve tempo possibile, poiché prima le pagine vengono indicizzate e prima potranno ottenere visibilità in SERP.

Pertanto, se stai sprecando il crawl budget i motori di ricerca non saranno in grado di eseguire la scansione del tuo sito in modo efficiente.

Spenderanno tempo su parti del tuo sito che non hanno importanza, con la probabile conseguenza che alcune parti invece molto rilevanti non vengano scansionate e quindi indicizzate

Praticamente sprecare il crawl budget significa danneggiare le performance SEO e il posizionamento sui motori di ricerca.

Nota bene: il crawl budget è in genere un fattore di cui preoccuparti se hai un sito di grandi dimensioni, diciamo dalle 10.000 pagine in su (documentazione ufficiale).

In tal caso, è consigliabile acquistare servizi SEO professionali per procedere all’ottimizzazione.

Qual è il Crawl Budget di un sito?

Tra tutti i motori di ricerca, Google è quello che indica in maniera più trasparente quanto crawl budget dedicherà al tuo sito.

Crawl Budget in Google Search Console

Se il tuo sito è stato verificato in Google Search Console, puoi ottenere alcune informazioni sul crawl budget assegnato al tuo sito da Google:

  1. Accedi a Google Search Console e scegli la Proprietà;
  2. Vai in Impostazioni > Statistiche di Scansione. Qui puoi vedere il numero di pagine che Google scansiona ogni giorno.

Crawl Budget Google Search Console

Nell’esempio vediamo che il crawl budget iniziale è di circa 300 pagine al giorno, mentre quello attuale è di circa 100 pagine.

Determinare il Crawl Budget con i Log del Server

Controllare i log del server è molto utile per vedere con quale frequenza i crawler eseguono la scansione del nostro sito web.

Crawl Budget Analisi Log Server

Inoltre, è interessante confrontare queste statistiche con quelle riportate in Search Console in quanto è sempre meglio fare affidamento su più fonti.

Come ottimizzare il Crawl Budget per la SEO

L’ottimizzazione del crawl budget (crawl budget optimization) consiste nel garantire che non vi siano sprechi nella scansione delle risorse di un sito.

Bisogna quindi essere in grado di correggere tutti quei problemi che possono portare ad uno spreco di crawl budget.

Dopo aver ottimizzato migliaia di siti, mi sono reso conto che la maggior parte presenta le seguenti tipologie di problemi:

Vediamo nel dettaglio ogni singola problematica.

Parametri URL accessibili

Un esempio di URL con parametro è il seguente: https://www.esempio.it/categoria/page.php?colore=nero.

Qui il parametro viene utilizzato per memorizzare la selezione di un visitatore in un filtro prodotto.

Nella maggior parte dei casi, gli URL con parametri non dovrebbero essere accessibili ai motori di ricerca, poiché possono generare una quantità praticamente infinita di URL.

Gli URL parametrici vengono comunemente utilizzati durante l’implementazione dei filtri di prodotto sui siti di e-commerce. Va bene usarli, ma assicurati che non siano accessibili ai crawler.

Per renderli inaccessibili ai motore di ricerca:

  1. Usa il file robots.txt per indicare ai motori di ricerca di non scansionare questi URL.
  2. In alternativa, utilizza le impostazioni di gestione dei parametri URL in Search Console e Bing Webmaster Tools per indicare a Google e Bing quali pagine non devono essere sottoposte a scansione;
  3. Aggiungi rel = “nofollow” ai link dei filtri.

Contenuto duplicato

Con il termine “contenuto duplicato” ci riferiamo a pagine che sono identiche o molto simili tra loro.

Esempi di contenuto duplicato sono: le pagine con contenuto copiato da altri siti, le pagine dei risultati della ricerca interna e le pagine dei tag.

Il tuo obiettivo è far sì che il motore di ricerca non perda tempo per scansionare pagine con contenuti duplicati.

In tal senso diventa essenziale fare in modo che non ci siano contenuti duplicati sul tuo sito, o quantomeno che la presenza di tali contenuti sia ridotta al minimo.

Come fare?

  1. Implementa redirect 301 per tutte le varianti di dominio (HTTP, HTTPS, non WWW e WWW);
  2. Rendi le pagine dei risultati della ricerca interna inaccessibili a Google utilizzando il file robots.txt;
  3. Disabilita le pagine dedicate alle immagini (ad esempio: le famigerate pagine di allegati in WordPress);
  4. Utilizza in modo corretto le pagine di categoria e i tag.

Contenuti di bassa qualità

Le pagine con contenuti scarni o inconsistenti e che non aggiungono alcun valore per gli utenti, non sono interessanti per i motori di ricerca e dovresti evitare di pubblicare tali pagine sul tuo sito.

Un esempio di contenuto di bassa qualità è una sezione FAQ con link a domande e risposte, in cui ogni domanda e risposta viene però pubblicata su un URL separato.

I broken link sono link che puntano a pagine che non esistono più, mentre i link di reindirizzamento sono link verso URL che reindirizzano ad altri URL.

I link rotti e le lunghe catene di redirect sono vicoli ciechi per i motori di ricerca.

In modo simile ai browser, Google sembra seguire un massimo di 5 reindirizzamenti concatenati in una scansione (potrebbe riprendere a eseguire la scansione in seguito).

Non è chiaro in che modo gli altri motori di ricerca gestiscono i reindirizzamenti consecutivi, ma consiglio vivamente di evitarli e di ridurre al minimo l’utilizzo dei redirect.

È chiaro che puoi recuperare rapidamente il crawl budget sprecato correggendo i link verso pagine di errore e i link verso pagine che reindirizzano.

Oltre a recuperare il crawl budget, stai anche migliorando in modo significativo l’esperienza utente del visitatore.

I reindirizzamenti, infatti, allungano i tempi di caricamento della pagina e quindi pregiudicano l’esperienza dell’utente.

URL errati nelle sitemap XML

La Sitemap XML è un ottimo strumento per aiutare i motori di ricerca ad utilizzare saggiamente il crawl budget e tutti gli URL inclusi al suo interno devono essere risorse indicizzabili.

Soprattutto per i siti di grandi dimensioni, i motori di ricerca fanno molto affidamento alle Sitemap XML per trovare tutte le pagine del sito.

Se le tue Sitemap XML sono piene di pagine 404 o di pagine 3xx, stai sprecando il crawl budget.

Controlla regolarmente la tua Sitemap XML e verifica che non siano inserite pagine non indicizzabili e URL con status code 3xx, 4XX e 5xx.

Controlla anche se ci sono pagine che sono state erroneamente escluse dalla Sitemap XML.

Google Search Console riporta i problemi di sitemap XML in Indice> Sitemap:

Crawl Budget Sitemap XML

Una best practice per l’ottimizzazione del crawl budget è quella di suddividere per tipologia le pagine in diverse Sitemap XML.

Puoi creare sitemap XML per ciascuna sezione del tuo sito per determinare rapidamente se ci sono problemi in specifiche sezioni.

Ad esempio, se la tua sitemap per la sezione A contiene 500 link e 450 sono indicizzati significa che stai andando abbastanza bene (l’ideale è che tutte le pagine al suo interno siano indicizzate).

Invece, se la sitemap per la sezione B contiene 500 link e solo 100 sono indicizzati, significa che qualcosa che non va (potresti aver incluso molti URL non indicizzabili).

Pagine con tempi di caricamento elevati / timeout

Quando le pagine hanno tempi di caricamento elevati o vanno in timeout, hanno un impatto negativo sul crawl budget.

Ciò infatti indica ai motori di ricerca che il tuo sito non è in grado di gestire la richiesta e pertanto potrebbero modificare il limite di scansione per il tuo sito.

Oltre a questo aspetto negativo, tempi di caricamento molto lunghi e timeout della pagina incidono in modo negativo sull’esperienza dell’utente, con un conseguente calo del tasso di conversione.

Tempi di caricamento della pagina superiori ai 3 secondi rappresentano dunque un problema, idealmente una pagina dovrebbe essere caricata in meno di 1 secondo.

Google riporta il tempo di caricamento delle pagine in:

  • Google Analytics: vai in Comportamento> Velocità del sito;
  • Search Console: vai in Impostazioni > Statistiche di Scansione > Tempo medio di risposta.

Inoltre in Search Console vengono riportati eventuali timeout delle pagine nel report Copertura> Errori> Errori di scansione, mentre in Bing Webmaster Tools devi guardare alla voce Reports & Data> Informazioni di scansione.

Controlla regolarmente questi report per vedere se le tue pagine si stanno caricando abbastanza velocemente e in caso negativo agisci tempestivamente.

Le pagine a caricamento rapido sono fondamentali per il tuo successo online.

Numero elevato di pagine non indicizzabili

Se il tuo sito contiene un numero elevato di pagine non indicizzabili, che sono però accessibili ai motori di ricerca, stai sprecando inutilmente crawl budget.

Consideriamo non indicizzabili i seguenti tipi di pagine:

  • Con direttive noindex nel meta robots o pagine canonicalizzate;
  • Reindirizzamenti (3xx);
  • Non possono essere trovate (4xx);
  • Generano errori del server (5xx);

Per scoprire se hai molte pagine non indicizzabili, dovrai effettuare una scansione con un emulatore di crawler (ad esempio Screaming Frog, Visual SEO Studio, ecc.) ed analizzare i dati.

Il modo in cui le pagine interne del tuo sito sono linkate tra loro, ossia la struttura dei link interni, gioca un ruolo fondamentale nell’ottimizzazione del crawl budget.

Se tale struttura non è impostata correttamente, i motori di ricerca potrebbero non prestare sufficiente attenzione ad alcune pagine.

A parte i backlink, le pagine che hanno pochi link interni ricevono meno attenzione dai motori di ricerca rispetto a quelle che vengono linkate da molte altre pagine.

Assicurati che le tue pagine più importanti ricevano molti link interni, in quanto storicamente le pagine sottoposte a scansione di solito si posizionano meglio nei motori di ricerca.

Ad esempio, se hai un articolo di blog che ottiene molto traffico organico, assicurati che questo contenuto sia linkato da altre pagine.

Come posso aumentare il Crawl Budget del mio sito?

Google ha spiegato che esiste una forte relazione tra l’autorità della pagina e il crawl budget: in pratica, più autorità ha una pagina maggiore sarà suo il crawl budget.

In poche parole, per incrementare il crawl budget devi aumentare l’autorità delle tue pagine e per farlo occorre acquisire backlink da siti esterni.

Questo però non è sufficiente, in quanto se la SEO tecnica del tuo sito è carente, Google continuerà ad eseguire la scansione di pagine inutili in termini di posizionamento.

Quindi dovrai comprendere le differenze tra problemi di indicizzazione e problemi di scansione, e procedere alla loro ottimizzazione.

Nota bene: queste sono tutte ottimizzazioni avanzate che insegno nel mio corso SEO Online.

Valentino Mea

SEO Specialist e consulente SEM certificato Google Ads e Analytics. Dal 2010 fornisce servizi di consulenza a web agency, proprietari di siti e-commerce e start-up. Dal Novembre 2013 condivide tutorial pratici e la sua esperienza nel settore su questo blog.

Lascia un commento

Il tuo indirizzo email non sarà pubblicato. I campi obbligatori sono contrassegnati *

Libro SEO

Libro SEO per E-Commerce PRO di Valentino Mea

Scopri il primo libro su come ottimizzare siti e-commerce per aumentare il posizionamento su Google e trasformare gli utenti in clienti. Puoi trovarlo su Amazon.

I più letti del mese

Iscriviti alla Newsletter!

Ti aggiorni gratuitamente su SEO, SEM e Web Analytics.

Valentino Mea Consulente SEO e SEM

Sono Valentino Mea, esperto di Search Marketing a livello professionale dal 2010. Supporto Imprenditori e Liberi Professionisti nello sviluppare progetti web seri, sostenibili e redditizi, attraverso l’erogazione di:

  • Servizi SEO e SEM
  • Consulenza Oraria
  • Coaching Individuali

Se vuoi sviluppare un business online di successo e vuoi essere seguito da un consulente SEO e SEM affermato, non esitare a contattarmi!

Contattami

Copyright © 2013 - 2021 · Valentino Mea Srls rating 5.0/5 su 21 recensioni · C.F. / P.iva: 04373930611 · Privacy · Sitemap · All rights reserved