Il Crawl Budget è il tempo che i motori di ricerca dedicano alla scansione del tuo sito web. Indica una serie di concetti e sistemi che i motori di ricerca utilizzano per decidere quante e quali pagine di un sito scansionare.
E’ un termine ormai comune quando si parla di ottimizzazione per i motori di ricerca e talvolta viene anche definito crawling budget, crawl space (spazio di scansione) o crawl time (tempo di scansione).
In questa guida completa vedremo:
La capacità di scansione dei motori di ricerca è davvero enorme, ma non illimitata e i crawler devono dividere la loro attenzione su milioni di siti.
Per questo motivo hanno bisogno di un sistema che li aiuti a definire un livello di priorità durante il processo di scansione.
Assegnare un crawl budget a ciascun sito web li aiuta proprio a concentrare gli sforzi di scansione sui siti di qualità.
No, in quanto parliamo di pagine per semplicità, ma questo concetto si applica a qualsiasi documento di cui i motori di ricerca possono eseguire la scansione.
Alcuni esempi di altri documenti sono:
In fase di consulenza SEO è quindi importante comprendere quali risorse vengono scansionate dai crawler e se queste risorse sono utili al posizionamento.
Google assegna crawl budget ad uno specifico sito in base a 2 fattori:
Il Crawl Rate Limit (o crawl host load) rappresenta un aspetto molto importante per determinare il crawl budget.
GoogleBot e gli altri crawler dei motori di ricerca infatti, sono progettati per evitare di sovraccaricare di richieste i server e vi prestano molta attenzione.
Per tale motivo determinano il limite di scansione di un sito basandosi su diversi fattori, tra cui:
Ciò significa che devi condividere il Crawl Rate Limit dell’host con tutti gli altri siti in esecuzione su di esso.
Pertanto è preferibile scegliere un server dedicato, che con ogni probabilità ridurrebbe notevolmente i tempi di caricamento per i tuoi visitatori.
Devi inoltre prestare attenzione nel caso tu abbia siti mobili e desktop separati in esecuzione sullo stesso host, anche loro hanno un limite di scansione condiviso.
La Crawl Demand, o pianificazione di scansione, consiste nel determinare se valga la pena o meno di riscansionare un determinato URL.
Molti sono i fattori che influenzano la pianificazione di scansione, tra cui:
Ad esempio, se prendi in considerazione la pagina di categoria di un sito eCommerce e la pagina di Privacy Policy, quale pensi che cambi più spesso e meriti di essere sottoposta a scansione più frequentemente?
L’obiettivo di un consulente SEO è che Google trovi e sia in grado di comprendere il maggior numero possibile di pagine indicizzabili del tuo sito e che lo faccia il più rapidamente possibile.
Quando aggiungi nuove pagine, o aggiorni pagine già esistenti, è auspicabile che i crawler le individuino nel più breve tempo possibile, poiché prima le pagine vengono indicizzate e prima potranno ottenere visibilità in SERP.
Pertanto, se stai sprecando il crawl budget i motori di ricerca non saranno in grado di eseguire la scansione del tuo sito in modo efficiente.
Spenderanno tempo su parti del tuo sito che non hanno importanza, con la probabile conseguenza che alcune parti invece molto rilevanti non vengano scansionate e quindi indicizzate
Praticamente sprecare il crawl budget significa danneggiare le performance SEO e il posizionamento sui motori di ricerca.
Nota bene: il crawl budget è in genere un fattore di cui preoccuparti se hai un sito di grandi dimensioni, diciamo dalle 10.000 pagine in su (documentazione ufficiale).
In tal caso, è consigliabile acquistare servizi SEO professionali per procedere all’ottimizzazione.
Tra tutti i motori di ricerca, Google è quello che indica in maniera più trasparente quanto crawl budget dedicherà al tuo sito.
Se il tuo sito è stato verificato in Google Search Console, puoi ottenere alcune informazioni sul crawl budget assegnato al tuo sito da Google:
Nell’esempio vediamo che il crawl budget iniziale è di circa 300 pagine al giorno, mentre quello attuale è di circa 100 pagine.
Controllare i log del server è molto utile per vedere con quale frequenza i crawler eseguono la scansione del nostro sito web.
Inoltre, è interessante confrontare queste statistiche con quelle riportate in Search Console in quanto è sempre meglio fare affidamento su più fonti.
L’ottimizzazione del crawl budget (crawl budget optimization) consiste nel garantire che non vi siano sprechi nella scansione delle risorse di un sito.
Bisogna quindi essere in grado di correggere tutti quei problemi che possono portare ad uno spreco di crawl budget.
Dopo aver ottimizzato migliaia di siti, mi sono reso conto che la maggior parte presenta le seguenti tipologie di problemi:
Vediamo nel dettaglio ogni singola problematica.
Un esempio di URL con parametro è il seguente: https://www.esempio.it/categoria/page.php?colore=nero.
Qui il parametro viene utilizzato per memorizzare la selezione di un visitatore in un filtro prodotto.
Nella maggior parte dei casi, gli URL con parametri non dovrebbero essere accessibili ai motori di ricerca, poiché possono generare una quantità praticamente infinita di URL.
Gli URL parametrici vengono comunemente utilizzati durante l’implementazione dei filtri di prodotto sui siti di e-commerce. Va bene usarli, ma assicurati che non siano accessibili ai crawler.
Per renderli inaccessibili ai motore di ricerca:
Con il termine “contenuto duplicato” ci riferiamo a pagine che sono identiche o molto simili tra loro.
Esempi di contenuto duplicato sono: le pagine con contenuto copiato da altri siti, le pagine dei risultati della ricerca interna e le pagine dei tag.
Il tuo obiettivo è far sì che il motore di ricerca non perda tempo per scansionare pagine con contenuti duplicati.
In tal senso diventa essenziale fare in modo che non ci siano contenuti duplicati sul tuo sito, o quantomeno che la presenza di tali contenuti sia ridotta al minimo.
Come fare?
Le pagine con contenuti scarni o inconsistenti e che non aggiungono alcun valore per gli utenti, non sono interessanti per i motori di ricerca e dovresti evitare di pubblicare tali pagine sul tuo sito.
Un esempio di contenuto di bassa qualità è una sezione FAQ con link a domande e risposte, in cui ogni domanda e risposta viene però pubblicata su un URL separato.
I broken link sono link che puntano a pagine che non esistono più, mentre i link di reindirizzamento sono link verso URL che reindirizzano ad altri URL.
I link rotti e le lunghe catene di redirect sono vicoli ciechi per i motori di ricerca.
In modo simile ai browser, Google sembra seguire un massimo di 5 reindirizzamenti concatenati in una scansione (potrebbe riprendere a eseguire la scansione in seguito).
Non è chiaro in che modo gli altri motori di ricerca gestiscono i reindirizzamenti consecutivi, ma consiglio vivamente di evitarli e di ridurre al minimo l’utilizzo dei redirect.
È chiaro che puoi recuperare rapidamente il crawl budget sprecato correggendo i link verso pagine di errore e i link verso pagine che reindirizzano.
Oltre a recuperare il crawl budget, stai anche migliorando in modo significativo l’esperienza utente del visitatore.
I reindirizzamenti, infatti, allungano i tempi di caricamento della pagina e quindi pregiudicano l’esperienza dell’utente.
La Sitemap XML è un ottimo strumento per aiutare i motori di ricerca ad utilizzare saggiamente il crawl budget e tutti gli URL inclusi al suo interno devono essere risorse indicizzabili.
Soprattutto per i siti di grandi dimensioni, i motori di ricerca fanno molto affidamento alle Sitemap XML per trovare tutte le pagine del sito.
Se le tue Sitemap XML sono piene di pagine 404 o di pagine 3xx, stai sprecando il crawl budget.
Controlla regolarmente la tua Sitemap XML e verifica che non siano inserite pagine non indicizzabili e URL con status code 3xx, 4XX e 5xx.
Controlla anche se ci sono pagine che sono state erroneamente escluse dalla Sitemap XML.
Google Search Console riporta i problemi di sitemap XML in Indice> Sitemap:
Una best practice per l’ottimizzazione del crawl budget è quella di suddividere per tipologia le pagine in diverse Sitemap XML.
Puoi creare sitemap XML per ciascuna sezione del tuo sito per determinare rapidamente se ci sono problemi in specifiche sezioni.
Ad esempio, se la tua sitemap per la sezione A contiene 500 link e 450 sono indicizzati significa che stai andando abbastanza bene (l’ideale è che tutte le pagine al suo interno siano indicizzate).
Invece, se la sitemap per la sezione B contiene 500 link e solo 100 sono indicizzati, significa che qualcosa che non va (potresti aver incluso molti URL non indicizzabili).
Quando le pagine hanno tempi di caricamento elevati o vanno in timeout, hanno un impatto negativo sul crawl budget.
Ciò infatti indica ai motori di ricerca che il tuo sito non è in grado di gestire la richiesta e pertanto potrebbero modificare il limite di scansione per il tuo sito.
Oltre a questo aspetto negativo, tempi di caricamento molto lunghi e timeout della pagina incidono in modo negativo sull’esperienza dell’utente, con un conseguente calo del tasso di conversione.
Tempi di caricamento della pagina superiori ai 3 secondi rappresentano dunque un problema, idealmente una pagina dovrebbe essere caricata in meno di 1 secondo.
Google riporta il tempo di caricamento delle pagine in:
Inoltre in Search Console vengono riportati eventuali timeout delle pagine nel report Copertura> Errori> Errori di scansione, mentre in Bing Webmaster Tools devi guardare alla voce Reports & Data> Informazioni di scansione.
Controlla regolarmente questi report per vedere se le tue pagine si stanno caricando abbastanza velocemente e in caso negativo agisci tempestivamente.
Le pagine a caricamento rapido sono fondamentali per il tuo successo online.
Se il tuo sito contiene un numero elevato di pagine non indicizzabili, che sono però accessibili ai motori di ricerca, stai sprecando inutilmente crawl budget.
Consideriamo non indicizzabili i seguenti tipi di pagine:
Per scoprire se hai molte pagine non indicizzabili, dovrai effettuare una scansione con un emulatore di crawler (ad esempio Screaming Frog, Visual SEO Studio, ecc.) ed analizzare i dati.
Il modo in cui le pagine interne del tuo sito sono linkate tra loro, ossia la struttura dei link interni, gioca un ruolo fondamentale nell’ottimizzazione del crawl budget.
Se tale struttura non è impostata correttamente, i motori di ricerca potrebbero non prestare sufficiente attenzione ad alcune pagine.
A parte i backlink, le pagine che hanno pochi link interni ricevono meno attenzione dai motori di ricerca rispetto a quelle che vengono linkate da molte altre pagine.
Assicurati che le tue pagine più importanti ricevano molti link interni, in quanto storicamente le pagine sottoposte a scansione di solito si posizionano meglio nei motori di ricerca.
Ad esempio, se hai un articolo di blog che ottiene molto traffico organico, assicurati che questo contenuto sia linkato da altre pagine.
Google ha spiegato che esiste una forte relazione tra l’autorità della pagina e il crawl budget: in pratica, più autorità ha una pagina maggiore sarà suo il crawl budget.
In poche parole, per incrementare il crawl budget devi aumentare l’autorità delle tue pagine e per farlo occorre acquisire backlink da siti esterni.
Questo però non è sufficiente, in quanto se la SEO tecnica del tuo sito è carente, Google continuerà ad eseguire la scansione di pagine inutili in termini di posizionamento.
Quindi dovrai comprendere le differenze tra problemi di indicizzazione e problemi di scansione, e procedere alla loro ottimizzazione.
Nota bene: queste sono tutte ottimizzazioni avanzate che insegno nel mio corso SEO Online.
Ottieni l’accesso a guide, strategie e tutorial esclusivi che non condivido da nessun’altra parte.
Sottoscrivo la Privacy Policy di Valentino Mea. Sottoscrivendo acconsenti a ricevere informazioni e offerte riservate. Rispettiamo la tua privacy, i tuoi dati sono al sicuro e non saranno mai ceduti a terzi.
Vuoi sviluppare un business online di successo o vuoi essere formato anche tu ad alti livelli?
Copyright © 2013 - 2023 · Valentino Mea Srls rating 5.0/5 su 22 recensioni · C.F. / P.iva: 04373930611 · Privacy Policy · Cookie Policy · Sitemap · All rights reserved
Lascia un commento