Consigli SEO per sito ecommerce

federico.sasso

Si, avevo provato ad usare i caratteri *, ma mi sono fermato perchè da un'analisi del file robots mi diceva che il carattere * non è supportato da tutti i motori.
Sì, è vero.
Non so ora farti un elenco dei motori che lo supportano. Tieni però conto che Google lo interpreta correttamente, e in Italia ha il 95% delle ricerche web.

pasky78

E per fare un crawler di un sito come lo farebbe google?

federico.sasso

@pasky78 said:

E per fare un crawler di un sito come lo farebbe google?
Nota: sto riscrivendo da capo questa risposta, causa apparente mancato click su "invia risposta rapida!

ciao pasky78,
ti fornisco due risposte, una lunga ed elaborata, l'altra corta con una assunzione non confermata sulla tua domanda. Buona lettura.

Risposta lunga:

Nessuno degli strumenti che posso indicarti si comporta esattamente come Google.
Il crawler di un motore di ricerca ha esigenze un po' diverse da quelle di un analizzatore di siti, e non tutto è documentato.

Per esempio, Google magari la prima volta che vede il tuo sito visita solo la home page, e magari torna dopo una settimana a visitare gli URL linkati dalla home page; anche l'ordine di visita degli URL non è strettamente prevedibile, anche se più o meno è un breadth-first (esplorazione in ampiezza, dove si visitano prima le pagine con meno profondità di link) alterato nella prioritizzazione dal PageRank delle pagine.
Alla lunga Google torna ciclicamente a visitarti con una frequenza che è proporzionale al PageRank, rivisitando tutte le pagine ma rispettando un tempo minimo tra una pagina e l'altra che può anche essere di sei minuti (scende se sa che sei un sito con molte pagine e autorevole).

Google fa così perché la sua priorità è trovare e indicizzare nel minor tempo possibile le pagine più significative di milioni di siti web, per cui non visita "tutto un sito in una botta".

Gli analizzatori di siti invece possono concentrarsi sul singolo sito, con tempi di visita e velocità maggiori.

Le caratteristiche di visita possono essere emulate in gran parte, ma non del tutto. Per esempio googlebot si presenta con un determinato user-agent a un intervallo noto di indirizzi IP; se un sito varia il comportamento se riconosce un IP come di Google, l'emulazione cade.

Ogni tool ha le sue caratteristiche, che possono più o meno coincidere con quelle di Google.

Prendi per esempio Xenu, Screaming Frong e Visual SEO Studio:

user-agent:
ognuno strumento ha il suo, diverso da quello di google.
Screaming Frog permette (credo nella sola versione a pagamento) di fare spoofing dello user-agent, ossia di "mentire" dichiarandosi googlebot. Visual SEO Studio non lo fa per codice etico, e nemmeno Xenu lo permette.
nota 1: tecnicamente è possibile usare un proxy per cambiare al volo uno user-agent, ma i due tool non lo permettono direttamente, né io lo incoraggio.
nota 2: in realtà i siti che si comportanto diversamente se lo user-agent è googlebot sono pochi

rispetto robots.txt
Xenu lo ignora bellamente (e la cosa lo espone a "spider-traps").
Screaming Frog dichiara compatibilità completa con la google nell'interpretazione del file
Visual SEO Studio al momento non riconosce i caratteri speciali * e $ (spiacente, arriveranno).
Visual SEO Studio è l'unico che rispetta crawl-delay (ignorabile per siti tuoi, visitabili allora a velocità piena). Google non riconosce crawl-delay (Bing sì), ma permette di impostarlo da GWT, ed è abbastanza educato in tale senso.

rispetto rel="nofollow"
Xenu lo ignora (l'attributo è apparso dopo)
Screaming Frog non si sa (non lo documenta)
Visual SEO Studio lo rispetta

limiti esplorazione:
Xenu e SF esplorano solo dal dominio (o sottocartella) in giù (SF nella versione a pagamente permette di modificare il comportamento predefinito); Visual SEO Studio cerca di inferire se il sottodominio è parte del tuo sito o un altro ente, come sembra faccia Google (esiste un db pubblico manutenuto da Mozilla con tutte le eccezioni del caso).

Ordine di esplorazione:
Xenu e SF usano una pipeline asincrona per velocizzare la crawlata, e non sono pertanto in grado di garantire l'ordine di esplorazione, che può variare di molto da una volta all'altra. Visual SEO Studio si attiene rigidamente a un ordine di esplorazione breadth-first. Google si comporta in un modo (non documentato) che è una specie di misto dei due: sembra essere un breadth-first alterato in priorità dal PR (se vi sono link esterni a pagine interne, la loro priorità può aumentare) in cui l'ordine non è stretto a causa della separazione fisica dei vari sistemi di elaborazione usati.

Velocità di esplorazione.
Xenu ha una pipeline asincrona efficientissima. Sebbene sia molto veloce, può causare la congestione di un server con insufficienti risorse, potrebbe essere usato per fare anche DOS su un sito tanto è maleducato.
Screaming Frog ha un'archittura simile ma meno efficiente (non per educazione), e permette di diminuire il numero di richieste concomitanti per ridurre la pressione su server meno performanti.
Visual SEO Studio rispetta il crawl-delay, e in mancanza di esso rispetta un intervallo di cortesia minimo di 10s ( per siti di cui si dimostra d'essere amministratori, permette naturalmente di accelerare e anche visitare a velocità piena).
Visual SEO Studio ha una pipeline strettamente seriale, e anche nel caso di velocità piena si adatta ai tempi di risposta del server per non sovraccaricarne le risorse; la serialità delle richieste gli permette rendere il processo di esplorazione strettamente ripetibile e di costruire un grafo dell'architettura di link.
Google ha tempi di esplorazione molto più dilatati, e quando ha già una mappa del tuo sito effettua chiamate intervallate tra due secondi a sei minuti (secondo dimensioni sito, PR e impostazioni di GWT) con il comportamento che ho già descritto.

Le differenze non finiscono qui, e molto spesso i comportamenti dei singoli strumenti - e di G - non sono documentati per cui è difficile esprimersi senza testarli appositamente (es.: normalizzazione degli url, catena di redirect, loop di redirect, redirect a risorse esterne, response code inusuali per robots.txt, dimensioni massime di risorsa scaricabile, etc...)

Lo strumento che conosco meglio - Visual SEO Studio, ovviamente - si fa in quattro per emulare il comportamente di un motore di ricerca e mostrarlo visivamente (con visualizzazione ad albero della struttura di link, dei crawl path, l'emulazione G-Time, etc..) ma ogni strumento è una realtà a sé quando si va nel singolo dettaglio.

Gli strumenti on-line poi sono ancora più terra di nessuno, perché hanno meno documentazione sul loro comportamente, e essendo di solito a pagamento sono difficili da testare.

Risposta breve:

Nel tuo caso specifico, se la necessità è testare una visita dopo aver messo gli * nel robots.txt, ahimé mi fa male dirlo l'unico che ufficialmente sembra supportarli è il mio competitor SF.
Ti consiglio comunque di testare anche con GWT, lì il motore che interpreta il file dovrebbe essere lo stesso usato da Google per visitarti.

Spero di non averti confuso troppo

pasky78

Risponderti solo con un grazie mi sembra troppo riduttivo.
Di più non potevi.

pasky78

Scusa, mi spieghi meglio perchè tu non escluderesti i /results,

Non basta indicizzare la pagina di categoria principale?

pasky78

@Federico Sasso said:

Non escluderei i /results, impediresti al crawler di visitare tutte le pagine di categoria (a parte la prima)

Scusa, mi spieghi meglio perchè tu non escluderesti i /results,

Non basta indicizzare la pagina di categoria principale?

federico.sasso

@pasky78 said:

Scusa, mi spieghi meglio perchè tu non escluderesti i /results,

Non basta indicizzare la pagina di categoria principale?

Ciao, mi spiego meglio:

Prendi per esempio la categoria "Gioielli"; la prima pagina ha path[INDENT]/categoria/gioielli.html[/INDENT]
mentre la seconda ha path[INDENT]/categoria/gioielli**/results,**10-9.html[/INDENT]

quindi se bloccassimo tramite robots.txt l'accesso ai path contenenti "/results," (come mi sembrava d'aver capito tu intendessi) i motori di ricerca non potrebbere visitare le pagine di categoria successive alla prima pagina.

pasky78

Si si, ho capito.
Comunque tu consigli di farle indicizzare?

federico.sasso

@pasky78 said:

Comunque tu consigli di farle indicizzare?

Non è importante siano indicizzate, se vuoi puoi metterle anche con <meta name="robots" content="noindex, follow" /> (che vuole dire "non indicizzare queste pagine, ma segui i link che trovi in esse")

L'importante è che non siano bloccate da robots.txt, altrimenti il crawler non potrà mai arrivare agli articoli e indicizzarli.

pasky78

Da qualche giorno ho notato un notevole calo di visualizzazioni e soprattutto di impressioni.
Ho la sensazione che sia stato penalizzato per contenuti duplicati.
C'è qualche strumento per capirlo? Tipo un software che scansioni il sito e mi dica le pagine con contenuti duplicati?

federico.sasso

La cosa più semplice è fare una scansione con uno spider e vedere le pagine che hanno stesso title, o stessa metadescrizione, etc.. o sono titoli e descrizioni non personalizzate, o sono le stesse identiche pagine con URL non previsti; in ogni caso sono responsabili di contenuti duplicate e da mettere a posto.

Vi possono essere anche altri casi, non individuabili in questo modo, ma queste sono le cause più comuni, e una vista d'insieme aiuta comunque a capire meglio se ci sono problemi on-site.

Prova anche a vedere da Analytics (o altro strumento, non so cosa usi) se riesci a capire per che ricerche hai il calo di impressioni/visite.
ciao

pasky78

Ciao scusa,
in un post dicevi: la paginazione è quasi inutilizzabile, tutta appiccicata così com'è

Cosa intendi con paginazione?
Come posso migliorarla?

federico.sasso

Ciao,
@pasky78 said:

in un post dicevi: la paginazione è quasi inutilizzabile, tutta appiccicata così com'è

Cosa intendi con paginazione?
Come posso migliorarla?
Hai presenti in pagine con tanti contenuti, per esempio /categoria/gioielli.html
il testo in fondo con scritto "12345678910»Fine" dove ogni carattere è un link a una pagina?
Intendevo dire che sono tutti appiccicati, è difficile per un utente cliccare un singolo numero.
Ti consiglio di distanziarli, e magari renderli più larghi e facili da cliccare.

bart46

@Federico Sasso said:

Ciao pasky78.
Ai consigli di Blays aggiungo:

tutti i link in corrispondenza della bustina, quelli con path .../recommend/... per capirsi, che aprono un contenuto del tipo "Info: YOU MUST LOGIN FIRST" dovrebbero avere l'attributo rel="nofollow", e il contenuto con il suddetto messaggio dovrebbe avere meta-tag noindex.
Questo perché così come sono crawlati dagli spider e visti come contenuti inutili e duplicati. Google ne indicizza circa 500.
.......................

Salve, mi potrebbe spiegare meglio questo concetto?

-innanzitutto cosa intende per "link in corrispondenza della bustina"?
poi suggerisce di settare a nofollow le pagine dove gli utenti dovrebbero loggarsi per visualizzare le pagine, questo perché essendoci contenuti duplicati google potrebbe penalizzare l'indicizzazione di quel sito?
è così o ho capito male?

grazie mille

Roberto

federico.sasso

Salve Bart46,
@Bart46 said:

innanzitutto cosa intende per "link in corrispondenza della bustina"?
pasky78 ha optato per eliminarli del tutto e ora non sono più presenti, ma al momento della sua prima richiesta nelle pagine di prodotto c'era un'immagine di una bustina con un link.

@Bart46 said:

poi suggerisce di settare a nofollow le pagine dove gli utenti dovrebbero loggarsi per visualizzare le pagine, questo perché essendoci contenuti duplicati google potrebbe penalizzare l'indicizzazione di quel sito?
è così o ho capito male?
Non solo: googlebot visitando quelle pagine sprecava tempo che avrebbe potuto dedicare a visitare contenuti più importanti.

Secondo le dimensioni del sito note a Google, e il PR che vi attribuisce, googlebot visita le pagine inframezzando le richieste alle singole pagine con tempi che fanno da qualche manciata di secondi a qualche minuto.

Se togliamo dal crawl-path (i link scoperti da Google durante un'esplorazione del sito) qualche centinaio di link, possiamo risparmiargli diverse ore di esplorazione verso contenuti inutili, che può dedicare a scoprire - o visitare più frequentemente - contenuti per noi più strategici.

La tecnica è di solito chiamata "ottimizzazione del crawl budget".

Spero d'aver chiarito meglio il concetto.

bart46

@Federico Sasso said:

Salve Bart46,

pasky78 ha optato per eliminarli del tutto e ora non sono più presenti, ma al momento della sua prima richiesta nelle pagine di prodotto c'era un'immagine di una bustina con un link.

Non solo: googlebot visitando quelle pagine sprecava tempo che avrebbe potuto dedicare a visitare contenuti più importanti.

Secondo le dimensioni del sito note a Google, e il PR che vi attribuisce, googlebot visita le pagine inframezzando le richieste alle singole pagine con tempi che fanno da qualche manciata di secondi a qualche minuto.

Se togliamo dal crawl-path (i link scoperti da Google durante un'esplorazione del sito) qualche centinaio di link, possiamo risparmiargli diverse ore di esplorazione verso contenuti inutili, che può dedicare a scoprire - o visitare più frequentemente - contenuti per noi più strategici.

La tecnica è di solito chiamata "ottimizzazione del crawl budget".

Spero d'aver chiarito meglio il concetto.

E' stato più che chiaro.. ad esempio io ho sviluppato e gestisco un sito e-commerce dove chiunque può visionare i prodotti, ma solo i registrati vedono il prezzo, in questo caso non si può fare lo stesso ragionamento fatto con pasky78, in quanto le pagine contenenti le info (tranne il prezzo che è irrilevante ai fini dell'indicizzazione) sono visionabili anche da non registrati.. giusto?

grazie mille per la risposta, ho imparato una nuova cosa

Roberto

federico.sasso

@Bart46 said:

... un sito e-commerce dove chiunque può visionare i prodotti, ma solo i registrati vedono il prezzo, in questo caso non si può fare lo stesso ragionamento fatto con pasky78, in quanto le pagine contenenti le info (tranne il prezzo che è irrilevante ai fini dell'indicizzazione) sono visionabili anche da non registrati.. giusto?
Nel caso di pasky78 gli URL esclusi dalla crawl-ata non erano le pagine di prodotto, erano - se ricordo bene - pagine per "raccomandare" il prodotto.
Nel caso presentato di pagine con o senza prezzo... giusto, devono essere visitabili dal crawler.