• User

    Software crawler

    Quale software usare per fare il crawler di un sito?


  • Moderatore

    ciao,
    se ho ben capito cerchi un software per visitare il tuo sito e analizzarlo, giusto?
    Cadono in due categorie: on-line e off-line

    Gli off-line li conosco meglio, te li cito in ordine di mia preferenza:

    • Visual SEO Studio
      Sono sicuramente sbilanciato nel giudizio, perché ne sono l'autore. è in beta stabile e gratuita, non pone limitazioni d'uso.
      Gira solo su Windows (al momemto)
    • IIS SEO Toolkit
      Poco noto ma potente, è gratuito ma deve essere installato come plug-in di IIS (non presente su tutte le macchine Windows); gira solo su Windows, ovviamente
    • Screaming Frog SEO Spider
      è il più noto e usato oggi dai SEO. La versione gratuita limita a 500 URL visitabili, compresi file immagine, css, script... e non permette di salvare il risultato della crawlata. La versione a pagamento dovrebbe essere 99 £/all'anno (circa 120?), iva esclusa
      Gira su Windows, Ubuntu e Mac
    • Xenu's Link Sleuth
      Vecchiotto, è un broken link checker molto efficiente, molto popolare in passato prima dell'avvento di Screaming Frog. Oggi è sempre molto usato perché veloce, gratuito, e senza limiti, anche se è nato per scopi diversi dal SEO.
      Gira solo su Windows. Non credo sia attivamente manutenuto.
    • GSiteCrawler
      Credo tu lo conosce perché l'hai usato per generare la tua sitemap. Nasce infatti come sitemap generator, anche se è ormai vecchiotto e ha qualche difficoltà da vista in su (va lanciato come admin per funzionare correttamente). Sembra una via di mezzo tra Xenu e SF. Gira solo su Windows. Gratuito. Non credo sia attivamente manutenuto.
    • Ve ne sono anche molti altri, tutti a pagamento con al massimo un periodo di prova e registrazione gratuita. A1 Site Auditor ha buona fama. I prezzi sono in tutte le fasce, e quasi tutti girano solo su Windows

    crawlers on-line:
    Non ho grande esperienza per risponderti. SEOMoz è il più noto, e di recente anche ahrefs ha lanciato sperimentalmente un servizio analogo. Ve ne sono molti ma non li ho mai analizzati troppo a fondo. Di solito in versione gratuita sono piuttosto limitati.

    Spero d'esserti stato utile.


  • User

    Grazie mille.
    Sei sempre molto gentile e professionale.


  • User

    Anche se tu sei di parte nel giudizio, ti confermo che a mio avviso il migliore è proprio Visual SEO Studio


  • Moderatore

    @pasky78 said:

    Anche se tu sei di parte nel giudizio, ti confermo che a mio avviso il migliore è proprio Visual SEO Studio
    Sei molto gentile, grazie!

    So che ho ancora molto lavoro da fare.
    Sebbene ci sono molte cose che Visual SEO Studio fa in più (e la lista si allungherà molto) o che fa meglio dei concorrenti, a onore del vero ci sono ancora aspetti in cui è (al momento) più debole:

    • Una feature apprezzata in Screaming Frog è la possibilità di crawlare una lista di URL, anche di siti diversi tra loro.
      Serve principalmente per fare link audit usando liste di URL prese da varie fonti (GWT, SEOMoz, ahrefs, etc...).
      Visual SEO Studio al momento non lo fa (la feature è in cima alla lista e lo farà molto bene).
    • Xenu e Screaming Frog fanno anche da broken link checker, anche per i file immagine, css, e script.
      Visual SEO Studio si limita ad analizzare i file html (e per essi evidenzia se ci sono dei link rotti) per emulare il più possibile il comportamente di un web bot (il controllo degli URL delle immagini è pianificato, ma non prioritario; il controllo sarà effettuato come processo a parte).
    • Visual SEO Studio rispetta il crawl-delay indicato nel robots.txt, e in mancanza di esso rispetta un ritardo di cortesia di 10s (ovviamente per i siti per cui l'utente dimostra di essere amministratore la pausa può essere ridotto e anche annullata, viaggiando a velocità piena).
      Si comporta così per scelta etica, perché quando si usano risorse altrui senza dare nulla in cambio, è giusto almeno essere educati. Questo però può essere percepito come un difetto rispetto ai concorrenti che non si pongono molti scrupoli.
      In realtà, Visual SEO Studio è l'unico a permettere più crawlate parallele verso siti diversi, per cui l'audit di un gruppo di competitor o di un gruppo di prospect potrebbe essere anche più rapido che con gli altri strumenti, ma nel caso si voglia analizzare un unico grosso sito, il tempo è decisamente più lungo (ad esempio un utente spagnolo m'ha detto di aver crawlato a bassa intensità per un weekend il sito spagnolo di amazon, per studiarne con Visual SEO Studio la struttura).
    • Xenu è imbattibile come velocità di esplorazione di punta. Effettua un numero enorme di chiamate HTTP in parallelo (è tanto maleducato che può letteralmente fare un attacco DOS a un server che non è sufficientemente veloce a rispondere a tutte le chiamate). Quando il web server è molto performante, la strategia paga e la crawlata dura molto meno; quando il web server non è in grado di stargli al passo, si può anche bloccare (e di conseguenza anche la crawlata, ma è il meno).
      Screaming Frog ha un'architettura simile a quella di Xenu, ma è molto meno efficiente, non riesce a ottenere le stesse velocità di punta (SF permette di ridurre il numero di chiamate effettuate in parallelo, proprio perché rischiava di esaurire le risorse dei server lenti). Come detto, SF è meno efficiente di Xenu, tanto che il motore seriale di Visual SEO Studio ha di solito prestazioni analoghe a quelle di SF. Il motore di Visual SEO Studio effettua chiamate serializzate e si adatta ai tempi di risposta del server, per non sovraccaricarlo, e non è oggi particolarmente ottimizzato per la velocità piena pur avendo buoni margini di miglioramento (mantenendo un comportamente rispettoso per le risorse del server), per cui prevedo possa in futuro arrivare a superare in prestazioni medie SF.
    • la gestione delle XML Sitemap di Visual SEO Studio è molto più fine e potente di quella degli altri due strumenti (e ancora si arricchirà nell'imminente futuro), ma Screaming Frog fa una cosa che al momento in Visual SEO Studio manca:
      Se si eccedono (nella versione a pagamento) i 49.999 URL, Screaming Frog in automatico spezza la mappa in più file (in realtà i limiti del protocollo sono 50.000 URL e 10MB di dimensione file). Al momento Visual SEO Studio non lo fa (i siti con più di 50.000 URL sono molti, ma non sono i più comuni, e Visual SEO Studio permette comunque di frammentare manualmente l'esportazione di sitemap xml)
    • Visual SEO Studio al momento non supporta i caratteri * e $ nell'interpretare la sintassi del robots.txt; Screaming Frog ufficialmente sembra farlo (Xenu ignora bellamente il robots.txt). Non tutti i motori di ricerca riconoscono i caratteri, ma googlebot lo fa ed è sicuramente una cosa da mettere a posto.
    • ...

    Ho scritto queste note perché i lettori del forum si aspettano risposte il più possibile corrette e imparziali, spero d'esserci riuscito.
    Ti ringrazio per avermene dato l'opportunità.