• User Attivo

    quesito su robots.txt strano

    Buonasera a tutti,
    so gnurante, mi dareste spiegazione o conferma di quello che ho trovato su un sito (realizzato in WordPress con 400 pagine piu o meno)

    posso anche capire bloccare i bot di semrush e ahrefs, forse per evitare rallentamenti da scansioni intensive? boh
    ma il resto?!

    User-agent: DomainCrawler
    Disallow: /
    User-agent: SemrushBot
    Disallow: /
    User-agent: AhrefsBot
    Disallow: /
    User-agent: *
    Disallow: /.jpg
    Disallow: /
    .JPG
    Disallow: /.png
    Disallow: /
    .PDF
    Disallow: /.pdf
    Disallow: /
    .mp3
    Disallow: /.MOV
    Disallow: /
    .mov
    Disallow: /.AVI
    Disallow: /
    .avi
    Disallow: /.csv
    Disallow: /
    .data
    Crawl-delay: 2

    è roba normale?


    giulio.marchesi 1 Risposta
  • User Attivo

    @shazarak mah, per conoscere le eventuali ragioni occorre conoscere bene tutto il contesto ovviamente, comunque sia di robots.txt "creativi" ne ho trovati diversi, anche con annunci di lavoro, lol.

    Diciamo che bloccare i bot di Semrush e Ahrefs mi pare un po' stupido (tra l'altro nell'eventualità, i bot degli altri servizi? Dimenticati? Mah...).

    Bloccare la scansione di determinati file può avere senso in alcune condizioni, qui a livello generale direi di prestare molta attenzione! Ha senso se vuoi evitare la scansione e indicizzazione di file che possono non essere scansionati, indicizzati, se però contribuiscono al rendering o al posizionamento stesso, direi proprio che bloccarli è un errore! Bloccare un'immagine, magari infografica con potenziale utilità per gli utenti (e potenziale traffico, impression), titolo ottimizzato e alt-text, è sicuramente un errore.

    Quindi ribadisco che sarebbe opportuno conoscere meglio il contesto, tutte le ragioni (ammesso che esistano!) per cui il robots.txt sia stato strutturato in questo modo. Dopodiché, se un sito amatoriale o comunque piccolino ha un robots.txt con più istruzioni di quello di Google, viene da farsi qualche domanda.


    shazarak 1 Risposta
  • User Attivo

    @giulio-marchesi grazie per le conferme 🙂
    Quel poco di contesto che so è che il sito è stato rifatto di recente da non so chi e il cliente finale sembra si sia ritrovato con perdita di posizionamenti vari. Al che mi han chiesto di dargli una occhiata e oltre a varie cosucce ( ben più gravi) trovate c’era appunto questo robots
    A buttarla lì mi veniva da supporre fosse il vecchio robots di un sito non WordPress che si sono ritrovati li causa penosa migrazione visto che manca il tipico disallow su Word-admin ma vai a sapere che hanno combinato..
    Fa ridere poi che il sito blocca jpg e png ma non le svg che risultano le uniche indicizzate
    Morale: per me è proprio un lavoro fatto male e basta 😢