• User Attivo

    Aggregatori rss "affossano" siti di news...

    è da 1 mese che il sito di un nostro cliente www.dgmag.it è sparito dalle serp

    forse abbiamo capito perchè e, se fosse questo il problema, sarebbe un grosso problema per tanti altri siti

    è circa 4 mesi che i contenuti di dgmag vengono ripubblicati da aggregatori rss molto popolari (kataweb, wikio ecc)

    piano piano cercando i titoli degli articoli di dgmag apparivano solo le pagine degli aggregatori e non la fonte reale dell'articolo

    abbiamo infatti notato che google sta eliminando dall'indice principale le pagine di dgmag che ritiene doppioni delle pagine generate dagli aggregatori

    in questo modo tutte le altre pagine di dgmag ottengono molti meno bl e perdono peso nelle serp

    cosa ne pensate di questa teoria? se fosse giusta si spiegherebbe perchè tanti siti che pubblicano news sono in crisi


  • User Attivo

    ecco una query d'esempio

    http://www.google.com/search?q=Kate+Moss+dimentica+Doherty+con+uno+sconosciuto

    cerchiamo il titolo di un articolo di dgmag ma appaiono tutti i siti che ripubblicano la notizia meno che dgmag


  • Moderatore

    il problema è che gli aggregatori nostrani si ostinano ad usare il famoso/famigerato 302....per quanto Google si pavoneggi, in realtà quel problema non è stato mai risolto e l'hijacking è ancora possibile


  • Super User

    Ciao J0sh,

    il problema sta proprio in ciò che ha detto paolino. E non solo.

    Alcuni siti non si limitano a parsare il primo paragrafo dell'articolo e poi rimandare il lettore all'articolo completo (sul tuo blog), ma pubblicano l'intero articolo.

    Molti aggregatori "riconoscono" la fonte semplicemente scrivendo il tuo sito come stringa di testo (es: Fonte: dmag.it) e basta. Certo, sulla carta stampata spesso basta e avanza; sul web no.

    Senza un link diretto, Google al momento non può scindere con esattezza articolo originale e un articolo feed-scraped. Se poi a ripubblicare i tuoi feed è un portale come Kataweb, e i tuoi articoli hanno poco "contorno" originale, non ci vuole uno scienziato per ipotizzare che l'anello debole della catena sia proprio il tuo sito.

    Volendola interpretare il più pessimisticamente possibile, se non esistessero i motori di ricerca, si tirerebbe fuori il Codice Civile se anche un solo sito sfigato ci copiasse una mezza riga di testo.
    Nell'era "del backlink e della citazione come metro di autorevolezza", se un portale aggrega i nostri feed ci si vanta immediatamente con gli amici al bar. Si rinuncia in parte al proprio diritto di autore in nome della visibilità e del traffico (e, se va di lusso, anche di un bel tot di link).

    E poi non dite che Google non ha portato un "Nuovo Ordine" nel web 🙂

    Comunque:

    Visto che la netiquette a quanto pare molti portali o presunti tali pensano sia un retaggio degli anni '90, o lasci perdere, però a quanto pare il tuo sito non è ancora abbastanza "forte" da resistere a fenomeni di vampirismo-seo da parte di siti più anziani, oppure piazzi nell'htaccess una cosa simile :

    RewriteEngine on
    RewriteCond %{HTTP_REFERER} !^$
    RewriteCond %{HTTP_REFERER} !^http://(www\.)?dgmag.it(/)?.*$ 
    RewriteRule \.(xml|rss)$ /rss/porno_fetish.xml [L,NC]
    ```:)
    
    .Stuart
    

  • User

    @Stuart said:

    Comunque:

    Visto che la netiquette a quanto pare molti portali o presunti tali pensano sia un retaggio degli anni '90, o lasci perdere, però a quanto pare il tuo sito non è ancora abbastanza "forte" da resistere a fenomeni di vampirismo-seo da parte di siti più anziani, oppure piazzi nell'htaccess una cosa simile :

    >RewriteEngine on
    >``````
    >
    RewriteCond %{HTTP_REFERER} !^$
    RewriteCond %{HTTP_REFERER} !^http://(www\.)?dgmag.it(/)?.*$ 
    RewriteRule \.(xml|rss)$ /rss/porno_fetish.xml [L,NC]
    >```:)
     
    .Stuart
    
     
    Questa azione mi sembra come minimo fuori luogo, dal momento che DGMAG stesso invita a ripubblicare i propri feeds su altri siti
    http://www.dgmag.it/pagine2.html
    cito:
    "Vuoi inserire le ultime news di DGMag sul tuo sito? Vuoi essere sempre aggiornato sulle news pubblicate da DGMag? "

  • User

    Analizzando meglio la questione ho notato che i feed rss di DGMAG sono composti dal titolo e da una sola riga del post.
    Secondo me non e' possibile che google penalizzi il contenuto intero originale a fronte di una sola riga duplicata in altri siti con tanto di link alla fonte, quindi il problema di DGMAG e' sicuramente un altro.


  • User Attivo

    @danleo said:

    Analizzando meglio la questione ho notato che i feed rss di DGMAG sono composti dal titolo e da una sola riga del post.
    Secondo me non e' possibile che google penalizzi il contenuto intero originale a fronte di una sola riga duplicata in altri siti con tanto di link alla fonte, quindi il problema di DGMAG e' sicuramente un altro.

    mi sembra stano però che google stia eliminando dall'indice primario proprio le news che vengono ripubblicate su altri siti


  • Moderatore

    @danleo said:

    Analizzando meglio la questione ho notato che i feed rss di DGMAG sono composti dal titolo e da una sola riga del post.
    Secondo me non e' possibile che google penalizzi il contenuto intero originale a fronte di una sola riga duplicata in altri siti con tanto di link alla fonte, quindi il problema di DGMAG e' sicuramente un altro.

    a quanto vedo i feed di DGMAG contengono una sola riga degli articoli, il problema è che però quando ripubblicano articoli altrui, li ripubblicano in toto


  • User

    In effetti potrebbe esserci qualcuno che invece di pubblicare i feed rss pubblica il contenuto completo, ma in questo caso i feed non c'entrano.
    X Josh: se 5 aggregatori compaiono nelle serp al posto di Dgmag per la stessa query, come mai compaiono tutti e 5? Secondo la tua teoria dovrebbe comparire una sola risorsa mentre le altre dovrebbero essere penalizzate al pari di dgmag.
    Paolino potrebbe aver ragione, ci saranno alcuni siti (esempio blog) che copiano interamente il contenuto citando la fonte ma senza link di rimando che causano la penalizzazione di dgmag e quindi gli stessi articoli pubblicati via rss compaiono prima su altri siti perche dmag viene penalizzato dalla pubblicazione dell'articolo intero, personalmente tenderei ad escludere gli rss parziali come causa.


  • Moderatore

    inoltre riprendendo il discorso di danleo, tengo a precisare che spessissimo la colpa è dei webmaster, che includono nei feed RSS tutto il contenuto dei post.....i feed vanno sempre popolati con anteprime del contenuto....

    del resto gli splog usano software automatizzati che estrapolano i contenuti esclusivamente dai feed, sarebbe troppo onerosi fare uno screen-scraping delle pagine html.....

    infine per bloccare alcuni harvester si può implementare un sistema di autenticazione dei bot http://googlewebmastercentral.blogspot.com/2006/09/how-to-verify-googlebot.html in modo da poter bloccare i bot indesiderati.....attualmente il protocollo descritto sul blog di Google è implementato da Y, Live e Google


  • User Attivo

    @danleo said:

    X Josh: se 5 aggregatori compaiono nelle serp al posto di Dgmag per la stessa query, come mai compaiono tutti e 5?
    in effetti nella query d'esempio ci sono i primi 3 risultati con lo stesso titolo... la cosa sconcertante però è che google sta giorno dopo giorno eliminando tutte le pagine degli articoli di dgmag mentre non elimina quelle generiche o relative ad altre sezioni... eppure non mi pare che le pagine con gli articoli abbiano qualcosa che non rientra nelle guidelines di google


  • User Attivo

    ragazzi era come supponevo... abbiamo modificato i titoli delle pagine di dgmag nelle quali vengono pubblicati gli articoli e ora google sembra non "vederle" più come contenuti duplicati... le pagine nell'indice primario infatti sono velocemente risalite di numero e ora stiamo risalendo nelle serp

    per chi è stato penalizzato quindi e propone i propri rss per la pubblicazione consiglio di prendere le dovute "misure di sicurezza"


  • Moderatrice

    @j0sh said:

    ragazzi era come supponevo... abbiamo modificato i titoli delle pagine di dgmag nelle quali vengono pubblicati gli articoli e ora google sembra non "vederle" più come contenuti duplicati... le pagine nell'indice primario infatti sono velocemente risalite di numero e ora stiamo risalendo nelle serp

    per chi è stato penalizzato quindi e propone i propri rss per la pubblicazione consiglio di prendere le dovute "misure di sicurezza"
    Interessante quanto scrivi anche se fra i siti "penalizzati" da google in questo periodo mi è sembrato di leggere che ci sono diversi i e-commerce che spesso non hanno gli rss.