@LowLevel said:
Esistono caratteristiche di una pagina che inducono i motori di ricerca a bannarle.
[url=http://dmoz.org/Computers/Internet/Web_Design_and_Development/Authoring/Online_Tools/robots.txt/]Questa pagina di DMOZ non è mai stata indicizzata da Google. Si noti che le altre pagine dello stesso livello sono invece presenti nel database.
E Google si rifiuta persino di indicizzare [url=http://directory.google.com/Top/Computers/Internet/Web_Design_and_Development/Authoring/Online_Tools/robots.txt/]la propria pagina nella sua directory, corrispondente a quella di DMOZ.
Domanda: perché?
Penso che dei test e delle ricerche su DMOZ per individuare pagine simili possano permettere di individuare una regola applicata dal motore di ricerca.
Aggiunto: io ho un paio di idee, la prima basata sui contenuti dell'URL e la seconda sui contenuti della pagina. Ma prima vorrei sentire il parere degli altri.
ipotesi: e se fosse che google trovando un robots.txt consideri immediatamente la dir la docroot di un altro sito? sarebbe cioe' l'inizio del filtro antiduplicazione: se intanto trovo un robots, e' sicuramente di un altro sito, quindi questo e' un duplicato.
plausibile?