Generatore intelligente ..... ?

jeyjey

Generatore intelligente ..... ?

Cari ragazzi, adesso inizio una discussione con me stesso. Intanto ditemi cosa è questo .... ```
#!/usr/bin/perl
my $sitepath="/yourhtdocs";
my $website="http://yoursite.com";

chdir($sitepath);
@stuff=find . -type f -name "*.html";
open(O,">sitemap");
print O <<EOF;
<?xml version="1.0" encoding="UTF-8"?>
<urlset xmlns="http://www.google.com/schemas/sitemap/0.84">
EOF .....

I grandi smanettoni forse hanno capito. Leggete tutti i post. Sono importanti se volete che google abbia pieno accesso al vostro bel gioiello di sito. :mambo:

jeyjey

Se non avete capito cosa sia una sitemap allora non avete bisogno di avere tutte le pagine indicizzate su google. Oppure non avete problemi di latenza .... cosa sono? Se tutti qui più o meno hanno isp gratuiti o gratis (malattia italiana) va da se che, siccome non ti regala niente nessuno, qualcosa non torna. Certo, andate a vedere se tutte le pagine del vostro sito sono indicizzate, ovviamente no. I motivi sono tanti. Avete mai provato a fare il crawling del sito? E' un lavorone! E perchè Google deve aspettare i tempi di aruba? Perchè google deve aspettare se per un secondo (una eternità) il sito è fermo. Quello si ferma e se ne va. Per non parlare della profondità dei link. Avete messo il link per il sito di un vostro amico? Bene. Provate a vedere se è indicizzato. E se non è indicizzato il link non vale una se....a. Adesso come fare per dare ai serp l'esatta situazione? Semplice, l'indicizzazione la facciamo noi! E come? Mammamia come :heeeellll :heeeellll ? Dando a google la sitemap. Che bello, peccato che con mambo sia un casino. E' un anno che ci provo. Qualcuno di voi dirà adesso ci sono i crawler gratuiti! Diobono GRATISSE è morto! I crawler ti indicizzano alcune pagine poi devi pagare. Se qualcuno di voi vuole competere nei serp DEVE indicizzare tutto il sito! E quindi dotarsi di uno strumento professionale!!!!!!! Parliamo dei crawler da client .....

jeyjey

I crawler casalinghi sono dei software (anche gratis) che ti fanno la scansione del sito .... bella roba! Ci mettono un fine settimana anche se li lanci con il sito in mambo fatto in locale (lavora solo il processore). Quando fai un sito grosso arrivano i limiti del tuttogratis. Se usi quelli in php loro fanno lo scanning navigando la rete, che è, quindi uguale agli altri, tantovale farlo a casa. Ma c'è di peggio, che sono incontrollabili, non sai se hanno preso tutto perchè navigando in tutte le pagine come fanno loro mambo si siede. Infatti ho avuto anche megabyte in cache (occorre disattivarla! in tale occasione) e cinquecento utenti connessi contemporaneamente. Gli isp se vedono una cosa del genere magari rallentano la banda e puffete, tutto va a puàne. Quindi niente php!

Aggiungo: i crawler casalinghi (e tutti quelli di banda) se vedono componenti come ExtCalendar vanno in loop all'infinito!!!!!!!!!!! Perchè se cambia anno ci sono altri 365 links!!!!!!!!!!!

jeyjey

I componenti per mambo non funzionano .... non ce n'è. Fanno le sitemap ma per vederle in una pagina non per creare il file necessario a Google. Mi meraviglio come mai nessuno si è impegnato a farlo quando invece su Joomla la cosa è molto sentita. Se fossi stato un programmatore sarebbe stata la mia unica meta. Ma andiamo avanti. Che dice google su 'sta cosa? Ti dà uno strumento in phyton. Ooooooooh ora si .... peccato che non fa la scansione intelligente. Cioè devi abilitare i lig. Nei log ci sono le pagine che gli utenti visitano, poi il programma in phyton preleva le url (standard apache -- sicuro) e crea la sitemap facendo il ping a google che la preleva e viva Gesù. Ma aprire i log per ogni sito è una cosa assurda .... ci vuole un giga di spazio su disco. Quindi? Leggete il prossimo post.

jeyjey

...... che faccia la cosa a livello logico anzichè analogico! Quindi un programma che, se lanciato dal server, sfrutti la cpu, non la banda passante!!!! E questo esiste! Ve lo metto qui:

#!/usr/bin/perl
my $sitepath="/yourhtdocs";
my $website="http://yoursite.com";

chdir($sitepath);
@stuff=`find . -type f -name "*.html"`;
open(O,">sitemap");
print O <<EOF;
<?xml version="1.0" encoding="UTF-8"?>
<urlset xmlns="http://www.google.com/schemas/sitemap/0.84">
EOF
foreach (@stuff) {
 chomp;
 $badone=$_;
 $badone =~ tr/-_.\/a-zA-Z0-9//cd;
 print if ($badone ne $_);
 s/^..//;
$rfile="$sitepath/$_";
($dev,$ino,$mode,$nlink,$uid,$gid,$rdev,$size,$atime,$mtime,$ctime,$blksize,$blocks)=stat
$rfile;
($sec,$min,$hour,$mday,$mon,$year,$wday,$yday,$isdst)=localtime($mtime);
$year +=1900;
$mon++;
$mod=sprintf("%0.4d-%0.2d-%0.2dT%0.2d:%0.2d:%0.2d+00:00",$year,$mon,$mday,$hour,$min,$sec);
$mod=sprintf("%0.4d-%0.2d-%0.2d",$year,$mon,$mday);
$freq="monthly";
$freq="daily" if /index.html/;
$priority="0.5";
$priority="0.7" if /index.html/;
$priority="0.9" if /\/index.html/;

print O <<EOF;
<url>
      <loc>$website/$_</loc>
      <lastmod>$mod</lastmod>
      <changefreq>$freq</changefreq>
      <priority>$priority</priority>
</url>
EOF
}

print O <<EOF;
</urlset>
EOF
close O;
unlink("sitemap.gz");
system("gzip sitemap");

jeyjey

.... è la cosa più intelligente che ci sia su internet .... almeno dopo un anno di ricerche. Lui crea il file sitemap da server. Inoltre lo possiamo automatizzare, quindi mentre noi creiamo glli articolii tranquilli tranquilli lui, di notte, si fa l'autoscansione del sito al livello di codice--disco, e poi la mattina dopo noi troviamo la sitemap sulla home, e magari google che se l'è già presa. Quindi la mia felicità sarebbe massima. Il problema è che non sò come incastonare sul server questo codice.

In teoria sarebbe scritto in perl, quindi basterebbe metterlo in un file e chiamarlo nomefile.pl e lanciarlo da riga di comando. Così dicono, ma non mi parte. Gli errori sono tanti e non ci ho capito (permettetemelo vi prego vi supplico) una bella mazza! Se qualche volontario esperto linux desse una mano alla comunità mambo, farebbe "un'opera rotas" (diceva il sator). Credetemi forse questa è la nostra ultima speranza.

jeyjey

Uso Mambo, là siamo disperati non si trova un componente che faccia le sitemap. Occorre farsele da soli. Spesso è un casino. PHPSitemapNG della Enarion va in errore sulle porte .... altri inseriscono solo le pagine del sito .... che senso ha inserire le pagine del sito? Una dir ero capace anch'io di generarla, il migliore dovrebbe scrivere direttamente le url nel sitemap per evitare a Google il crawling multilivello che non si sa se va a buon fine. Quindi server un crawler diretto sul disco .... ce n'è?

jeyjey

Certo che è Agosto .... ma quello che ho detto non mi sembra tanto stupido ...

karapoto

Pensi possa andare bene anche per joomla?
Per il cugino cms ci sono alcuni prodotti che fanno la sitemap ma non credo che la aggiorni in automatico, quindi sarebbe interessante.

Grazie.

jeyjey

Avere un programmino che fà il crawling a livello di disco? Qui nessuno scrive su questo, credo che un buon SEO debba sapere come fare delle sitemap fatte bene. Io ho il problema di un blocco sul Socket connections e quindi non posso usare crawlers che parlano da porta-Apache a porta-Apache. L' ISP non me lo consente e sinceramente dovrei cambiare un settaggio in http.conf ma non sò quale. Quindi ho comperato un crawler ottimo (a pagamento) ma non lo posso lanciare, che sfiga. Invece unprogrammino che analizza le url non sarebbe male. L'unico problema (e qui riguarda i SEO) è che non potrebbe mai funzionare conle pagine in rewrite perchè il rewrite lo fa Apache quindi il disco non ha le url in rewrite. Che ne pensate? Spero a Settebmre qualcuno avrà avuto voglia di intavolare questa complessa discussione. Ciao a tutti i manfroni!

jeyjey

.... sient'ammè, questa è l'unica strada. Pensate io ho provato il Phyton di Google. In un secondo genera la sitemap di 1000 pagine .... peccato che la ricava da un file di log. Ed io lo spazio per i log dei miei siti dove lo prendo? Quindi questo codice Perl per linux, da mettere in "CRON" è l'unica speranza, credetemi. Pizzicate qualche smanettone linux e portatelo qui dentro al forum per le orecchie, farete un'opera buona per tutti. Ciao.

jeyjey

Tutti gli esperti webmaster sono in ferie?
Allora credo io opero così. Mi connetto al mio server web tramite Putty--SSH, poi mi posiziono con il prompt alla cartella dello script e scrivo:

/usr/bin/perl /home/sites/primosito/runcrawl.pl

Se i settaggi sono fatti bene il pl del primo sito dovrebbe generare la sitemap direttamente nella home dopo circa una decina di secondi -- E SENZA CONSUMARE BANDA -- Creando uno script linux si possono lanciare 'n' script per 'n' siti. Addirittura si possono impostare i ping per google così non si deve nemmeno entrare nel pannello delle sitemap. E poi, tramite il comando "CRON" schedulare il lavoro una volta alla settimana tutte le mattine alle quattro. Questo volevo fare, da bravo uèbmaster còcòcò. Credo che questo risultato sia il top nell'attività delle sitemap. Ma ovviamente, se scrivo, è perchè va in errore lo script. Quindi appena sui forum linux mi faranno sapere io posterò il sisultato del codice e delle attività da impostare.