Generatore intelligente ..... ?

jeyjey

I crawler casalinghi sono dei software (anche gratis) che ti fanno la scansione del sito .... bella roba! Ci mettono un fine settimana anche se li lanci con il sito in mambo fatto in locale (lavora solo il processore). Quando fai un sito grosso arrivano i limiti del tuttogratis. Se usi quelli in php loro fanno lo scanning navigando la rete, che è, quindi uguale agli altri, tantovale farlo a casa. Ma c'è di peggio, che sono incontrollabili, non sai se hanno preso tutto perchè navigando in tutte le pagine come fanno loro mambo si siede. Infatti ho avuto anche megabyte in cache (occorre disattivarla! in tale occasione) e cinquecento utenti connessi contemporaneamente. Gli isp se vedono una cosa del genere magari rallentano la banda e puffete, tutto va a puàne. Quindi niente php!

Aggiungo: i crawler casalinghi (e tutti quelli di banda) se vedono componenti come ExtCalendar vanno in loop all'infinito!!!!!!!!!!! Perchè se cambia anno ci sono altri 365 links!!!!!!!!!!!

jeyjey

I componenti per mambo non funzionano .... non ce n'è. Fanno le sitemap ma per vederle in una pagina non per creare il file necessario a Google. Mi meraviglio come mai nessuno si è impegnato a farlo quando invece su Joomla la cosa è molto sentita. Se fossi stato un programmatore sarebbe stata la mia unica meta. Ma andiamo avanti. Che dice google su 'sta cosa? Ti dà uno strumento in phyton. Ooooooooh ora si .... peccato che non fa la scansione intelligente. Cioè devi abilitare i lig. Nei log ci sono le pagine che gli utenti visitano, poi il programma in phyton preleva le url (standard apache -- sicuro) e crea la sitemap facendo il ping a google che la preleva e viva Gesù. Ma aprire i log per ogni sito è una cosa assurda .... ci vuole un giga di spazio su disco. Quindi? Leggete il prossimo post.

jeyjey

...... che faccia la cosa a livello logico anzichè analogico! Quindi un programma che, se lanciato dal server, sfrutti la cpu, non la banda passante!!!! E questo esiste! Ve lo metto qui:

#!/usr/bin/perl
my $sitepath="/yourhtdocs";
my $website="http://yoursite.com";

chdir($sitepath);
@stuff=`find . -type f -name "*.html"`;
open(O,">sitemap");
print O <<EOF;
<?xml version="1.0" encoding="UTF-8"?>
<urlset xmlns="http://www.google.com/schemas/sitemap/0.84">
EOF
foreach (@stuff) {
 chomp;
 $badone=$_;
 $badone =~ tr/-_.\/a-zA-Z0-9//cd;
 print if ($badone ne $_);
 s/^..//;
$rfile="$sitepath/$_";
($dev,$ino,$mode,$nlink,$uid,$gid,$rdev,$size,$atime,$mtime,$ctime,$blksize,$blocks)=stat
$rfile;
($sec,$min,$hour,$mday,$mon,$year,$wday,$yday,$isdst)=localtime($mtime);
$year +=1900;
$mon++;
$mod=sprintf("%0.4d-%0.2d-%0.2dT%0.2d:%0.2d:%0.2d+00:00",$year,$mon,$mday,$hour,$min,$sec);
$mod=sprintf("%0.4d-%0.2d-%0.2d",$year,$mon,$mday);
$freq="monthly";
$freq="daily" if /index.html/;
$priority="0.5";
$priority="0.7" if /index.html/;
$priority="0.9" if /\/index.html/;

print O <<EOF;
<url>
      <loc>$website/$_</loc>
      <lastmod>$mod</lastmod>
      <changefreq>$freq</changefreq>
      <priority>$priority</priority>
</url>
EOF
}

print O <<EOF;
</urlset>
EOF
close O;
unlink("sitemap.gz");
system("gzip sitemap");

jeyjey

.... è la cosa più intelligente che ci sia su internet .... almeno dopo un anno di ricerche. Lui crea il file sitemap da server. Inoltre lo possiamo automatizzare, quindi mentre noi creiamo glli articolii tranquilli tranquilli lui, di notte, si fa l'autoscansione del sito al livello di codice--disco, e poi la mattina dopo noi troviamo la sitemap sulla home, e magari google che se l'è già presa. Quindi la mia felicità sarebbe massima. Il problema è che non sò come incastonare sul server questo codice.

In teoria sarebbe scritto in perl, quindi basterebbe metterlo in un file e chiamarlo nomefile.pl e lanciarlo da riga di comando. Così dicono, ma non mi parte. Gli errori sono tanti e non ci ho capito (permettetemelo vi prego vi supplico) una bella mazza! Se qualche volontario esperto linux desse una mano alla comunità mambo, farebbe "un'opera rotas" (diceva il sator). Credetemi forse questa è la nostra ultima speranza.

jeyjey

Uso Mambo, là siamo disperati non si trova un componente che faccia le sitemap. Occorre farsele da soli. Spesso è un casino. PHPSitemapNG della Enarion va in errore sulle porte .... altri inseriscono solo le pagine del sito .... che senso ha inserire le pagine del sito? Una dir ero capace anch'io di generarla, il migliore dovrebbe scrivere direttamente le url nel sitemap per evitare a Google il crawling multilivello che non si sa se va a buon fine. Quindi server un crawler diretto sul disco .... ce n'è?

jeyjey

Certo che è Agosto .... ma quello che ho detto non mi sembra tanto stupido ...

karapoto

Pensi possa andare bene anche per joomla?
Per il cugino cms ci sono alcuni prodotti che fanno la sitemap ma non credo che la aggiorni in automatico, quindi sarebbe interessante.

Grazie.

jeyjey

Avere un programmino che fà il crawling a livello di disco? Qui nessuno scrive su questo, credo che un buon SEO debba sapere come fare delle sitemap fatte bene. Io ho il problema di un blocco sul Socket connections e quindi non posso usare crawlers che parlano da porta-Apache a porta-Apache. L' ISP non me lo consente e sinceramente dovrei cambiare un settaggio in http.conf ma non sò quale. Quindi ho comperato un crawler ottimo (a pagamento) ma non lo posso lanciare, che sfiga. Invece unprogrammino che analizza le url non sarebbe male. L'unico problema (e qui riguarda i SEO) è che non potrebbe mai funzionare conle pagine in rewrite perchè il rewrite lo fa Apache quindi il disco non ha le url in rewrite. Che ne pensate? Spero a Settebmre qualcuno avrà avuto voglia di intavolare questa complessa discussione. Ciao a tutti i manfroni!

jeyjey

.... sient'ammè, questa è l'unica strada. Pensate io ho provato il Phyton di Google. In un secondo genera la sitemap di 1000 pagine .... peccato che la ricava da un file di log. Ed io lo spazio per i log dei miei siti dove lo prendo? Quindi questo codice Perl per linux, da mettere in "CRON" è l'unica speranza, credetemi. Pizzicate qualche smanettone linux e portatelo qui dentro al forum per le orecchie, farete un'opera buona per tutti. Ciao.

jeyjey

Tutti gli esperti webmaster sono in ferie?
Allora credo io opero così. Mi connetto al mio server web tramite Putty--SSH, poi mi posiziono con il prompt alla cartella dello script e scrivo:

/usr/bin/perl /home/sites/primosito/runcrawl.pl

Se i settaggi sono fatti bene il pl del primo sito dovrebbe generare la sitemap direttamente nella home dopo circa una decina di secondi -- E SENZA CONSUMARE BANDA -- Creando uno script linux si possono lanciare 'n' script per 'n' siti. Addirittura si possono impostare i ping per google così non si deve nemmeno entrare nel pannello delle sitemap. E poi, tramite il comando "CRON" schedulare il lavoro una volta alla settimana tutte le mattine alle quattro. Questo volevo fare, da bravo uèbmaster còcòcò. Credo che questo risultato sia il top nell'attività delle sitemap. Ma ovviamente, se scrivo, è perchè va in errore lo script. Quindi appena sui forum linux mi faranno sapere io posterò il sisultato del codice e delle attività da impostare.