Navigazione

    Privacy - Termini e condizioni
    © 2020 Search On Media Group S.r.l.
    • Registrati
    • Accedi
    • CATEGORIES
    • Discussioni
    • Non letti
    • Recenti
    • Hashtags
    • Popolare
    • Utenti
    • Stream
    • Interest
    • Categories
    1. Home
    2. Categorie
    3. La Community Connect.gt
    4. News Ufficiali da Connect.gt
    5. Tecniche di compressione per un motore di ricerca
    Questa discussione è stata cancellata. Solo gli utenti con diritti di gestione possono vederla.
    • U
      umor User Attivo • 7 lug 2006, 11:04 ultima modifica di

      Everfluxx: bell'idea quella dell'iframe 😄

      Il mio spider usa lo user agent di ie..

      0 Miglior Risposta Ringrazia Cita Rispondi

        1 Risposta Ultima Risposta
      • E
        everfluxx Super User • 7 lug 2006, 11:05 ultima modifica di

        @uMoR said:

        Il mio spider usa lo user agent di ie..
        ()

        0 Miglior Risposta Ringrazia Cita Rispondi

          1 Risposta Ultima Risposta
        • S
          stealth User Attivo • 7 lug 2006, 14:42 ultima modifica di

          rinzi almeno un cluster lo devi avere, non ti dico la San ma almeno un doppio sistema.
          inoltre ti consiglio di usare un cluster di mysql, molto più fattibile....cerca in rete e trovarai varie info.

          0 Miglior Risposta Ringrazia Cita Rispondi

            1 Risposta Ultima Risposta
          • U
            umor User Attivo • 7 lug 2006, 16:07 ultima modifica di

            Secondo te non le ho provate ste cose?
            Fidati che non conviene..

            A quel punto conviene usare i ramdisk, perchè la struttura a cluster di MySql non è chissachè, ma qui parliamo di cose tecniche che non rientrano nel titolo del thread.

            Io chiedevo solo metodi di compressione, non come impostare la mia potenza di calcolo.

            0 Miglior Risposta Ringrazia Cita Rispondi

              1 Risposta Ultima Risposta
            • lowlevel
              lowlevel Super User • 7 lug 2006, 19:49 ultima modifica di

              Io non ho chiaro che cosa va compresso.

              Va compresso un indice o va compresso del testo?

              Nel caso in cui si trattasse di un indice, che tipo di informazioni contiene, che struttura ha?

              Non esiste un algoritmo di compressione ottimale per tutte le occasioni. Dati diversi e formati diversi richiedono algoritmi di compressione diversi.

              0 Miglior Risposta Ringrazia Cita Rispondi

                1 Risposta Ultima Risposta
              • T
                tonyx User Attivo • 7 lug 2006, 20:48 ultima modifica di

                Già dacci qualche dettaglio tecnico in più per capire meglio che tipo di compressione usare.

                (Che bugiardo che sono la realtà è che sono curioso e vorrei apprendere queste cose come funzionano!!!) :mmm:

                0 Miglior Risposta Ringrazia Cita Rispondi

                  1 Risposta Ultima Risposta
                • U
                  umor User Attivo • 7 lug 2006, 22:54 ultima modifica di

                  Io sto chiedendo come comprimere le pagine html che spiderizzo. Attualmente con le zlib comprime in maniera veloce e abbastanza efficace, ma il db si fa grosso..

                  0 Miglior Risposta Ringrazia Cita Rispondi

                    1 Risposta Ultima Risposta
                  • lowlevel
                    lowlevel Super User • 8 lug 2006, 13:27 ultima modifica di

                    @uMoR said:

                    Io sto chiedendo come comprimere le pagine html che spiderizzo. Attualmente con le zlib comprime in maniera veloce e abbastanza efficace, ma il db si fa grosso..

                    Questo sito è un buon inizio: compara le prestazioni di diversi software/algoritmi di compressione: http://www.maximumcompression.com/

                    Tuttavia, come ti dicevo, le prestazioni variano molto a seconda di cosa bisogna comprimere. Le pagine HTML sono un orrendo mix di struttura e contenuto. Già separando infile diversi la struttura (tag HTML) ed il contenuti (testi), otterresti a mio parere risultati migliori. Sopratutto perché potresti usare algoritmi di compressione diversi per informazioni diverse.

                    0 Miglior Risposta Ringrazia Cita Rispondi

                      1 Risposta Ultima Risposta
                    • A
                      agoago User Attivo • 8 lug 2006, 20:44 ultima modifica di

                      Un buon sistema potrebbe essere usare sql2005 standard e salvare in modalità read only il db storico su una partizione ntfs compressa.

                      Se ti procuri sql ti "metti comodo" e risolvi il problema per i futuri sviluppi del tuo lavoro.

                      Inoltre se il tutto diventa mastodondico con sql standard puoi salire di cpu e via dicendo.

                      Cerca su ebay, spesso pacchetti originali da 5k dollari li trovi ad un centesimo del prezzo... misteri di internet!

                      0 Miglior Risposta Ringrazia Cita Rispondi

                        1 Risposta Ultima Risposta
                      • U
                        umor User Attivo • 9 lug 2006, 01:04 ultima modifica di

                        Ho usato linux per convenienza visto che ho programmato tutto sotto questo os e fare il porting mi tira il culo 😄

                        Faccio qualche prova poi vediamo

                        0 Miglior Risposta Ringrazia Cita Rispondi

                          1 Risposta Ultima Risposta
                        • A
                          agoago User Attivo • 9 lug 2006, 06:19 ultima modifica di

                          uMoR, prima di salvare il testo converto le parole piu' comuni con un numero preceduto dal pipe. Esempio, email = |1 e via dicendo.

                          Poi dopo comprimi come preferisci, ma stop e poison word se le converti a monte non ti sbagli.

                          Se poi fai anche il porting da mysql a sql vedrai che non te ne penti, personalmente sono per il code free, ma sql microsoft e' e rimarra' sempre sql.

                          Ci sono poche cose per un seo che vale veramente la pena comprare, ne cito 3: sql, search and replace della funduc, photoshop e xenu perche' e' gratis.

                          Uso linux+apache da sempre, ma quando si deve lavorare sul serio passo a solaris o wow 64 e simili.

                          Tu che sei appassionato sai meglio di me che anche nei rally ci sono le classifiche per categoria.

                          Nel nostro lavoro e' lo stesso, devi decidere prima in che categoria competere.

                          0 Miglior Risposta Ringrazia Cita Rispondi

                            1 Risposta Ultima Risposta
                          • redsector
                            redsector Moderatore • 9 lug 2006, 07:13 ultima modifica di

                            Secondo me l'approccio è da cambiare radicalmente
                            Occorre prendere una pagina, "leggerla" e inserire ogni parola in un "dizionario" a cui va collegato un indice principale. Poi quando salvi la pagina appena "letta" sostituisci tutte le parole con i rispettivi indici (così hai compressione massima).
                            Tra l'altro quando vai a cercare quanti siti incorpornano la parola devi solo cercare un numero e non un alfanumerico.
                            Quando poi vorrai valorizzare le diverse parole per dargli significato "singolare, plurale, ecc ecc" avrai un secondo indice così che se qualcuno cerna "cane pastore" potrai presentargli anche "cani pastore" e tutte le varianti.
                            Questa è la via giusta per indicizzare qualcosa, ma esistono diversi motori di indicizzazione free su sourceforge già pronti con il sorgente da guardare/modificare.

                            0 Miglior Risposta Ringrazia Cita Rispondi

                              1 Risposta Ultima Risposta
                            • U
                              umor User Attivo • 9 lug 2006, 12:25 ultima modifica di

                              Tu che sei appassionato sai meglio di me che anche nei rally ci sono le classifiche per categoria.

                              Bella osservazione, però un'altra volta mi hai detto che è una questione di sponsor, senza i dindi non puoi correre in wrc. Ecco per me ora è così, quindi se c'è qualche sponsor interessato si faccia avanti :fumato:

                              Secondo me l'approccio è da cambiare radicalmente

                              Non ho scritto che sto facendo un motore di ricerca..

                              0 Miglior Risposta Ringrazia Cita Rispondi

                                1 Risposta Ultima Risposta
                              Caricamento altri post
                              Rispondi
                              • Topic risposta
                              Effettua l'accesso per rispondere
                              • Da Vecchi a Nuovi
                              • Da Nuovi a Vecchi
                              • Più Voti