Spacc BBS Spacc BBS
    • Categorie
    • Recenti
    • Tag
    • Popolare
    • Mondo
    • Utenti
    • Gruppi
    • Registrati
    • Accedi
    La nuova BBS è in fase Alpha. I post precedenti al 22 luglio 2024 potrebbero non essere trasferibili, ma rimarranno disponibili per la lettura su /old/.

    Today in web crawler development:

    Pianificato Fissato Bloccato Spostato Uncategorized
    2 Post 2 Autori 5 Visualizzazioni
    Caricamento altri post
    • Da Vecchi a Nuovi
    • Da Nuovi a Vecchi
    • Più Voti
    Rispondi
    • Topic risposta
    Effettua l'accesso per rispondere
    Questa discussione è stata eliminata. Solo gli utenti con diritti di gestione possono vederla.
    • amin@polymaths.socialA Questo utente è esterno a questo forum
      amin@polymaths.social
      ultima modifica di

      Today in web crawler development:

      • XHTML is now supported as a webpage type
      • Links to blocked domains are properly skipped instead of throwing errors
      • I rolled my own sitemap parser because the library I had used was slooooooow and just using lxml is so much faster, particularly with such a simple task

      Only six TODO comments remaining on the crawler!

      steffo@a.junimo.partyS 1 Risposta Ultima Risposta Rispondi Cita 0
      • steffo@a.junimo.partyS Questo utente è esterno a questo forum
        steffo@a.junimo.party @amin@polymaths.social
        ultima modifica di

        @amin XHTML pages still exist? :O

        1 Risposta Ultima Risposta Rispondi Cita 0
        • Primo post
          Ultimo post