Como transformar um site em livro

Primeiro #sextou do ano e infelizmente ainda não terminei de assistir a nova temporada de Black Mirror para comentar a respeito, então o assunto de hoje terá que ser outro. 

Na publicação da última terça-feira, comentei sobre um dos blogs que transformei em livro para ler antes de dormir. Já que duas amigas perguntaram-me como fazer isso, achei interessante comentar mais a respeito.

Para ser honesto, não seguro um livro de papel para ler desde 2013, provavelmente. Os leitores de livros digitais (ebooks) são muito mais práticos: posso levar vários no bolso sem carregar mais peso, a fonte do texto tem tamanho variável, e a iluminação embutida é mais confortável de se ler no escuro do que segurando uma lanterna. Meu modelo é um Kobo Aura 2013, mas, hoje em dia, não acho que nenhum outro compense além do Kindle Paperweight, que é iluminado por cima (portanto, menos reflexivo) e lê todos os formatos comuns de ebooks

Tendo um desses à mão, o próximo passo (e o mais complicado) é baixar todas as publicações de um determinado blog e transformá-las num documento legível. Um blog pode facilmente alcançar a casa das milhares das postagens. Felizmente, há um programa open-source chamado HTTrack Website Copier (Windows 2000 ou superior, macOS, Android 2.2+ e a maioria das distribuições Linux) que faz a maior parte do trabalho. A ferramenta é um web crawler que navega por todas as páginas do domínio e mantém uma base de dados dos links entre elas, e depois converte num documento de texto legível. 

 

 

A interface visual (há também uma via linha de comando) parou nos anos 90, mas é razoavelmente fácil de usar. Clique em Next para começar um novo projeto ou continuar um já existente. O projeto precisará de um nome, mas as demais configurações podem permanecer como no padrão. Clique em Next novamente e escolha a ação (copiar sites da Web é a padrão) e os sites a serem copiados. Pode digitar o endereço direto na caixa de texto, mas, caso o site precise de usuário e senha (um fórum exclusivo para usuários, por exemplo), há um assistente por trás do botão Adicionar URL

 

 

 

Clique em Next e o programa irá oferecer opções como Shutdown PC when finished, que ainda não foi traduzida, mas significa "Desligar o computador ao terminar". Esta opção é importante porque o processo leva muitas horas e torna o computador inutilizável, então talvez seja melhor começá-lo antes de ir dormir ou sair para o trabalho/estudo. Clique em Finish para começar. 

 

 

Se o objetivo é ler no celular ou no computador (caso da maioria dos sites que possuem imagens), o trabalho está concluído. É só clicar no arquivo index.html na pasta que você escolheu salvar e navegar como se estivesse online. Para ler num leitor de livros digitais, porém, há um passo a mais: converter para o formato de ebook. Para isso, é necessário um programa adicional, o Calibre (Windows Vista ou superior, macOS, Linux) que é um gerenciador de bibliotecas adicionais que é fundamental para qualquer um que não tenha um Kindle.

 

 

Ao contrário do HTTrack, a interface visual é sensivelmente mais atual e só o que você precisa fazer é compactar a pasta no formato .zip e arrastar o arquivo para a janela do Calibre. O arquivo aparecerá na biblioteca e, daí em diante, basta clicar nele com o botão direito e escolher a opção Converter livros > Converter individualmente. Há algumas opções disponíveis de customização, mas as opções padrão são suficientes para a maioria dos cenários. Este processo também é demorado (não tanto quanto o primeiro), mas o Calibre é autossuficiente e não necessitará mais da sua atenção. O computador poderá ficar lento, mas deve permanecer utilizável para a maioria das aplicações. 

Quando terminar, é só transferir para o aparelho, usando o próprio Calibre. A graça deste método é que os arquivos não só ficam disponíveis sem a necessidade de conexão à internet, como a aparência fica bastante similar a de um ebook propriamente dito.

 

 

Por hoje, é isso. Agora voltarei à quarta temporada de Black Mirror. Até mais!

Etiqueta: scraping tools 

 

Comentários

Não há comentários no momento.

Novo Comentário