Waybackpack: descarga el archivo de una web en Wayback Machine

Seguramente muchos conoceréis Internet Archive, una organización sin ánimo de lucro fundada en 1996, que nos permite acceder a cualquier sitio web, –aunque lleve varios años offline–, gracias a las instantáneas del mismo que va creando a lo largo del tiempo, así como de diversas colecciones multimedia, juegos y millones de libros.

Una Biblioteca de Alejandría del siglo XXI con una base de datos gigantesca para salvaguardar el legado de internet –curiosamente almacenada en una antigua iglesia en San Francisco, es la imagen que abre el post– .

Obviamente no hace de backup, pero si nos permite averiguar cual ha sido la evolución de una página determinada y su aspecto en momentos puntuales, gracias a las capturas realizadas, incluso aunque ya haya desaparecido.

Para ello podemos acceder a la web del proyecto e ir consultando una por una las diferentes imágenes fijas de una URL, utilizando su servicio Wayback Machine.

waybackpack

La otra opción es utilizar aplicaciones como esta waybackpack que os traigo hoy, que nos descarga un archivo con todas las capturas tirando una simple linea de comandos y ahorrándonos mucho tiempo.

Instalando waybackpack

Antes que nada vamos con la instalación. Al ser una aplicación construida en Python, podemos instalar waybackpack en cualquier Linux con el gesto de paquetes pip (disponible en los repositorios de todas las distros), tal que así:

sudo pip install waybackpack

Ejecutando waybackpack

Su uso tampoco presenta mayores complicaciones:

waybackpack lamiradadelreplicante.com -d ~/Escritorio/test --start 2011 --end 201606

donde el parámetro -d marca la ruta de descargar al directorio que elijamos, start la fecha de inicio y end la fecha de la última instantánea a descargar (formato YYYYMMDDhhss) y la URL, bueno ahí ya podéis poner la que más rabia os de 🙂

Para mayor comodidad podemos prescindir de la fecha de inicio:

waybackpack lamiradadelreplicante.com -d ~/Escritorio/test --end 20160601

Como resultado vamos a tener un puñado de archivos html descargados en el directorio seleccionado, que podemos abrirr con el navegador para su consulta.

Si en vez de descargarlos preferimos visualizar las diferentes URLs en la terminal podemos hacer algo así:

wayback lamiradadelreplicante.com –list

Tenéis más opciones de ejecución en la ayuda del programa:

waybackpack -h

y más información del proyecto en su página de GitHub.

9 pensamientos en “Waybackpack: descarga el archivo de una web en Wayback Machine”

jvare 6 mayo, 2016

Realmente interesante y llamativo ya que hasta un pequeño blog como el mio tiene varias capturas desde que comencé en el año 2007 en WordPress.com.
Pero es especialmente útil para blogs ya desaparecidos y buscar y descargar información sobre ellos.

tannhausser Autor7 mayo, 2016

Ehh! que tu blog no es «pequeño» llevas un montón de años dando guerra con Linux.

Y si! a mi también me gusta que quede ese recuerdo de web y sitios que ya no están online.

Felipe 6 mayo, 2016

Gracias Replicante , no tenía ni idea de ese sitio , una mina de oro en información de todo tipo.

tannhausser Autor7 mayo, 2016

De nada Felipe! un placer

Cemetary 7 mayo, 2016

Excelente, Replicante. Conocía del sitio web, pero no la aplicación.
Gracias. 🙂

tannhausser Autor7 mayo, 2016

La verdad es que está muy bien. Es pasarse por github y encontrar siempre algo interesante.
Un saludo

davidochobits 7 mayo, 2016

Buenas Jose,

Hace tiempo que conozco el sitio, pero la aplicación no, así que genial 🙂

Gabriel 10 mayo, 2016

Para periodistas de investigación está genial la herramienta, para que muestren como algunas web’s de prensa escrita distorcionan en muchos casos las noticias!! (;

archivarix 16 febrero, 2018

Para restaurar un sitio web desde el Archivo web archive.org puede probar este servicio – https://es.archivarix.com/

Los comentarios están cerrados.