Linux, Soporte Técnico

Copiar Página Web completa con Wget

Wget es una herramienta libre que permite la descarga de contenidos desde servidores web de una forma simple. Su nombre deriva de World Wide Web (w), y de «obtener» (en inglés get), esto quiere decir: obtener desde la WWW. Actualmente soporta descargas mediante los protocolos HTTP, HTTPS y FTP.

También está disponible para windows.

Para Linux

muriel@muriel:~$ sudo apt-get install wget

Para Windows

En esta página se encuentras las instrucciones.

A lo que venimos

Podemos descargar la página completa debemos abrir un terminal y luego colocamos la opción -r para que sea recursiva, esta limita hasta 5 niveles del sitio.

wget -r -p https://milinazaret.wordpress.com/

mientras buscaba dicha información encontré otras muy importantes

Crear espejo de un sitio web con wget

La opción -m (mirror) es similar a la descarga recursiva, pero en este caso no existe limite en lo absoluto

wget -m https://milinazaret.wordpress.com/

Actualizar los archivos recientes de un sitio web descargado
Si al mismo ejemplo anterior se le agrega la opción -N, cada vez que se ejecute el batch descargará solo los archivos recientes que se hayan creado.

wget -m -N https://milinazaret.wordpress.com/

Descargar páginas restrictivas

Algunos sitios colocan restricción para el copiado de la misma, es por ello que a través de esta herramientas podemos hacerlo (ojo solo es para fines educativos!), con estas instrucciones podemos saltarnos las siguientes,

wget  -r -p -U https://milinazaret.wordpress.com/

-r recursivamente
-p descarga toda una página completa
-U se identifica como AGENTE en vez de Wget/VERSIÓN