Zadejte hledaný výraz...

stahovani z webarchive.org

MzK
verified
rating uzivatele
(44 hodnocení)
4. 2. 2010 12:34:47
Potřeboval bych stáhnout jeden web, od kterého nemá kamarád zálohy a přišel o něj..
Zkoušel jsem jsem WGET -r ale to mi nešlo, stáhlo to vždy jen index a robots.txt
-l jsem dával 1,2,3 nebo 0 či bez.. A moc dobře mi to nešlo..
4. 2. 2010 12:34:47
https://webtrh.cz/diskuse/stahovani-z-webarchive-org#reply452111
A zkousel jsi se do toho souboru robots.txt podivat? Jestli to neni zakazano?
Wget defaultne respektuje tyto nastaveni.
4. 2. 2010 12:57:35
https://webtrh.cz/diskuse/stahovani-z-webarchive-org#reply452110
MzK
verified
rating uzivatele
(44 hodnocení)
4. 2. 2010 15:31:30
# robots.txt web.archive.org 2009-07-01
User-agent: *
Disallow: /web/1
Disallow: /web/2
Crawl-delay: 3
4. 2. 2010 15:31:30
https://webtrh.cz/diskuse/stahovani-z-webarchive-org#reply452109
4. 2. 2010 15:41:59
https://webtrh.cz/diskuse/stahovani-z-webarchive-org#reply452108
MzK
verified
rating uzivatele
(44 hodnocení)
4. 2. 2010 16:20:28
pokud zadm to wget -e robots=off tak to stahuje i CSS, JS a pod.. Ale bohužel ne další stranky..
Ono totiž adresa vypadá takto:
web.archive.org/web/20070502122202/http://subdomena.domena.cz/
Na te stránce je odkaz:
Tim padem je na to wget asi krátkej, protože se mění ta subdoména a wget stahuje rekurzivně (a nemění doménu) čili to spíš bude chtít něco mocnějšího než wget?
4. 2. 2010 16:20:28
https://webtrh.cz/diskuse/stahovani-z-webarchive-org#reply452107
Spis to bude chtit neco udelat s tim JavaScriptem na konci kazde stranky.
Vygoogloval jsem http://groups.google.com/group/comp.os.linux.help/msg/5b086b3500985efe -- treba to bude uzitecne, nezkousel jsem
4. 2. 2010 16:48:54
https://webtrh.cz/diskuse/stahovani-z-webarchive-org#reply452106
MzK
verified
rating uzivatele
(44 hodnocení)
4. 2. 2010 20:21:07
ten skript jsem zkoušel, bohužel tam je chybný parametr..
debian:~# wget --exclude-domains rail2000.org -e robots=off -nH --cut-dirs=2 --base=http://web.archive.org/web/20010202020600/http://www.rail2000.org/ -r -l 3 -N -k -p -R js -Gbase http://web.archive.org/web/20010202020600/www.rail2000.org/
wget: invalid option -- G
Usage: wget ... ...
Try `wget --help' for more options.
4. 2. 2010 20:21:07
https://webtrh.cz/diskuse/stahovani-z-webarchive-org#reply452105
co třeba "man wget"?
4. 2. 2010 20:27:23
https://webtrh.cz/diskuse/stahovani-z-webarchive-org#reply452104
Pro odpověď se přihlašte.
Přihlásit