PHP – jak řešíte import dat

11. 10. 2015 11:17:39

Zdravím,

rád bych se zeptal, jak řešíte import dat ( xml, csv ). Aktuálně mám jeden projekt kde pracuji s velkým množstvím "produktů" které potřebuji porovnat/upravit/smazat.

Vždy jsem to řešil tak že:

- načtu si z DB všechny produkty a uložim si je do pole ( několik polí: produkt, parametry, kategorie..)

- pomocí XMLReaderu postupně načítám XML feed a provádím potřebné úkony. ( a s tím průběžně promazavám pole )

Všechno fungovalo dobře, ale jen do doby kdy jsem zpracovával feed do cca 50k položek

( na serveru je k dispozici cca 1GB ramek )

Teď jsem ale narazil a dost tvrdě :D. Feed má přibližně 200k položek a v podstatě končím už při tahání dat z DB. ( V podstatě při vytváření polí to padá pro nedostatek RAM )

Dotaz tedy zní, jak to děláte Vy? Napadlo mě např. Data vytáhnout a uložit je někam do temp-souborů.. při procházení si pak vždy vytáhnout ze souboru jen potřebný data..

* Otázka zní, zda by nebylo rychlejší si ty data "po jednom" tahat z DB - na druhou stranu, to bude neuvěřitelné množství dotazů na DB.. ( tj. 200k vytažení + update + insert + delete )

Díky za všechny reakce ;)

11. 10. 2015 11:17:39

https://webtrh.cz/diskuse/php-jak-resite-import-dat/#reply1145707

Jiří

(1 hodnocení)

11. 10. 2015 11:36:32

A co brání tomu tahat ta data sekvenčně třeba po 10k nebo 50k, když to funguje a porovnávat vždy jen tu část?

11. 10. 2015 11:36:32

https://webtrh.cz/diskuse/php-jak-resite-import-dat/#reply1145706

node

(5 hodnocení)

11. 10. 2015 11:37:24

Ty si riadny blazon. Tahat 50k poloziek naraz. Pocul si uz o davkovom spracovani????

11. 10. 2015 11:37:24

https://webtrh.cz/diskuse/php-jak-resite-import-dat/#reply1145705

Fido123

(13 hodnocení)

11. 10. 2015 11:41:49

Řeším teď to samé. Správná úvaha jsou poslední dva řádky tvého příspěvku:

1. Projet soubor a všechny položky uložit do fronty do databáze. To je relativně nenáročná operace.

2. Postupně položky po jedné (případně v dávkách) vytáhnout z fronty, zpracovat a odstranit z fronty.

11. 10. 2015 11:41:49

https://webtrh.cz/diskuse/php-jak-resite-import-dat/#reply1145704

Filip T.

(2 hodnocení)

11. 10. 2015 11:44:57

Ne, opravdu nejsem blázen ;) ono když nevytahujete popisy a delší "texty", tak to jsou pole s hodnotama ( id, skladem 1/0, .. ) takže ono pole do 50k položek si vezme např. jen 50Mb ramek ( těch polí je samozřejmě více ), takže to opravdu není tak hrozný problém. ( Když mám k dipozici 1 GB ;) )

* V podstatě jsem ani nepočítal s tím, že by se mohl objevit feed s takovým množstvím.

Takže díky, asi opravdu zkusím sekvenčně načítat data po x-tísících.

11. 10. 2015 11:44:57

https://webtrh.cz/diskuse/php-jak-resite-import-dat/#reply1145703

node

(5 hodnocení)

11. 10. 2015 11:51:26

Ono ide o to ze ked takto pises kod tak zle zmyslas uz v zaklade a to sa potom premieta aj dalej v programovani.

11. 10. 2015 11:51:26

https://webtrh.cz/diskuse/php-jak-resite-import-dat/#reply1145702

It Snows In Hell

11. 10. 2015 11:58:58

Mě na pár stovek tisíc položek v csv stačilo 5GB. Bylo jednodušší zvětšit kapacitu na vps (openvz) na 10 či 15 minut než rozdělit soubor na x souborů.

---------- Příspěvek doplněn 11.10.2015 v 11:00 ----------

Napsal node;1232301
Ono ide o to ze ked takto pises kod tak zle zmyslas uz v zaklade a to sa potom premieta aj dalej v programovani.

Co má společné psaní kódu s importem dat, kde je cca 200k položek?

11. 10. 2015 11:58:58

https://webtrh.cz/diskuse/php-jak-resite-import-dat/#reply1145701

Filip T.

(2 hodnocení)

11. 10. 2015 12:04:10

Díky i tobě Fido123, v podstatě to je logické :)

node: nejde o to, že "zle přemýšlím".. Ono pokud máš nějaké zadání, ve kterém je napsán "max." velikost zdroje a až po x-měsících zjistíš, že je 5x větší, než bylo v zadání, pak opravdu není problém ve mě - s tím souvisí i konfigurace serveru. ;)

Druhá věc na kterou bych se chtěl zeptat je, jak řešíte timeout webu? ( Cronem vím, ale teď mi jde spíše o "realtime" aktualizace uživatelem )

* Když nemáte přistup k rootu samozřejmě - budeme se teď bavit o "normálním" hostingu ( kde v podstatě nemůžete nic :D )

napadlo mě:

- zjistit timeout webu

- x-sekund před koncem típnout XML read, uložit pozici a přes JS udělat redirect

- pokračovat dále

Ale nevím jestli to není "hovadina" a šlo by to řešit lepší cestou

11. 10. 2015 12:04:10

https://webtrh.cz/diskuse/php-jak-resite-import-dat/#reply1145700

Petr Holomoj

(21 hodnocení)

11. 10. 2015 12:20:16

Také data importuji dávkou. Pro "normální hosting" (60s) se mi to osvědčilo. Importuji a aktualizuji asi 12k produktů z XML ( 15MB )

Před importem se stáhne soubor na FTP, aby se rychleji načítal.

Import následně kontroluje a zpracovává data.

Před samotným importem data zpracovává několik funkcí na úpravu dat( změna odkazů v textu, změna názvu, generování seo, atd.)

Samotný import obsahuje:

- IMPORT PRODUKTU (texty,kód, ceny, přidání asociací, atd...)

- IMPORT KATEGORIÍ

- IMPORT ATRIBUTU

- KOPÍROVÁNÍ OBRÁZKU (pro jeden záznam v průměru 3)

Dávka se určuje podle aktuálního záznamu z XML ( společně ze záznamem v DB). Neukončuji import v půlce ( nebo podle timeout ), ale vždy po dokončení dávky (po x produktech z XML) proto, aby byly vždy data k produktu kompletní.

11. 10. 2015 12:20:16

https://webtrh.cz/diskuse/php-jak-resite-import-dat/#reply1145699

It Snows In Hell

11. 10. 2015 12:26:10

Bohudík za root.

U některých hostingů stačí dát

ini_set('max_execution_time', 60);

Většina z nich to však ignoruje, takže to buď udělám u sebe (pokud se jedná o jednorazovku) nebo dávky / zaznamenání posledního ID.

11. 10. 2015 12:26:10

https://webtrh.cz/diskuse/php-jak-resite-import-dat/#reply1145698

Smazany ucet 253

(3 hodnocení)

21. 11. 2015 00:33:58

Pokud parsuješ obrovské XML, pak vyzkoušej XMLReader v kombinaci s DOMDocument, například takto:

$xml = new XMLReader;

$xml->open('/some/file.xml');

$dom = new DOMDocument;

// tímto jednoduše přeskočíš na požadovaný název tagu, od kterého chceš začít ...

while ($xml->read() && $xml->name !== 'SomeTagName');

while ($xml->name === 'SomeTagName') {

// importuješ pouze jeden uzel, nikoli celý soubor

$node = simplexml_import_dom($dom->importNode($xml->expand(), true));

$product = (string) $node->PRODUCT;

$id = (string) $node->ID;

$xml->next('SomeTagName'); // přeskočíš na další uzel

}

Chce to trošku si s tím pohrát ... jinak doporučuji INSERT pomocí SQL typu:

lze díky tomu vložit např. 1000 záznamů najednou a zabere to pro InnoDB opravdu krátký čas oproti vkládání po jednom ... samozřejmě hromadný update lze pouze u položek, kterým lze hromadně updatovat stejné hodnoty ... např.

21. 11. 2015 00:33:58

https://webtrh.cz/diskuse/php-jak-resite-import-dat/#reply1145697

Filip T.

(2 hodnocení)

22. 11. 2015 08:16:10

Díky rapemer, používám v podstatě naprosto stejný postup, s tím rozdílem, že vnitřní řetězec načítám jednoduše přes:

Samotné zpracování XML mi probíhá bez problémů a zpracuji bez problémů XML importy ve velikosti kolem 500 MB:

- zjistím si timeout

- nastavím si rezervní čas na zpracování zbytku skriptu ( timeout - 2s )

- procházím XML a kontroluji s rezervním časem

- pokud sem u konce ( timeout -2 ), uložím si do "Session" počet zpracovaných uzlů, zpracuju zbytek skriptu a udělám přes JS redirect

- skript prochází XML od znovu, s tím, že "přeskočím" X-zpracovaných uzlů. ( resp. simplexml_load_string se použije až od x-tého produktu )

Teď ale řeším jiný problém a to s DB.. i když si dám rezervních 5s ( timeout - 5s ), tak se často stává, že DB provádí nějaký insert i 10 - 15s ( nestíhá inserty/updaty? nevím ) a skript stejně spadne.

* Proběhne dejme tomu 6500 insertů a zničeho nic následný insert ( 100 položek ) trvá 10s..

Je možné nějakým způsobem přerušit aktuální "transakci" abych mohl udělat redirect a skript nespadl? ( tzn. aktuální transakce insertů/updatů se provede znova )

Díky

22. 11. 2015 08:16:10

https://webtrh.cz/diskuse/php-jak-resite-import-dat/#reply1145696

Smazany ucet 253

(3 hodnocení)

22. 11. 2015 18:44:45

Já jsem zvyklý na VPS nebo dedikované servery, takže time limit řešit nemusím.

Pokud máš možnost spouštět cokoli přes CLI nebo pomocí funkce exec(); tak celou synchronizaci spusť jako proces na pozadí přes konzoli CLI... Velmi vhodný pomocník je Symfony Console Component

1. krok - instalace přes Composer

2. krok - hlavní spustitelný soubor console.php

#!/usr/bin/env php

require __DIR__.'/vendor/autoload.php';

require __DIR__.'SyncCommand.php';

use SymfonyComponentConsoleApplication;

$application = new Application();

$application->add(new SyncCommand());

$application->run();

3. krok - samostatný command v souboru SyncCommand.php

use SymfonyComponentConsoleCommandCommand;

use SymfonyComponentConsoleInputInputInterface;

use SymfonyComponentConsoleOutputOutputInterface;

class SyncCommand extends Command

{

/** @var PDO $connection */

protected $connection;

protected function configure()

{

set_time_limit(0);

$this->setName('run:sync');

}

protected function execute(InputInterface $input, OutputInterface $output)

{

// připojení do databáze..

$this->connect();

// Tvoje logika synchronizace

// pokud nejsi zvyklý na objektový model, tak to 'všechno naflákej sem' :-)))

}

protected function connect($engine = 'mysql', $host = 'localhost', $database = 'custom_db', $user = 'root', $pass = '')

{

$dsn = "{$engine}:dbname={$database};host={$host}";

$this->connection = new PDO($dsn, $user, $pass);

}

4. krok - spuštění

- předpokládám, že hosting běží na Linuxovém stroji a předpokládám, že máš možnost použít funkci exec();

$command = 'php /absolutni/cesta/k/souboru/console.php run:sync >/dev/null 2>&1 &';

exec($command);

// tímto se spustí process na pozadí a tento script se ukončí, takže nečeká na jeho dokončení

// chceš-li proces killnout, tak takto:

exec('kill -SIGKILL ' . system("ps aux | grep run:sync | grep -v grep | awk '{print $2}' "));

---------- Příspěvek doplněn 22.11.2015 v 18:57 ----------

Jinak rozumné řešení je ukládat si do Session po každé iteraci poslední položku, která byla uložena do databáze. V případě překročení timelimit začneš znovu tam, kde si zkončil :-)

22. 11. 2015 18:44:45

https://webtrh.cz/diskuse/php-jak-resite-import-dat/#reply1145695

Pro odpověď se přihlašte.

Přihlásit