Zadejte hledaný výraz...

Scrapovani FB skupiny ktere jsem clenem – Selenium, atd

Ahoj,
Pro moderatory: Toto neni poptavka vyvoje ale vec k diskuzi :) Vyvijet si chci sam :)
Potrebuju pro nejaky interni domaci ucely scrapovat nektere FB skupiny kde jsem clenem, jejichz prispevky nejsou verejne dostupne. Konkretne prispevky ostatnich clenu ktere obsahuji vzdy fotku s nejakym popisem.
Pokud se nepletu, je v tuto chvili uz prakticky jedina moznost to udelat pres “simulaci” uzivatele, napriklad pres Selenium ve spojeni s Chrome headless.
Jenze zaboha se nemuzu dostat ani pres login. Stranku v poradku nactu, odklepnu cookie listu, vyplnim udaje, ale at pouziju jakykoliv zpusob odeslani prihlasovaciho formulare, stranka se prakticky jen reloadne bez prihlaseni.
Muj dotaz zni - ma tu nekdo s tim realne zkusenosti z aktualne fungujiciho projektu? Pokud ano, jakou technologii pouzivate? Nejsem omezeny na zadny jazyk, muze to byt tedy v cemkoliv co pojede na Linuxu.
Pripadne neznate nekdo funkcni knihovnu abych nedelal to co jiz nekdo udelal predemnou :) na Gitu jsem nebyl moc uspesny.
Diky!
18. 1. 2022 22:00:26
https://webtrh.cz/diskuse/scrapovani-fb-skupiny-ktere-jsem-clenem-selenium-atd#reply1496942
TomasX
verified
rating uzivatele
(4 hodnocení)
18. 1. 2022 22:44:10
Těch proměnných může být více, které ovlivní to, jestli tě FB vyhodnotí jako robota nebo ne, je ideální když to děláš ze svého připojení a ne ze serverů, tam k tomu je háklivější.
Tady je ukázka Selenium kódu z aktuálního běžícího projektu jedné velké instituce, která si takhle stahuje data pro hlídání rychlosti odpovědí své podpory.
Mám pozitivní zkušenosti s https://github.com/kevinzg/facebook-scraper, graph api poté také umožňuje některé údaje získat, tohle procházení webu ti dává občas náhodné výsledky a je těžké umět stáhnout vše.
18. 1. 2022 22:44:10
https://webtrh.cz/diskuse/scrapovani-fb-skupiny-ktere-jsem-clenem-selenium-atd#reply1496941
TomasX
verified
rating uzivatele
(4 hodnocení)
18. 1. 2022 22:50:25
pokud se přes přihlašování vůbec nedostaneš, máš možnost místo login/password použít cookies z prohlížeče, kde jsi přihlášený, to je takový malý hack, abys mohl jít dál a problém s přihlašováním vyřešil později (pokud se nevyřeší sám). Ono i v tomhle seleniu se nechce přihlašovat příliš často jinak opět hrozí, že ti to přestane jít.
18. 1. 2022 22:50:25
https://webtrh.cz/diskuse/scrapovani-fb-skupiny-ktere-jsem-clenem-selenium-atd#reply1496940
Diky moc!
Na ten facebook-scraper mrknu, vypada to zive, tak to vyzkousim.
Ja to mam ted v Go ... a mam toto:
a byt jsem zkousel vybirat ten button jak pres type, tak pres alt text, tak jsem nedocilil toho aby to zafungovalo. Nakonec jak si me nasmeroval tim, ze to fakticky nemam spatne, tak jsem zkusil teda jinou vec: na tom webu je jediny form, tak proste submitnu ten:
A tady se mi podarilo uspesne prihlasit!
Takze dekuju za nakopnuti, a jdu vyzkouset tu knihovnu :)
H.
18. 1. 2022 23:12:10
https://webtrh.cz/diskuse/scrapovani-fb-skupiny-ktere-jsem-clenem-selenium-atd#reply1496939
TomasX
verified
rating uzivatele
(4 hodnocení)
19. 1. 2022 01:16:37
Nemáš za co, s FB to jsou vždy voloviny a pak rádi rozbíjí a mění cokoliv, někdy musíš dělat opravu dvakrát to měsíce, někdy to rok funguje bez problémů.
Tu knihovnu jsme používali na podzim na hackethon, je živá a měla by kolem ní být komunita.
19. 1. 2022 01:16:37
https://webtrh.cz/diskuse/scrapovani-fb-skupiny-ktere-jsem-clenem-selenium-atd#reply1496938
Pro odpověď se přihlašte.
Přihlásit