Vodič za Semalt o produžetku strugača za Chrome

Da bi bilo koji posao opstao i konačno porastao, potrebno je ostati ispred svojih konkurenata i različitih rizika. Donošenje odluka na temelju analitičkih podataka siguran je način da se zaborave na ove probleme. Takvi se podaci mogu dobiti prikupljanjem podataka. Tu dolazi lako proširenje skrepera za Chrome: ne samo da će olakšati postupak skupljanja podataka, već će omogućiti i struganje u pokretu bez kompliciranih postavki.

Kako koristiti Scraper

    1. Prvo što trebate učiniti je instalirati proširenje, pa se prijeđite na kromiranu internetsku trgovinu, potražite "strugač" i kliknite dodaj u Chrome.

    2. Dođite do web stranice s koje namjeravate izbrisati podatke , označite unos koji vas zanima ističući ga. Kliknite desnom tipkom miša na nju i odaberite "struganje slično" na izborniku koji se pojavi.

    3. U tom slučaju pokrenut će se zaseban prozor konzole strugača. Ovdje ćete vidjeti popis izbrisanih podataka .

    4. Da biste spremili sadržaj, kliknite na "spremi u Google dokumente", to će automatski izvesti podatke u Google proračunsku tablicu.

Produženo struganje

U slučaju da planirate izbrisati više podataka, možete upotrijebiti napredni pristup. Imajte na umu da će biti mnogo lakše raditi s alatom ako imate neko znanje HTML-a. Pretpostavimo da ste željeli izbrisati podatke iz izvora koji ima arhivu na temelju podataka vremenske serije. U tom slučaju, ako isprobate gore opisanu metodu, dobili bi se sakriveni podaci.

Da biste riješili taj problem, možete koristiti HTML i XML jezik upita poznat kao XPath. Što to radi? XPath prepoznaje podatke o različitim elementima koji se nalaze u svakom odabiru. Slijedi vodič o tome kako postupiti:

1. Idite na konzolu Scraper, u gornjem lijevom dijelu trebali biste primijetiti gumb "XPath", kliknite na nju i nastavite sastaviti početnu tablicu.

2. Za ispravni element morate napisati XPath. Trenutačni XPath koji uključuje čitave informacije bit će prikazan u obliku poput "// div [3] / div [3] / div [2] / div". Elemente <div> računalo će prepoznati u HTML dokumentu.

3. Da biste odvojili prepoznate podatke, morate koristiti stupce Scraper. Da biste to učinili, morate potražiti različite vrste informacija koje imate na raspolaganju. Ovisno o podacima koje stvarate, možete imati naslove. Ti su naslovi prisutni pored svakog skupa podataka. Prate ih oznaka, u ovom slučaju <b> oznaka.

4. Pomoću elementa inspekcije pronađite i dodajte oznaku <b> u svoj XPath. Sada možete označiti ovaj prvi stupac "naslovnim stupcem", jer će u njemu biti navedeni nazivi. Nastavite izraditi različite XPaths za svaki stupac koji vam je potreban.

5. Kliknite na strugotinu i proširenje će automatski prikupiti podatke i organizirati ih u različite stupce koje ste postavili.