Semalt deelt eng einfach Manéier fir Informatioun vun Websäiten auszewäerten

Web Scraping ass eng populär Method fir Inhalter vu Websäiten ze kréien. E speziell programméierten Algorithmus kënnt op d'Haaptsäit vum Site a fänkt un all intern Links ze verfollegen, d'Interieur vun Divs versammelen déi Dir uginn hutt. Als Resultat - prett CSV-Datei mat all déi néideg Informatioun déi an enger strikt Uerdnung läit. Déi resultéierend CSV kann fir d'Zukunft benotzt gi fir bal eenzegaarteg Inhalt ze kreéieren. An am Allgemengen, als Dësch, esou Daten si vu grousse Wäert. Stellt Iech vir datt d'ganz Produktlëscht vun engem Baustop an engem Dësch presentéiert gëtt. Ausserdeem, fir all Produkt, fir all Typ a Mark vum Produkt, ginn all Felder a Charakteristike gefüllt. All Copywriter, déi fir en Online Store schafft, wier frou esou eng CSV Datei ze hunn.

Et gi vill Tools fir Daten aus Websäiten oder Web Scraping ze extrahieren an maach der keng Suergen, wann Dir keng Programmsprooche vertraut hutt, an dësem Artikel weisen ech eng vun den einfachsten Weeër - Scrapinghub benotzt.

Als éischt gitt op scrapinghub.com, registréiert Iech, a Login.

De nächste Schrëtt iwwer Är Organisatioun kann einfach iwwerspréngt ginn.

Da kommt Dir op Äre Profil. Dir musst e Projet erstellen.

Hei musst Dir en Algorithmus wielen (mir benotze den Algorithmus "Portia") a ginn dem Projet en Numm. Loosst eis et iergendwéi ongewéinlech nennen. Zum Beispill "111".

Elo gi mir an den Aarbechtsraum vum Algorithmus, wou Dir d'URL vun der Websäit aginn hutt an där Dir Donnéeën eraushuele wëllt. Da klickt op "New Spider".

Mir ginn op d'Säit déi als Beispill wäert zerwéieren. D'Adress gëtt am Header aktualiséiert. Klickt op "Dës Säit annotéieren".

Gitt Äre Maus Cursor no riets déi de Menu erschéngt. Hei si mir am Tab "Extracted item" interesséiert, wou Dir op "Edit Artikele" klickt musst.

Awer déi eidel Lëscht vun eise Felder gëtt ugewisen. Klickt "+ Feld".

Alles ass einfach hei: Dir musst eng Lëscht vu Felder erstellen. Fir all Element musst Dir en Numm aginn (an dësem Fall en Titel an Inhalt), spezifizéieren ob dëst Feld erfuerderlech ass ("erfuerderlech") an ob et ka variéieren ("Variante"). Wann Dir uginn datt en Element "erfuerderlech" ass, gëtt den Algorithmus einfach Säiten ofgeliwwert wou et dëst Feld net fëllt. Wann net flagged, kann de Prozess fir ëmmer daueren.

Elo klickt einfach op dat Feld dat mir brauchen an uginn wat et ass:

Gemaach? Da klickt am Header vun der Websäit op "Save Sample". Duerno kënnt Dir zréck an den Aarbechtsberäich. Elo weess den Algorithmus wéi een eppes kritt, mir mussen eng Aufgab dofir astellen. Fir dëst ze maachen, klickt "Verëffentlechen Ännerungen".

Gitt op Task Board, klickt "Run Spider". Wielt Websäit, Prioritéit a klickt "Run".

Gutt, elo schrauwen ass elo amgaang. Seng Geschwindegkeet gëtt ugewisen andeems Dir Är Cursor op d'Zuel vun de verschéckt Ufroe weist.

D'Geschwindegkeet fir prett Stréimunge vun der CSV ze kréien - andeems Dir op eng aner Zuel weist.

Fir eng Lëscht vu scho gemaachte Saache ze gesinn, klickt einfach op dës Nummer. Dir gesitt eppes ähnlech:

Wann et fäerdeg ass, kann d'Resultat gespäichert ginn andeems Dir op dësen Knäppchen klickt.

Dat ass et! Elo kënnt Dir Informatioun vu Websäiten extrahéieren ouni Experienz am Programméiere.