Byrjendur handbók frá Semalt á vefsíðu úreldingu

Gögn og upplýsingar á vefnum vaxa dag frá degi. Nú á dögum nota flestir Google sem fyrsta þekkingaruppsprettu, hvort sem þeir eru að leita að umsögnum um fyrirtæki eða reyna að skilja nýtt hugtak.

Með því magni af gögnum sem til eru á vefnum opnar það mörg tækifæri fyrir vísindamenn Data. Því miður eru flest gögn á vefnum ekki tiltæk. Það er sett fram á ómótaðu sniði sem vísað er til sem HTML snið sem ekki er hægt að hlaða niður. Þannig þarf það þekkingu og sérfræðiþekkingu gagnafræðings til að nýta sér það.

Vefskrapun er ferillinn til að umbreyta gögnum sem eru til staðar á HTML sniði í skipulögð snið sem auðvelt er að nálgast og nota. Næstum öll forritunarmál er hægt að nota til að rétta skafa á vefnum. En í þessari grein munum við nota R tungumálið.

Það eru nokkrar leiðir til að skafa gögn af vefnum. Nokkrir af þeim vinsælustu eru:

1. Afrit-líma af mönnum

Þetta er hæg en mjög dugleg aðferð til að skafa gögn af vefnum. Í þessari tækni greinir einstaklingur gögnin sjálf og afritar þau síðan á staðbundna geymslu.

2. Samsvörun við textamynstur

Þetta er önnur einföld en öflug aðferð til að vinna úr upplýsingum af vefnum. Það þarfnast reglulegrar tjáningaraðstöðu fyrir forritunarmál.

3. API tengi

Fullt af vefsíðum eins og Twitter, Facebook, LinkedIn o.fl. veita þér opinber eða einkaskil forritaskil sem kalla má með stöðluðum kóða til að sækja gögn á tiltekið snið.

4. DOM þáttun

Athugaðu að sum forrit geta sótt öflugt efni sem búið er til af handriti viðskiptavinarins. Það er mögulegt að flokka síður í DOM tré sem er byggt á forritunum sem þú getur notað til að sækja hluta af þessum síðum.

Áður en þú byrjar að skafa vefinn í R þarftu að hafa grunnþekkingu á R. Ef þú ert byrjandi eru margar frábærar heimildir sem geta hjálpað. Einnig þarf að hafa þekkingu á HTML og CSS. Hins vegar, þar sem flestir vísindamenn gagna eru ekki mjög traustir með tækniþekkingu á HTML og CSS, getur þú notað opinn hugbúnað eins og Selector Gadget.

Til dæmis, ef þú ert að skafa gögn á IMDB vefsíðunni fyrir 100 vinsælustu kvikmyndirnar sem gefnar voru út á tilteknu tímabili, þá þarftu að skafa eftirfarandi gögn af vefsíðu: lýsing, afturkreistingur, tegund, einkunn, atkvæði, verg tekjur, leikstjóri og leikarar. Þegar þú hefur skafið gögnin geturðu greint þau á mismunandi vegu. Til dæmis er hægt að búa til fjölda áhugaverðra mynda. Þegar þú hefur almenna hugmynd um hvað gagnaöflun er, geturðu lagt leið þína í kringum það!