Espert ta ’Semalt: Python u BeautifulSoup. Scrape Sites With Facility

Meta twettaq proġetti ta 'analiżi jew tagħlim tal-magni, jista' jkollok bżonn li tinbarax websajts biex tikseb id-dejta meħtieġa u tlesti l-proġett tiegħek. Il-lingwa ta 'programmazzjoni Python għandha kollezzjoni qawwija ta' għodda u moduli li jistgħu jintużaw għal dan il-għan. Pereżempju, tista 'tuża l-modulu BeautifulSoup għal analiżi HTML.

Hawnhekk, nagħtu ħarsa lejn BeautifulSoup u niskopru għaliex issa qed jintuża ħafna fil -brix tal-web .

Karatteristiċi BeautifulSoup

- Jipprovdi diversi metodi għal navigazzjoni faċli, tiftix u modifika ta 'siġar ta' parse u b'hekk jippermettilek li tgħaqqad dokument faċilment u tittratta dak kollu li għandek bżonn mingħajr ma tikteb wisq kodiċi.

- Jikkonverti awtomatikament id-dokumenti ħerġin għal UTF-8 u d-dokumenti li jkunu dieħla f'Unicode. Dan ifisser li ma jkollokx għalfejn tinkwieta dwar kodifikazzjonijiet sakemm id-dokument ikun speċifika kodifikazzjoni jew Soppa Sabiħa tkun tista 'tiskopriha.

- BeautifulSoup huwa meqjus superjuri għal dawk li jmexxu l-Python popolari oħra bħal html5lib u lxml. Jippermetti li tipprova strateġiji ta 'analiżi differenti. Żvantaġġ wieħed ta 'dan il-modulu, madankollu, huwa li jipprovdi aktar flessibilità b'detriment tal-veloċità.

X'għandek bżonn biex tinbarax il-websajt ma 'BeautifulSoup?

Biex tibda taħdem ma 'BeautifulSoup, jeħtieġ li jkollok ambjent ta' programmazzjoni Python (kemm lokali jew ibbażat fuq is-server) imwaqqaf fuq il-magna tiegħek. Python ġeneralment ikun installat minn qabel fl-OS X, imma jekk tuża l-Windows, ikollok bżonn tniżżel u tinstalla l-lingwa mill-websajt uffiċjali.

Għandu jkollok il-moduli BeautifulSoup u Talbiet installati.

Fl-aħħarnett, tkun familjari u komdu taħdem bl-ittikkettar u l-istruttura HTML definittivament utli peress li tkun qed taħdem ma 'data mill-web.

Importazzjoni talbiet u Libreriji BeautifulSoup

Bl-ambjent ta 'programmazzjoni Python stabbilit sew, issa tista' toħloq fajl ġdid (billi tuża nano, pereżempju) b'kull isem li tixtieq.

Il-librerija Talbiet tippermettilek tuża formola li tinqara mill-bniedem HTTP fil-programmi Python tiegħek waqt li BeautifulSoup ikollu l-brix isir b'veloċità aktar mgħaġġla. Tista 'tuża d-dikjarazzjoni ta' importazzjoni biex tikseb iż-żewġ libreriji.

Kif tinġabar u tissorvelja paġna tal-web

Uża l-metodu requests.get () biex tiġbor l-URL tal-paġna tal-web minn fejn trid tiġbed id-dejta. Sussegwentement, toħloq oġġett BeautifulSoup jew siġra ta 'parse. Dan l-oġġett jieħu d-dokument mit-Talbiet bħala l-argumenti tiegħu u mbagħad jeżaminah. Bil-paġna miġbura, analizzata u stabbilita bħala oġġett BeautifulSoup, tista 'mbagħad tipproċedi biex tiġbor id-dejta li għandek bżonn.

Estrazzjoni tat-test mixtieq mill-paġna web analizzata

Kull meta trid tiġbor dejta tal-web, trid tkun taf kif dik id-dejta hija deskritta mill-Mudell tal-Oġġett Dokument (DOM) tal-paġna tal-web. Fil-web browser tiegħek, ikklikkja dritt (jekk tuża Windows), jew ikklikkja CTRL + (jekk tuża macOS) fuq wieħed mill-oġġetti li jiffurmaw parti mid-dejta ta 'interess. Pereżempju, jekk trid tiġbed dejta dwar in-nazzjonalità tal-istudenti, ikklikkja fuq wieħed mill-ismijiet ta 'student. Jidher menu tal-kuntest, u ġo fih, tara oġġett tal-menu simili għal Spezzjona l-Element (għal Firefox) jew Spezzjona (għal Chrome). Ikklikkja l-oġġett relevanti tal-menu Spezzjona, u l-għodod tal-iżviluppatur tal-web se jidhru fil-browser tiegħek.

BeautifulSoup hija għodda ta 'analiżi HTML sempliċi imma qawwija li tippermetti ammont kbir ta' flessibbiltà meta tinbarax websajts . Meta tużah, tinsiex tosserva r-regoli ġenerali tal-brix bħall-verifika tat-Termini u l-Kundizzjonijiet tal-websajt; tirrevedi s-sit regolarment u taġġorna l-kodiċi tiegħek skont il-bidliet li jsiru fuq is-sit. Wara li jkollok dan l-għarfien dwar il-brix ta 'websajts ma' Python u BeautifulSoup, issa tista 'faċilment tikseb id-dejta tal-web li għandek bżonn għall-proġett tiegħek.