Back to Question Center
0

Semalt - Како да изгребате веб-страници?

1 answers:

Прекрасна супа е библиотека на Пајтон широко употребувана за гребење на веб страници, од XML и HTML документи. Веб стружење, техника на извлекување на податоци од веб-страници и страници, е широко користен во анализата на податоци и полињата за управување. Во повеќето случаи, програмскиот јазик на Python е предуслов за науката за податоци.

Python 3 има алатки за гребење и модули кои можете да ги примените во вашиот проект за управување со податоци. Во моментов работи како убава супа 4, овој модул е ​​компатибилен со двете Python 3 и Python 2. 7 - best temperature pc monitor. Убав супа 4 модул е ​​исто така способен за создавање на разгледувачко дрво за не-затворен таг супа. Во ова упатство, ќе научите како да ја избришете страницата и да ги напишете добиените податоци во CSV-датотека.

За почеток

За да започнете, поставете сервер за кодирање на околина на вашиот компјутер или локален Python на вашиот компјутер. Исто така треба да инсталирате Мода за убави супи и барања на вашата машина. Познавањето за работа со двата модула е исто така неопходен предуслов. Познавањето со HTML означувањето и структурата е исто така додадена предност.

Разбирање на вашите податоци

Во овој контекст, вистинските податоци од Националната галерија на уметност ќе бидат искористени за да ви помогнат да разберете како да користите убава супа 4. Националната галерија на уметност се состои од 120.000 парчиња кои се направени од приближно 13.000 уметници. Уметноста е со седиште во Вашингтон Д. C, САД.

Веб екстракција на податоци со убава супа не е толку комплицирано. На пример, ако се фокусирате на буквата Z, означете го и снимете го првото име на листата. Во овој случај, првото име е Забалија, Николо. За конзистентност, наведете го бројот на страници и името на последниот изведувач на таа страница.

Како да внесувате барања и библиотека со убава супа

За да увезете библиотеки, активирајте ја програмската средина на Python 3. Проверете дали сте во истиот директориум со вашето програмско опкружување. Извршете ја следнава команда за да започнете. my_env / bin / активирај.

Направете нова датотека и започнете да увезувате библиотеки со убава супа и барања. Барањето библиотека ќе ви овозможи да користите HTTP во рамките на вашите Python програми во читливи формати. Убава супа, од друга страна, работи брзо да ги изгребе страниците. Користете bs4 за увоз на убава супа.

Како да се соберат и анализираат веб-страници

Користејќи Барања собирајте URL на првата страница. URL-то на првата страница ќе биде доделена на променливата страница. Изградба на BeautifulSoup објект од Барања и разбирање на објектот од парсерот на Python.

Во ова упатство, целта е да се соберат врски и имиња на уметници. На пример, можете да ги собирате датумите и националностите на уметниците. За корисници на Windows, десен клик на името на изведувачот. Во овој случај, користете Забалија, Никола. За корисници на Mac OS, допрете "CTRL" и кликнете на името. Кликнете на менито "Прегледај елемент" што се појавуваат на екранот за да пристапат до алатки на веб програмерите. Печатете ги имињата на изведувачите за да направите убава супа да го разгледа дрвото брзо.

Отстранување на долните врски

За да ги отстраните дното на вашата веб-страница, проверете го ДОМ со десен клик на елементот. Ќе идентификувате дека врските се под табела со HTML. Користејќи ја убавата супа, користете го "методот за распаѓање" за да ги отстраните ознаките од разгледуваното дрво.

Како да се повлече содржина од таг

Не мора да ја испечатите целата ознака за врската, користете Убава супа за да отстраните материјал од ознака. Исто така можете да ги фатите адресите поврзани со уметниците со помош на убава супа 4.

Снимање на изгребани податоци во CSV-датотека

CSV-датотеката ќе ви овозможи да ги зачувате структурираните податоци во обичен текст, формат кој најчесто се користи за листови со податоци. Се препорачува знаење за ракување со обични текстуални датотеки во Python.

Веб екстракција на податоци се користи за да се гребе страници и да се добијат информации. Бидете внимателни за веб-сајтовите од кои сте информации за извлекување. Некои динамични веб-страници ја ограничуваат екстракцијата на веб-податоци на нивните сајтови. Да се ​​избрише страница со убава супа и Пајтон 3 е толку едноставна.

December 22, 2017