Back to Question Center
0

Веб стружење со Семалт експерт

1 answers:

Веб-стружење, исто така познато како веб-берба, е техника која се користи за извлечете податоци од веб-страниците. Веб бербата софтвер може да пристапите на веб директно со користење на HTTP или веб прелистувач. Додека процесот може да биде имплементиран рачно од страна на корисник на софтвер, техниката генерално подразбира автоматски процес имплементиран со помош на веб-пребарувач или бот.

Веб стружење е процес кога структуираните податоци се копираат од интернет во локална база на податоци за преглед и пребарување. Тоа подразбира преземање на веб-страница и извлекување на неговата содржина. Содржината на страницата може да биде анализирана, пребарувана, реконструирана и нејзините податоци се копираат во локален уред за складирање.

Веб-страниците обично се изградени од текстуални јазици за означување, како што се XHTML и HTML, кои содржат голем дел од корисни податоци во форма на текст. Сепак, многу од овие веб-сајтови се дизајнирани за човечки крајни корисници, а не за автоматска употреба. Ова е причината зошто софтверот за гребење е создаден.

Постојат многу техники кои можат да се искористат за ефикасно стружење на веб. Некои од нив се разработени подолу:

1. Човечко копирање и паста

Од време на време, дури и најдобрата алатка за стружење на веб не може да се замени точноста и ефикасноста на човековата рачна копија и паста..Ова најчесто се применува во ситуации кога веб-сајтовите поставуваат бариери за да се спречи автоматизација на машината.

2. Усогласување на моделот на текст

Ова е прилично едноставен, но моќен пристап кој се користи за извлекување на податоци од веб-страници. Може да се базира на командата UNIX grep или само објект за регуларен израз на одреден програмски јазик, на пример, Python или Perl.

3. HTTP програмирање

HTTP програмирањето може да се користи и за статични и за динамички веб страници. Податоците се извлекуваат преку објавување на HTTP-барања до оддалечен веб-сервер, при што се користи програмирање на сокети.

4. HTML парсирање

Многу веб-страници имаат тенденција да имаат обемна колекција на страници креирани динамички од основниот извор на структура, како што е база на податоци. Еве, податоците што припаѓаат на слична категорија се кодирани на слични страници. Во парсирање на HTML, програма генерално го детектира таков дефиниција во одреден извор на информации, ја презема неговата содржина и потоа ја преведува во подружница, наречена обвивка.

5. Парсирање на DOM

Во оваа техника, програмата се вградува во полноправна веб-прелистувач, како што е Mozilla Firefox или Internet Explorer, за да се добие динамична содржина генерирана од клиентската страна. Овие прелистувачи исто така можат да ги анализираат веб-страниците во дрво на DOM во зависност од програмите што можат да извлечат дел од страниците.

6. Признавање на семантички прибелешки

Страниците што сакате да ги изгребете може да опфатат семантички ознаки и прибелешки или метаподатоци, кои може да се користат за лоцирање на специфични податоци фрагменти. Ако овие прибелешки се вградени во страниците, оваа техника може да се гледа како посебен случај на парсирање на DOM. Овие прибелешки исто така може да се организираат во синтаксички слој, а потоа се складираат и управуваат одделно од веб-страниците. Тоа им овозможува на гребените да ја превземат шемата за податоци, како и команди од овој слој пред да ги запише страниците.

5 days ago
Веб стружење со Семалт експерт
Reply