Semalt mütəxəssisi Python-dan istifadə edərək AJAX veb saytını necə silmək lazım olduğunu izah edir

Veb kazıma veb səhifədən məlumat çıxarmaq üçün proqram təminatından istifadə edən bir üsuldur. İnternetin python ilə kazıması üçün istifadə ediləcək çox sayda vasitə var, bəziləri də; Göy, Qırmızı, İstək və Gözəl Şorba. Bununla birlikdə, bu vasitələrin əksəriyyəti, yalnız JavaScript tərəfindən göstərilən dinamik hissəni deyil, serverdən gələn statik HTML-ni əldə etmələri ilə məhdudlaşır.

Ancaq bu problemin aradan qaldırılacağı bəzi üsullar var:

1. Avtomatik Brauzerlər

Başsız işləyən tam brauzerlər olan Selenium və ya Splash kimi avtomatlaşdırılmış brauzerlərdən istifadə edə bilərsiniz. Ancaq bunları qurmaq olduqca mürəkkəb ola bilər və buna görə aşağıda göstərilən ikinci seçimə diqqət yetirəcəyik.

2. AJAX zənglərini kəsmək

Buraya AJAX zənglərini səhifədən götürməyə çalışmaq və onları yenidən oxumaq və ya çoxaltmaq cəhdləri daxildir.

Bu yazıda, İstəklər Kitabxanası və Google Chrome brauzerindən istifadə etməklə AJAX zənglərini necə tutmağı və onları necə təkrarlamağı müzakirə edəcəyik. Qırıntı kimi çərçivələr qırıntıya gəldikdə daha effektiv bir həll təqdim edə bilsə də, bütün hallar üçün tələb olunmur. AJAX çağırışları, sorğular kitabxanasının asanlıqla idarə edə biləcəyi JSON obyekti qaytaracaq bir API-yə qarşı aparılır.

Bilməlisiniz ki, ilk şey AJAX zəngini təkrar oxumağa çalışmaq sənədsiz API-dən istifadə etmək kimidir. Buna görə səhifələrin edilən bütün çağırışlara baxmaq lazımdır. Sayta girib, bir müddət onunla oynaya və bəzi məlumatların necə göstərildiyini görə bilərsiniz. Oynatmağı bitirdikdən sonra qayıdın və qaşınmağa başlayın.

Təfərrüatlara girməzdən əvvəl, səhifənin necə işlədiyini anlayaq. Mağazalar səhifəsinə dövlət tərəfindən baş çəksəniz, hər hansı bir vəziyyəti seçin və səhifə mağaza haqqında məlumat verəcəkdir. Hər dəfə bir dövlət seçdiyiniz zaman veb sayt köhnələrini əvəz etmək üçün yeni mağazalar təqdim edir. Buna istifadə etməklə əldə edilir və AJAX məlumat tələb edən bir serverə zəng edir. İndi niyyətimiz həmin çağırışı tutmaq və onu təkrarlamaqdır.

Bunu etmək üçün etməli olduğunuz şeyin hamısı Chrome brauzerinizin açılmasıdır və XHR alt bölməsinə keçin. XHR, HTTP və HTTPS tələblərini yerinə yetirən bir interfeysdir. Beləliklə AJAX tələbləri burada göstəriləcəkdir. AJAX zəngini iki dəfə vurduqda, mağazalardan çox məlumat tapacaqsınız. İstəkləri əvvəlcədən görə bilərsiniz.

Bir çox məlumatın serverə göndərildiyini qeyd edəcəksiniz. Ancaq bunların hamısı tələb olunmadığı üçün narahat olmayın. Nə məlumatların lazım olduğunu görmək üçün bir konsol aça və veb sayta müxtəlif poçt sorğularını edə bilərsiniz. Səhifənin necə işlədiyini və AJAX çağırışını deşifr etdiyini bildiyiniz üçün kazıyıcıızı yaza bilərsiniz.

"Niyə avtomatlaşdırılmış bir brauzer istifadə etmirsiniz?" Deyə soruşa bilərsiniz. Həll sadədir; həmişə avtomatlaşdırılmış bir brauzer kimi daha ağır və mürəkkəb bir işə başlamazdan əvvəl AJAX zənglərini təkrarlamağa çalışın. Daha sadə və yüngül.

png

mass gmail