Scrapowanie SERP legalnie: narzędzia i limity 2026

Scrapowanie SERP (wyciąganie danych z wyników wyszukiwania Google) to technicznie delikatny, ale biznesowo bardzo wartościowy obszar SEO. Daje dostęp do informacji, których nie ma w żadnym klasycznym narzędziu: dokładne SERP features dla danej frazy, actual Top Stories dla konkretnego czasu, AI Overview citations, lokalne rankingi dla różnych geo-locations. Ten tekst opisuje, jak robić to legalnie w 2026 roku – bez naruszania TOS Google, z respektowaniem RODO i z sensownymi kosztami.

Kluczowa obserwacja: bezpośrednie scrapowanie Google jest przeciwne ich terms of service. Ale jest ścieżka legalna i technicznie sensowna – używanie dedykowanych API (SerpApi, DataForSEO, BrightData), które agregują dane i sprzedają je z odpowiednimi umowami. Koszt: 30-500 USD/mc zależnie od skali.

W skrócie

  • Scrapowanie SERP to pobieranie danych z Google (i innych wyszukiwarek) programowo – zwykle przez dedykowane API, nie direct requests.
  • Główni dostawcy API 2026: SerpApi ($50-400/mc), DataForSEO ($39-500/mc), BrightData (enterprise, $300+/mc), Zenserp ($29-200/mc).
  • Wszystkie dane zwracają podobne: top 100 organic results, SERP features (AI Overview, featured snippet, shopping, local pack), related searches, People Also Ask.
  • Legalność: używanie API jest legalne (API provider bierze na siebie compliance z Google TOS). Direct scraping własnym scriptem – w szarej strefie, ryzyko bana IP i wstępne ostrzeżenia prawne od Google.
  • Zastosowania: rank tracking dla dużej liczby fraz, SERP feature tracking, competitive intelligence, SERP snapshots dla research, monitoring AI Overview cytowań.

Dlaczego scrapować SERP zamiast używać GSC

Google Search Console jest darmowe i dostarcza najdokładniejsze dane dla Waszej własnej domeny. Ale ma 3 fundamentalne ograniczenia:

Po pierwsze, tylko dla Waszych domen. GSC nie pokazuje rankingów konkurencji. Jeśli chcecie wiedzieć, na pozycji ile konkurent rankuje na frazę X – GSC nie pomoże.

Po drugie, brak real-time. GSC ma 2-3-dniowe opóźnienie. Dla research „co jest teraz w SERP” nie nadaje się.

Po trzecie, brak granularnych danych per SERP. GSC agreguje impressions. Nie pokazuje: „ta fraza ma AI Overview z konkurenta X jako citation”, „ta fraza ma Top Stories box z 4 źródłami”, „ta fraza w Poznaniu ma inny Local Pack niż w Warszawie”.

Dla tych trzech use-cases potrzebne jest scrapowanie SERP.

Dane z SERP scrapingu wpisują się szeroko w analityczną infrastrukturę SEO – przewodnik po analityce SEO i AIO 2026 pokazuje, jak te dane łączy się z GSC, GA4 i innymi źródłami.

Porównanie głównych API do scrapingu SERP

SerpApi

Najbardziej popularny, prawdopodobnie najlepszy UX. Plans: 250 queries/mc free, potem $50/mc (5000 queries), $150/mc (15 000), $400/mc (50 000). Wspiera: Google (wszystkie typy), Bing, DuckDuckGo, Yahoo, Baidu, Yandex, YouTube, Amazon, Walmart. Response time: 2-5 sekund per query. JSON API clean i dobrze udokumentowane.

Mocne strony: najlepsze developer experience, najszybsza dokumentacja, solid uptime.

Słabe strony: droższy niż DataForSEO dla wysokich volumes. Brak szczegółowych customizations dla enterprise.

DataForSEO

Tańszy rival SerpApi. Plans: pay-per-query (od $0,0003 per query dla basic Google search). Standard Ramp: 300 queries/mc za $30, większe plans do enterprise. Wspiera: praktycznie wszystkie search engines + dodatkowe narzędzia (keyword research, rank tracking, on-page analysis).

Mocne strony: najtańszy dla volume, bogatsze API (więcej niż tylko SERP – keyword data, backlink data), enterprise features.

Słabe strony: UX bardziej technical, dokumentacja mniej přístupna, wolniejszy response time (3-8 sekund).

BrightData

Enterprise player. Plans: od $500/mc do tysiąca USD/mc. Wspiera: Google, Bing, Yahoo, rozbudowane residential proxy network.

Mocne strony: highest quality data (residential proxies dają najbardziej „natural” wyniki), geo-targeting z dokładnością do ZIP codes w USA, dedicated account managers.

Słabe strony: drogie, overkill dla większości zespołów.

Zenserp

Mniejszy dostawca, atrakcyjna cena. Plans: 50 queries/mc free, od $29/mc (1000 queries). Wspiera: Google, Bing, Amazon.

Mocne strony: najtańszy dla małych volumes. Proste API.

Słabe strony: mniejsza baza features, mniej zaawansowanych opcji.

Co można wyciągnąć z SERP scrapingu

Kluczowe dane zwracane przez API:

  • Organic results (top 100): title, link, snippet, position, displayed URL.
  • Featured snippet: content, source, type (paragraph, list, table).
  • AI Overview: content, cited sources (z linkami), position.
  • Top Stories: 3-6 newsowych wyników z thumbnail, publisher, date.
  • People Also Ask: 4-10 pokrewnych pytań.
  • Related searches: 8 pokrewnych fraz.
  • Shopping results: produkty z cenami, shopów, rating.
  • Local Pack: 3 lokalnych wyników z adresem, telefonem, rating.
  • Video results: YouTube thumbnails.
  • Knowledge Graph: entity panel jeśli pasuje.
  • Image results: top images z linkami.

Dla większości biznesowych use-cases organic + SERP features (AI Overview, featured snippet, People Also Ask) są najbardziej wartościowe.

Legalność: co wolno, co nie wolno

Bezpośrednie scrapowanie Google.com z Waszego IP jest naruszeniem Google Terms of Service. Konsekwencje: (1) CAPTCHA po ~50-100 queries, (2) temporary IP ban, (3) w ekstremalnych przypadkach prawne cease-and-desist (rzadko, ale się zdarza).

Używanie API (SerpApi, DataForSEO, etc.) przenosi odpowiedzialność na dostawcę API. Oni mają umowy, rotated proxies, rozwiązania compliance’owe. Dla Was (użytkownika API) to legalne i bez ryzyka.

Ważne: nawet używając API, nie wolno:

  • Robić masowych requestów o te same frazy – to oznacza manipulację.
  • Publikować skrapowanych danych jako „swoje” (np. „nasz raport Google rankings”) – bez disclaimer.
  • Re-sellować raw data z API (prawa autorskie do agregacji).

RODO aspect: scrapowanie SERP dla public info (nazwy firm, stron) jest OK. Scrapowanie danych osobowych (np. adresy e-mail z LinkedIn profili, które się pojawiają w SERP) wymaga uzasadnionego interesu i może być ryzykowne prawnie.

Praktyczne use cases z kodem (konceptualnie)

Use case 1: Rank tracking 5000 fraz codziennie

Cel: śledzić pozycje dla 5000 kluczowych fraz per klient, codziennie. W Ahrefs/Semrush – limit w planach (tracking zwykle do 500-2000 fraz). W custom scripcie z SerpApi: bez limitu.

Koszt: 5000 queries × 30 dni = 150 000 queries/mc. SerpApi Big plan $400/mc daje 50 000 queries, więc Pro plan za ~$800/mc dla 200 000. Alternatywa: DataForSEO pay-per-query 150 000 × $0,0005 = $75/mc. DataForSEO znacznie tańszy dla tej skali.

Implementacja: Python script, codzienne uruchomienie (cron), batch 100 queries naraz, zapisywanie pozycji per fraza per day w BigQuery. Dashboard w Looker Studio.

Use case 2: Monitoring AI Overview cytowań

Cel: dla 200 ważnych fraz codziennie sprawdzać, czy AI Overview pokazuje się i kto jest cytowany.

Koszt: 200 × 30 = 6000 queries/mc. SerpApi Starter $50/mc wystarczy.

Implementacja: script filtruje responses po polu „ai_overview”. Zapisuje cited sources w tabeli. Alert gdy wasza marka pojawia się lub znika z citations.

Use case 3: Competitive SERP analysis

Cel: dla 50 kluczowych fraz monitoring top 20 wyników, które domeny rankują, jakie są ich tytuły, descriptions.

Koszt: 50 queries × 7 (tygodniowo) = 350/mc. Każde API starter wystarczy.

Implementacja: porównanie tygodniowe. Alert gdy pojawia się nowy konkurent w top 10.

Use case 4: Local SEO dla wielu lokalizacji

Cel: dla multi-location business (5 lokalizacji × 20 fraz × 30 dni) śledzić lokalne rankingi.

Koszt: 5 × 20 × 30 = 3000 queries/mc. SerpApi Starter $50/mc.

Implementacja: geo-parameter w API (pass city name, zip code). Response zawiera local pack specific dla tej lokalizacji.

Podobne automatyzacje, ale dla własnych danych z GSC i innych źródeł, opisujemy w przewodniku o automatyzacji raportów SEO – tam skupiamy się na tym, jak łączyć wiele źródeł w spójny system.

Stack techniczny: od zera do działającego pipeline’u w tygodniu

Minimalny stack dla custom SERP scraping:

  1. Wybór API (1 godzina). Porównanie 2-3 dostawców, trial accounts, decyzja.
  2. Storage (BigQuery albo SQLite, 1-2 godziny). BigQuery dla scale, SQLite dla prototypu.
  3. Scheduler (cron na serwerze albo Cloud Scheduler, 30 min). Codzienne automatyczne uruchomienie.
  4. Python script (4-8 godzin). Biblioteka requests dla API calls, pandas dla processingu, google-cloud-bigquery dla storage.
  5. Dashboard w Looker Studio (2-4 godziny). Wizualizacja danych.
  6. Alertowanie (1-2 godziny). Slack webhook, gdy kluczowe metryki przekraczają próg.

Suma: ~2-3 dni pracy dla programisty z doświadczeniem. Dla zespołu bez programisty – zatrudnienie freelancera 3-5 tys. PLN za setup.

Najczęstsze błędy w SERP scrapingu

  1. Pomijanie kontekstu personalizacji. Google często personalizuje wyniki. API dają de-personalized results, ale warto to pamiętać przy porównywaniu z manual checks.
  2. Scrapowanie za często. Ta sama fraza 10× dziennie – marnotrawstwo zasobów API i nic się nie zmienia. Max raz dziennie dla stabilnych fraz, raz na godzinę dla breaking news.
  3. Ignorowanie geo-location. Wyniki Google dla frazy „adwokat” w Warszawie vs Krakowie to różne SERPy. Bez geo-targeting dane są bezwartościowe.
  4. Brak error handling. API czasem zwraca 500 lub rate limited. Script bez retry logic wywala się i traci dane.
  5. Nielegalne scrapowanie bezpośrednio. Own script scrapujący Google.com w masie – CAPTCHA, bany, potencjalne legal issues.
  6. Brak dokumentacji. Za rok nowy pracownik nie wie, co który field w JSON znaczy. Komentowany kod oszczędza godziny debugowania.
  7. Brak monitoringu kosztów. API rośnie z użyciem. Po 3 miesiącach nagle koszt to $800/mc zamiast planowanych $200. Alert na monthly spend.

Alternatywy: kiedy nie potrzebujecie scrapingu

Nie wszyscy potrzebują custom SERP scrapingu. Alternatywy:

  • Ahrefs, Semrush, Senuto Rank Tracker. Dla 50-2000 fraz, standardowy rank tracking. W planach – nie trzeba osobnego scraping.
  • Google Search Console. Dla własnych domen. Darmowe, dokładne.
  • AccuRanker, SERPWatcher. Dedicated rank trackers z lepszymi dashboardami niż custom.

Custom SERP scraping to ma sens gdy: (a) macie >2000 fraz do trackowania (płatne tools limitują), (b) potrzebujecie specific data niedostępnej w klasycznych tools (AI Overview citations, local variations, real-time snapshots), (c) chcecie integrację z własnym systemem BI.

FAQ – najczęstsze pytania o SERP scraping

Czy mogę scrapować Google własnym skryptem?

Technicznie tak, ale nielegalne (przeciwne Google TOS). Praktycznie – po 50-100 requestach pojawia się CAPTCHA, po 500-1000 tymczasowy ban IP. Dla poważnego użycia zawsze używajcie API (SerpApi, DataForSEO) – tam compliance jest już rozwiązany.

Ile kosztuje scrapować 10 000 fraz codziennie?

10 000 × 30 = 300 000 queries/mc. DataForSEO pay-per-query ~$0,0005-0,001 = $150-300/mc. SerpApi Enterprise (custom plan) ~$600-1000/mc dla tego volume. Dla większości zastosowań DataForSEO jest tańszy przy wysokich wolumenach.

Czy SERP scraping daje takie same dane jak ręczne sprawdzanie w Chrome?

Prawie. Różnice: (1) API daje de-personalized results (brak historii wyszukiwania, tracking cookies), (2) API może nie pokazywać najnowszych eksperymentów Google, które pojawiają się dla małego % users. Dla 95% zastosowań – identyczne.

Jak radzić sobie z inconsistent data (czasem fraza ma AI Overview, czasem nie)?

To normalne – Google pokazuje SERP features fluktuacyjnie. Zrób tracking przez 7-14 dni, używaj medianę albo % uptime. Jeśli AI Overview pojawia się w 70% checkach – traktujcie jako „normal presence”. Below 30% – inconsistent, warto monitorować dalej.

Czy można scrapować mobile SERP vs desktop SERP?

Tak. Wszystkie główne API mają parametr device/platform. Results się różnią (mobile ma większy Local Pack, mniej Ads space, inne Shopping display). Dla fully picture warto trackować oba – koszt podwaja się, ale insight jest wartościowy.

Czy API providers dzielą się danymi z Google?

Nie. SerpApi, DataForSEO etc. to niezależne firmy, które mają własne infrastruktury scraping (residential proxies, distributed requests). Google nie autoryzuje oficjalnie żadnego z tych dostawców, ale tolerują (Google ma limited enforcement wobec nich, głównie gdy ewidentnie naruszają scale limits).

Co zrobić, gdy API zwraca niespójne dane (raz pokazuje AI Overview, raz nie)?

Normalne dla real-world API. Strategia: (1) retry z 2-minutowym delay, (2) agregacja wielodniowa (nie jeden check), (3) porównanie z manual check co kilka dni. Jeśli API ma długotrwały inconsistency – switch do innego providera.

Co dalej

Praktyczny pierwszy krok: wykupcie trial jednego z API (SerpApi albo DataForSEO – oba mają free tier), napiszcie script pobierający top 10 dla 20 Waszych kluczowych fraz, zobaczcie, czy dane są zgodne z ręcznym sprawdzaniem. 3-4 godziny pracy. Po tym możecie zaplanować pełny pipeline. Dalsze praktyczne skrypty SEO w Pythonie – wiele z nich używa dokładnie tych API – opisujemy w tekście o 10 skryptach Python w SEO, które oszczędzają godziny.