Case study: +340% cytowań w ChatGPT (90 dni AIO, SaaS B2B)

TL;DR: 15-osobowy SaaS B2B z polskiego rynku MarTech — w tekście nazywamy go FlowMetric (klient anonimizowany) — w ciągu 90 dni zwiększył liczbę cytowań w ChatGPT z 47 do 207 miesięcznie, co daje wzrost o 340%. Widoczność w Perplexity wzrosła o 285%, a w Google AI Overviews o 190%. Budżet wdrożenia: 38 200 zł netto. ROI w horyzoncie 180 dni: 3,2x. Kluczowe działania to restrukturyzacja treści pod chunkowanie, wdrożenie schema JSON-LD na poziomie pojedynczych twierdzeń, 42 nowe artykuły w formacie AIO-first oraz audyt i optymalizacja istniejących 118 URL-i. Najważniejsza lekcja — AIO nie zastępuje klasycznego SEO, tylko je rozszerza. Poniżej pełna rozpiska tygodnie 1–13, konkretne metryki, tabela before/after, 7-krokowa metodologia do replikacji oraz siedem błędów, które popełniliśmy po drodze.

Kontekst i punkt startowy

FlowMetric to SaaS B2B działający od 2019 roku, oferujący platformę do atrybucji marketingowej multi-touch dla zespołów performance. Klienci to głównie agencje performance marketingu i działy growth w spółkach e-commerce o obrotach 20–200 mln zł rocznie. Zespół liczy 15 osób — 8 inżynierów, 3 osoby w sales, 2 osoby w customer success, 1 osoba w marketingu (contentowa), CEO oraz head of product. Budżet marketingowy wynosi około 28 000 zł miesięcznie, z czego 40% idzie na content, 35% na paid media (głównie LinkedIn Ads), a 25% na narzędzia i eventy.

Blog spółki istnieje od 2021 roku i do października 2025 miał 118 opublikowanych artykułów. Średnia długość to 1 800 słów, większość to poradniki techniczne (jak zbudować model atrybucji, jak liczyć LTV w SaaS, jak mierzyć influencer marketing) oraz analizy rynkowe. Ruch organiczny z Google wynosił stabilnie 14 000–18 000 sesji miesięcznie, z czego 68% pochodziło z długiego ogona (zapytania informacyjne, 4+ słów), a 22% z zapytań brandowych. Blog generował średnio 140 leadów marketingowych miesięcznie przy koszcie pozyskania 32 zł za lead — świetny wynik jak na rynek B2B SaaS.

Problem, z którym przyszli do nas w sierpniu 2025, był jednak niepokojący. Google zaczął agresywnie pokazywać AI Overviews dla zapytań informacyjnych, a CTR z pozycji 1–3 dla takich fraz spadł w ciągu dwunastu miesięcy o 38%. Jednocześnie CEO zauważył, że w rozmowach z prospektami coraz częściej pojawiają się zdania typu „ChatGPT powiedział mi, że atrybucja multi-touch ma sens dopiero powyżej X transakcji miesięcznie” — i że prospekty cytują konkurentów, a nie FlowMetric. Szybka weryfikacja pokazała, że ChatGPT w 47 rozmowach miesięcznie (pomiar przez Profound) powoływał się na blog FlowMetric, podczas gdy trzech głównych konkurentów miało odpowiednio 162, 138 i 94 cytowania. FlowMetric był czwarty — dla lidera kategorii w Polsce to niedopuszczalne.

Cel, na jaki się umówiliśmy: w ciągu 90 dni potroić liczbę cytowań w ChatGPT, utrzymując lub zwiększając ruch organiczny z Google. Budżet projektu: 38 000 zł. Zespół po stronie FlowMetric: jedna osoba contentowa (50% czasu), head of product (konsultacje merytoryczne, 4 godziny tygodniowo), developer (integracje schema, 20 godzin w całym projekcie). Po naszej stronie: strateg AIO, redaktor, dwóch writerów i inżynier schema/techniczny.

Diagnoza — co faktycznie nie działało

Pierwsze dwa tygodnie poświęciliśmy na pełny audyt. Nie chcieliśmy działać na czuja. W praktyce AIO rządzi się innymi prawami niż klasyczne SEO, a wiele rzeczy, które pomagają w Google, w ogóle nie ma znaczenia dla modeli językowych — i odwrotnie. Wyniki audytu podzieliliśmy na cztery obszary.

Obszar 1: struktura treści. 118 istniejących artykułów miało klasyczną strukturę SEO sprzed ery AIO. Długie wstępy (400–600 słów zanim padnie konkret), H2 w stylu „Co to jest atrybucja multi-touch?”, akapity po 5–8 zdań, listy numerowane bez struktury „twierdzenie → dowód”. Dla modelu językowego, który wyciąga z bazy konkretne chunki (fragmenty 200–500 tokenów), taka struktura jest prawie bezużyteczna — model nie znajduje zwartego, cytowalnego fragmentu. Dla porównania — konkurent lider miał artykuły z pierwszym konkretem już w 80 słowach, TL;DR na górze, H2 w formie pytań i sekcje po 150–300 słów zakończone „kluczową liczbą”.

Obszar 2: schema i dane strukturalne. FlowMetric miał wdrożony standardowy schema Article przez RankMath, ale nic poza tym. Brak FAQPage, brak HowTo, brak Dataset dla case studies, brak Organization.sameAs, brak autorów jako osób (Author jako string zamiast Person z profilem). Co ciekawe — konkurent z 162 cytowaniami miał schema Dataset na każdym artykule zawierającym statystyki, a FAQPage na 70% URL-i. Modele językowe, które są trenowane na ogromnej ilości danych strukturalnych, faworyzują źródła, które „same się opisują” w maszynowo czytelny sposób.

Obszar 3: autorytet tematyczny. Tu FlowMetric był w dobrej pozycji — 118 artykułów w jednej wąskiej niszy to solidne pokrycie. Problem polegał na tym, że tylko 34 artykuły odpowiadały na konkretne zapytania informacyjne typu „ile kosztuje atrybucja multi-touch”, „kiedy warto wdrożyć MMM zamiast MTA”, „jak liczyć incrementality”. Reszta to były ogólne poradniki lub promocyjne case studies klientów. Dla ChatGPT, który jest pytany „ile kosztuje X” albo „kiedy Y”, brak konkretnych, liczbowych odpowiedzi oznaczał brak podstaw do cytowania.

Obszar 4: sygnały zewnętrzne. Profile na G2, Capterra i Product Hunt były zaniedbane — dwa lata bez aktualizacji. Brak aktywnego profilu CEO na LinkedIn jako eksperta merytorycznego (tylko posty rekrutacyjne). Brak gościnnych publikacji w branżowych mediach w ostatnich 18 miesiącach. Modele językowe odbierają te sygnały jako brak „potwierdzenia z zewnątrz” — a to, co mówi o sobie firma, waży mniej niż to, co mówią o niej inni.

Strategia wdrożenia

Po audycie ułożyliśmy plan na 13 tygodni. Filozofia była prosta — nie próbujemy odbudować wszystkiego, tylko wybieramy 20% ruchów, które dadzą 80% efektu. Zidentyfikowaliśmy pięć filarów, na których oparliśmy pracę.

Filar pierwszy — restrukturyzacja 30 najważniejszych artykułów. Zamiast pisać wszystko od nowa, wybraliśmy 30 URL-i o największym potencjale: te, które już rankowały na TOP 5 w Google dla zapytań z widoczną odpowiedzią AI, te, które pokrywały tematy często pytane w ChatGPT (lista z Profound), oraz te, które miały najlepsze sygnały wewnętrzne (najwięcej linków, najdłuższy czas na stronie). Każdy z tych URL-i przeszedł AIO refactor: TL;DR w pierwszych 80 słowach, H2 w formacie pytań, akapity 2–3 zdaniowe, sekcje po 150–250 słów kończone „kluczową liczbą” lub „kluczowym twierdzeniem”, dodanie FAQ (5–8 pytań), dodanie tabeli porównawczej lub statystyk.

Filar drugi — 42 nowe artykuły w formacie AIO-first. Ułożyliśmy mapę 42 tematów, na które FlowMetric nie odpowiadał, a które były często pytane w ChatGPT (weryfikacja przez narzędzia do mapowania zapytań LLM — Profound). Każdy artykuł miał 1 800–2 400 słów, pełną strukturę AIO, co najmniej jedną tabelę, FAQ minimum 6 pytań i minimum 3 wewnętrzne linki. Artykuły publikowane w tempie 3–4 tygodniowo.

Filar trzeci — warstwa schema. Wdrożenie FAQPage na wszystkich URL-ach z sekcją FAQ (118 istniejących + 42 nowe = 160 URL-i), HowTo na poradnikach proceduralnych (41 URL-i), Dataset na case studies i artykułach ze statystykami (28 URL-i), rozszerzenie Article o pełny Author.Person z BlogPosting i WebPage. Dodatkowo — wdrożenie FAQPage i Organization schema na stronie głównej i kategoriach.

Filar czwarty — sygnały zewnętrzne. Aktualizacja G2, Capterra, Product Hunt (z opisami przystępnymi dla LLM). Zbudowanie profilu CEO jako eksperta — 2 posty tygodniowo z konkretnymi liczbami na LinkedIn, 3 gościnne artykuły w branżowych mediach w 90 dni, wystąpienie na jednej konferencji z dostępnym zapisem. Aktualizacja Wikipedii firmy (nie tworzenie od zera, tylko uzupełnienie źródeł dla istniejącej strony).

Filar piąty — pomiar i iteracja. Wdrożenie monitoringu w Profound (47 zapytań konkurencyjnych, mierzonych co tydzień), ustawienie cotygodniowych sprawdzeń w ChatGPT, Perplexity, Google AI Overviews i Claude. Każdy poniedziałek — 60-minutowy przegląd danych z tygodnia i decyzje o korektach kursu.

Timeline 90 dni — co się działo tydzień po tygodniu

Projekt rozpoczął się 3 listopada 2025 i zakończył 1 lutego 2026. Poniżej rozpiska tygodniowa z kluczowymi kamieniami milowymi.

Tydzień 1 (3–9 listopada). Audyt techniczny i content audit. Scrape wszystkich 118 URL-i, wrzucenie do arkusza z 22 metrykami (długość, struktura, schema, pozycje, ruch, cytowania w ChatGPT). Setup Profound z 47 zapytaniami. Pierwszy benchmark cytowań: 47 miesięcznie w ChatGPT, 23 w Perplexity, 31 w Google AI Overviews.

Tydzień 2 (10–16 listopada). Warsztat strategiczny z zespołem FlowMetric (4 godziny). Ustalenie priorytetów, lista 30 URL-i do refactoru, lista 42 nowych tematów. Przygotowanie szablonu AIO-first dla writerów. Rozpoczęcie pracy nad pierwszymi 5 URL-ami (refactor pilotowy).

Tydzień 3 (17–23 listopada). Wdrożenie schema na poziomie globalnym — FAQPage, HowTo, Dataset, rozszerzony Author. Developer FlowMetric włączył się z 8-godzinnym sprintem, reszta przez JSON-LD w RankMath. Publikacja pierwszych 2 nowych artykułów. Refactor 5 kolejnych URL-i.

Tydzień 4 (24–30 listopada). Pierwszy pomiar cząstkowy — cytowania w ChatGPT wzrosły z 47 do 62 (+32%). To był moment, w którym zespół FlowMetric uwierzył, że to działa. W tym tygodniu opublikowano 3 nowe artykuły i zrefactorowano 6 URL-i. CEO FlowMetric zaczął publikować pierwsze posty z liczbami na LinkedIn.

Tydzień 5 (1–7 grudnia). Pełne tempo produkcji: 4 nowe artykuły, 6 refactorów. Aktualizacja profilu G2 i Capterra z nowymi opisami. Pierwsza gościnna publikacja w „Marketing przy Kawie” (artykuł head of product o MMM vs MTA).

Tydzień 6 (8–14 grudnia). Pomiar miesięczny (po 30 dniach): ChatGPT 74 cytowania (+57%), Perplexity 38 (+65%), Google AI Overviews 41 (+32%). Wzrost wcześniej niż zakładaliśmy — pierwotnie plan zakładał widoczne efekty po 45 dniach.

Tydzień 7 (15–21 grudnia). Kontynuacja produkcji: 4 nowe artykuły, 5 refactorów. Wystąpienie CEO na konferencji MarTech Warsaw z zapisem wideo i transkrypcją (kluczowe — transkrypcja jest cytowana przez modele).

Tydzień 8 (22–28 grudnia). Świąteczne zwolnienie tempa — 2 nowe artykuły, 3 refactory. Skupiliśmy się na aktualizacji Wikipedii i trzech gościnnych publikacjach w pipelinie.

Tydzień 9 (29 grudnia – 4 stycznia). Powrót do pełnej produkcji: 4 nowe artykuły, 6 refactorów. Druga gościnna publikacja (w „NowyMarketing”). Pomiar: ChatGPT 118 cytowań (+151% od startu).

Tydzień 10 (5–11 stycznia). Trzecia gościnna publikacja. Pełna restrukturyzacja strony głównej i strony produktu pod kątem AIO (dodanie sekcji „Dla kogo”, FAQ, konkretnych liczb z benchmarku atrybucji). 4 nowe artykuły, 5 refactorów.

Tydzień 11 (12–18 stycznia). Produkcja: 4 nowe artykuły. Zakończenie refactoru 30 URL-i. Wdrożenie zewnętrznego pomiaru w Claude i Gemini (początkowo nie byliśmy w planie). Wstępny pomiar miesiąca drugiego: ChatGPT 162 (+245%).

Tydzień 12 (19–25 stycznia). Końcówka produkcji: 3 nowe artykuły (łącznie 42), ostatnie poprawki na refaktorach. Head of product publikuje własny długi post na LinkedIn z pełnym case study jednego klienta (3 200 słów, pełne liczby, generuje 140 komentarzy).

Tydzień 13 (26 stycznia – 1 lutego). Finalny pomiar i raport. ChatGPT 207 cytowań miesięcznie (+340%), Perplexity 89 (+287%), Google AI Overviews 90 (+190%). Ruch organiczny z Google: wzrost z 16 400 do 18 900 sesji miesięcznie (+15,2%).

Rezultaty z liczbami

Po 90 dniach mieliśmy twarde dane. Pomiary prowadziliśmy cotygodniowo w Profound, uzupełnione ręczną weryfikacją 47 zapytań kontrolnych w czterech modelach (ChatGPT-4o, ChatGPT-4-turbo, Perplexity Pro, Claude Sonnet 4.5). Wszystkie liczby poniżej to średnia z ostatnich 30 dni projektu vs. pierwsze 30 dni.

Widoczność w modelach językowych. Cytowania w ChatGPT wzrosły z 47 do 207 miesięcznie (+340%). W Perplexity z 23 do 89 (+287%). W Google AI Overviews z 31 do 90 (+190%). W Claude — tu nie mieliśmy baseline’u, ale na koniec projektu FlowMetric był cytowany 64 razy miesięcznie. Co istotne — dla 12 z 47 zapytań kontrolnych FlowMetric stał się źródłem numer jeden (na początku był źródłem numer 1 tylko dla 2 zapytań).

Ruch organiczny i konwersje. Ruch z Google wzrósł o 15,2% (z 16 400 do 18 900 sesji miesięcznie) — wbrew obawom, że skupienie na AIO zaszkodzi klasycznemu SEO. Liczba leadów marketingowych wzrosła z 140 do 198 miesięcznie (+41%), przy czym 28% nowych leadów pochodziło z kanałów nie-Google (bezpośredni, LinkedIn, „ChatGPT mnie skierował” w ankiecie first-touch). Koszt pozyskania leada spadł z 32 zł do 24 zł.

Finanse. Budżet projektu: 38 200 zł netto (honorarium agencji 28 000 zł + czas wewnętrzny FlowMetric wyceniony na 10 200 zł). Dodatkowe koszty stałe — Profound (480 zł/mies.), tooling schema (100 zł/mies.). Przyrost leadów o 58 miesięcznie przy średnim MRR z klienta 2 800 zł i konwersji lead → klient 2,1% daje przyrost MRR o 3 410 zł miesięcznie. ROI w horyzoncie 180 dni (zakładając liniowe utrzymanie efektu): 3,2x. W horyzoncie 12 miesięcy: 8,7x.

Czas zespołu. Łącznie FlowMetric zaangażował 143 godziny własnego zespołu (48 godzin osoby contentowej, 52 godziny head of product, 20 godzin developera, 12 godzin CEO na LinkedIn, 11 godzin na publikacje gościnne i konferencję). Przy wycenie 80 zł/godzinę daje to ~11 440 zł kosztu wewnętrznego — zaokrągliliśmy do 10 200 zł, bo część to praca, która i tak by się odbyła.

Tabela — before/after kluczowe metryki

Metryka	Przed (październik 2025)	Po (styczeń 2026)	Zmiana
Cytowania w ChatGPT/mies.	47	207	+340%
Cytowania w Perplexity/mies.	23	89	+287%
Cytowania w Google AI Overviews	31	90	+190%
Zapytania, dla których FM = źródło #1	2	12	+500%
Ruch organiczny z Google (sesje)	16 400	18 900	+15,2%
Leady marketingowe/mies.	140	198	+41,4%
Koszt leada	32 zł	24 zł	-25%
Liczba URL-i z FAQPage schema	0	160	—
Liczba URL-i z Dataset schema	0	28	—
Średnia długość akapitu (zdania)	5,8	2,4	-59%
Liczba sekcji z „kluczową liczbą”	~0,3/artykuł	4,7/artykuł	+15x

Framework 7-krokowy — replikowalna metodologia AIO-first

To, co zadziałało w FlowMetric, jest — z pewnymi modyfikacjami — replikowalne dla większości SaaS B2B w Polsce i w Europie Środkowej. Przerobiliśmy wewnętrznie doświadczenia z tego projektu na framework, który stosujemy teraz u kolejnych klientów. Poniżej 7 kroków — każdy z nich ma konkretne deliverable i wyceniony czas pracy.

Diagnoza AIO (tydzień 1). Scrape wszystkich URL-i, benchmark cytowań w ChatGPT, Perplexity, AI Overviews i Claude. Identyfikacja 20 zapytań, dla których konkurencja dominuje. Audyt schema (FAQPage, HowTo, Dataset, Author.Person, Organization). Deliverable: arkusz z 25 metrykami per URL + lista 20 zapytań kontrolnych + raport konkurencji.
Priorytetyzacja (tydzień 2). Wybór 20–30 URL-i do refactoru według macierzy: potencjał AIO (pytanie informacyjne, tak/nie) × obecna widoczność w Google (TOP 10 = tak/nie) × ruch (>100 sesji/mies. = tak/nie). Mapowanie 30–50 nowych tematów do pokrycia. Deliverable: backlog z priorytetami, mapa linkowania, harmonogram publikacji.
Schema i warstwa techniczna (tydzień 2–3). Wdrożenie pełnego schematu JSON-LD: FAQPage globalnie, HowTo na poradnikach, Dataset na artykułach ze statystykami, Author.Person z profilem, Organization.sameAs z linkami do G2, LinkedIn, Wikipedii. Walidacja przez Rich Results Test Google i Schema.org validator. Deliverable: 100% URL-i z walidnym schema, dokumentacja pól do uzupełniania przy nowych artykułach.
Refactor istniejących treści (tygodnie 3–9). Przepracowanie wybranych URL-i według szablonu AIO-first: TL;DR w pierwszych 80 słowach, H2 w formie pytań, akapity 2–3 zdaniowe, sekcje 150–250 słów kończone „kluczową liczbą”, FAQ 5–8 pytań, co najmniej jedna tabela lub lista numerowana z opisami. Deliverable: zrefaktorowane URL-i, pomiar zmiany cytowań co tydzień.
Produkcja nowych treści (tygodnie 3–12). Tempo 3–4 artykuły/tydzień, 1 800–2 400 słów, pełna struktura AIO-first, linkowanie wewnętrzne (minimum 3 linki w artykule, minimum 3 linki przychodzące z istniejących URL-i). Deliverable: 30–50 nowych URL-i w ciągu 90 dni.
Sygnały zewnętrzne (tygodnie 3–12). Aktualizacja profili na G2, Capterra, Product Hunt, LinkedIn (firma i CEO). 2–3 gościnne publikacje w branżowych mediach w ciągu 90 dni. Wystąpienie na konferencji z dostępnym zapisem i transkrypcją. Uzupełnienie Wikipedii (jeśli firma kwalifikuje się do obecności). Deliverable: lista 10 nowych sygnałów zewnętrznych z timestampami.
Pomiar i iteracja (cały projekt, tydzień 13 podsumowanie). Cotygodniowy pomiar w Profound, ręczna weryfikacja 20–50 zapytań kontrolnych w 4 modelach, miesięczny raport ze zmianami. Weekly review na 60 minut z decyzjami o korektach. Deliverable: finalny raport z metrykami before/after, lista lekcji, rekomendacje na kolejne 90 dni.

Najczęstsze błędy — to, czego nie zrobilibyśmy drugi raz

W trakcie projektu popełniliśmy siedem błędów. Niektóre kosztowały tygodnie, inne tylko dni — ale wszystkie były do uniknięcia. Dzielimy się nimi otwarcie, bo w branży AIO błąd jednego jest ostrzeżeniem dla drugiego.

Błąd 1. Zaczęliśmy od nowych artykułów, a nie od refactoru. W pierwszych 3 tygodniach dominowaliśmy nową produkcję, bo to było „ekscytujące”. Dopiero tydzień 4 pokazał, że refactor istniejących, już rankujących URL-i daje szybszy zwrot — bo one już mają autorytet w Google, wystarczy je „przekonwertować” na AIO-friendly. Druga iteracja: zawsze zaczynaj od refactoru, nowe artykuły równolegle od tygodnia 3.

Błąd 2. Przecenialiśmy rolę Google Search Console. Dla AIO GSC jest prawie bezużyteczny — nie pokazuje cytowań w modelach, tylko klasyczne CTR i pozycje. Straciliśmy 4 godziny na zbudowanie dashboardu z GSC, który okazał się kompletnie nieistotny. Używaj Profound, narzędzi do monitoringu LLM, i ręcznej weryfikacji w modelach.

Błąd 3. Zapomnieliśmy o transkrypcjach. Wideo z konferencji MarTech Warsaw wisiało na YouTube bez transkrypcji przez dwa tygodnie. Dopiero gdy zrozumieliśmy, że modele językowe nie „oglądają” wideo, tylko czytają transkrypcje, zleciliśmy pełną transkrypcję z timestampami. Wnioski z tamtego wystąpienia zaczęły pojawiać się w cytowaniach tydzień po publikacji transkrypcji.

Błąd 4. Nie testowaliśmy od razu w wielu modelach. Przez pierwsze 6 tygodni mierzyliśmy tylko ChatGPT-4o i Perplexity. Dopiero potem dodaliśmy Claude i Gemini. Okazało się, że optymalizacja pod ChatGPT przenosi się w 80% na Perplexity, ale tylko w 50% na Claude — który ma inne preferencje (krótsze akapity, więcej list numerowanych z opisami). Następny projekt — testujemy we wszystkich 4 modelach od tygodnia 1.

Błąd 5. Przesadziliśmy z FAQ. Na niektórych URL-ach daliśmy FAQ z 12 pytaniami, z których połowa była redundantna. Modele językowe zauważyły powtórzenia i w niektórych przypadkach jakość cytowań spadła. Optymalna liczba to 5–8 pytań, każde odpowiada na inne, ostro zdefiniowane zapytanie.

Błąd 6. Ignorowaliśmy komentarze i recenzje. G2 i Capterra mają sekcje „pros/cons” w recenzjach, które modele intensywnie czytają. FlowMetric zbierał recenzje, ale nigdy nie prosił klientów o konkretne formułowania z liczbami („dzięki FM obniżyliśmy CAC o 23%”). Zaczęliśmy prosić o to w procesie customer success i w ciągu miesiąca dostaliśmy 8 nowych recenzji z twardymi danymi — które ChatGPT zaczął cytować.

Błąd 7. Nie przygotowaliśmy treści „defensywnych”. Konkurencja robi to samo, co my. W tygodniu 10 zauważyliśmy, że jeden z konkurentów wdrożył swoją wersję AIO i zaczął wyprzedzać nas dla 3 zapytań, które wcześniej były „nasze”. Nie mieliśmy przygotowanego planu reakcji — straciliśmy tydzień na improwizację. Następnym razem: od dnia 1 mamy listę 5–10 „defensywnych” tematów, na które możemy zareagować w 48 godzin, jeśli konkurencja zrobi ruch.

FAQ

Ile kosztuje wdrożenie AIO dla SaaS B2B?

Dla 15-osobowej firmy z istniejącą bazą 100–150 artykułów, budżet na 90-dniowy projekt AIO-first wynosi zwykle 30 000–55 000 zł netto (honorarium agencji + koszt czasu wewnętrznego). Dla większych firm z bazą 500+ artykułów — 80 000–150 000 zł. Koszty narzędzi: Profound 450–600 zł/mies., tooling schema 0–150 zł/mies. (zwykle mieści się w subskrypcji RankMath lub Yoast).

Jak szybko widać pierwsze efekty?

Pierwsze wzrosty cytowań w ChatGPT pojawiają się zwykle w tygodniu 3–5 od wdrożenia, pod warunkiem że refactor istniejących URL-i rusza od tygodnia 2. Pełne potrojenie lub pięciokrotność cytowań wymaga zwykle 90 dni. Dla porównania, w klasycznym SEO ten sam efekt (wzrost o 200–300%) wymaga 6–12 miesięcy.

Czy AIO zastępuje SEO, czy je uzupełnia?

Uzupełnia. W projekcie FlowMetric ruch z Google wzrósł o 15,2% równolegle ze wzrostem cytowań w LLM. Zasady AIO (jasna struktura, konkretne liczby, schema, FAQ) pomagają też w Google — zwłaszcza w kontekście AI Overviews, które są teraz de facto integralną częścią wyników Google.

Czy mały zespół (5–10 osób) może to zrobić samodzielnie?

Tak, ale czas trwa dłużej. Bez wsparcia zewnętrznego, 5-osobowy SaaS B2B osiągnie podobne efekty w 6–9 miesięcy zamiast 3. Kluczowe jest skupienie jednej osoby (na minimum 50% etatu) wyłącznie na AIO oraz inwestycja 20 godzin w szablonowanie procesu (szablon artykułu, checklista schema, checklista refactoru). Praktyczne wskazówki pokazaliśmy też w tekście o jak optymalizować treść pod ChatGPT.

Jakie narzędzia są niezbędne?

Trzy kategorie: (1) pomiar LLM — Profound lub alternatywa (Otterly.ai, AthenaHQ), minimum 400–600 zł/mies.; (2) tooling schema — RankMath Pro, Yoast Premium albo AIOSEO Pro, 300–500 zł/rok; (3) narzędzia researchowe — ChatGPT Plus, Claude Pro, Perplexity Pro (łącznie ~300 zł/mies.). Nie potrzebujesz drogich enterprise’ów typu Conductor czy BrightEdge.

Czy struktura AIO szkodzi doświadczeniu użytkownika?

Nie, jeśli jest dobrze zrobiona. Ludzie, którzy skanują treści, też czerpią z TL;DR, krótkich akapitów i sekcji z „kluczową liczbą”. W projekcie FlowMetric średni czas na stronie po refaktorze wzrósł o 18%, a bounce rate spadł o 11%. Struktura AIO jest bliższa temu, jak ludzie naturalnie czytają treści w 2026 roku — skanują, szukają konkretu, wychodzą z odpowiedzią.

Co, jeśli nie jestem SaaS B2B — tylko e-commerce albo serwis informacyjny?

Metodologia jest przenośna, ale priorytety się zmieniają. E-commerce: schema Product i Review mają większe znaczenie niż FAQPage. Serwis informacyjny: Dataset i NewsArticle. Dla e-commerce kluczowa jest też warstwa opinii produktowych — modele cytują oceny ze sklepu, więc trzeba zadbać o ich strukturę. Zasady „konkretne liczby, krótkie akapity, schema” pozostają takie same.

Ile cytowań w ChatGPT to „dobry wynik” dla SaaS B2B?

To zależy od wielkości niszy. Dla wąskiej niszy B2B (jak atrybucja marketingowa) — 100–250 cytowań miesięcznie to pozycja lidera. Dla szerokich nisz (jak email marketing) — trzeba celować w 500–1500. Najlepszy sposób pomiaru: stosunek Twoich cytowań do sumy cytowań trzech głównych konkurentów. FlowMetric po 90 dniach osiągnął 207 cytowań przy sumie konkurentów 394 — czyli udział rynkowy w LLM-ach 34,4% (z 15,5% na starcie).

Co dalej

90 dni to tylko pierwsza faza. Z FlowMetric umówiliśmy się na kontynuację w formacie maintenance — 8 nowych artykułów miesięcznie plus cotygodniowy monitoring cytowań. Równolegle zaczynamy projekt „AIO international” — rozszerzenie widoczności na rynek anglojęzyczny (Wielka Brytania, Niemcy), który dla FlowMetric jest naturalną ekspansją na 2026 rok. Wnioski z fazy pierwszej przenoszą się niemal 1:1, ale pojawia się dodatkowy wymiar — lokalizacja schema (język, sameAs na lokalne profile, współpraca z lokalnymi mediami branżowymi).

Dla czytelników tego case study — jeśli zastanawiasz się, czy AIO ma sens dla Twojego biznesu, zadaj sobie trzy pytania. Po pierwsze: czy Twoi prospekci zadają pytania, na które odpowiedź można znaleźć w internecie? Jeśli tak, to ChatGPT już im odpowiada — pytanie tylko, czy cytując Ciebie, czy konkurenta. Po drugie: czy masz już jakąkolwiek obecność contentową (blog, case studies, dokumentacja)? Jeśli tak, masz aktywo do konwersji na AIO-first, i to jest szybsze niż budowanie od zera. Po trzecie: czy masz jedną osobę w zespole, która może spędzić 50% czasu przez 3 miesiące na tym projekcie? Jeśli tak — warto zacząć. Jeśli nie — warto znaleźć taką osobę albo dopasować zakres projektu do dostępnych zasobów.

Więcej o narzędziach pomiaru i ich mocnych stronach omówiliśmy w artykule o monitoringu cytowań w LLM-ach, a pełną listę 160 sprawdzeń pod AIO znajdziesz w naszym aktualizowanym checkliście AIO 2026. Jeśli chcesz głębiej wejść w temat konstruowania odpowiedzi dla modeli językowych, warto też przeczytać oficjalną dokumentację od twórców Claude — konkretnie przewodnik po prompt engineering Anthropic, który tłumaczy, jak modele „myślą” o treści i dlaczego pewne struktury są dla nich łatwiejsze do przetworzenia niż inne.

Na koniec — AIO to nie krótki trend. Google, OpenAI, Anthropic i Perplexity inwestują miliardy w to, by wyszukiwanie oparte o modele stało się domyślnym sposobem konsumpcji informacji. Case FlowMetric pokazuje, że 90 dni konsekwentnej pracy, 38 000 zł budżetu i zdyscyplinowany proces wystarczą, by przestawić 100-osobową firmę — albo 15-osobowy SaaS — z pozycji „gdzieś cytowany” na pozycję „źródło referencyjne”. Im szybciej zaczniesz, tym trudniej będzie konkurencji Cię dogonić — bo w AIO, podobnie jak w SEO, autorytet tematyczny jest kumulatywny, a każdy tydzień opóźnienia to tydzień, w którym konkurent buduje przewagę, która trudniej się nadrabia.

Pomiary i analiza — jak dokładnie wyglądał ten wzrost

Zanim zagłębimy się w kolejne wnioski, warto rozłożyć wzrost cytowań na czynniki pierwsze. Z 47 do 207 cytowań miesięcznie to nie jest liniowy przyrost — krzywa rośnie coraz stromiej w drugim miesiącu i stabilizuje się w trzecim. Dekompozycja pokazuje, że 34% przyrostu pochodzi z refactoru istniejących URL-i (te URL-e już miały autorytet w Google, przekonwertowanie struktury wystarczyło, by modele zaczęły je częściej cytować), 47% z nowych 42 artykułów (szczególnie tych 11, które trafiły w bardzo konkretne, rzadko pokrywane zapytania typu „ile kosztuje MTA w Polsce” czy „kiedy MMM przestaje być opłacalny”), a pozostałe 19% z sygnałów zewnętrznych — gościnnych publikacji, wystąpienia konferencyjnego i restrukturyzacji profili G2 oraz Capterra.

Ciekawy jest podział cytowań według typów zapytań. Na 207 miesięcznych cytowań w ChatGPT, 89 (43%) przypada na zapytania definicyjne i informacyjne typu „co to jest atrybucja multi-touch”, 64 (31%) na zapytania porównawcze („MTA vs MMM”, „atrybucja last-click vs data-driven”), 38 (18%) na zapytania cenowe i decyzyjne („kiedy warto wdrożyć”, „ile kosztuje”), a 16 (8%) na zapytania techniczne („jak zintegrować z GA4″). Przed projektem rozkład był inny — FlowMetric był cytowany głównie dla zapytań technicznych (35% z 47 cytowań), a prawie w ogóle dla zapytań decyzyjnych (6%). Ten ostatni segment jest najważniejszy biznesowo, bo to właśnie osoby pytające „kiedy warto wdrożyć” są najbliżej decyzji zakupowej, więc wzrost cytowań w tym obszarze z 3 do 38 miesięcznie ma realny wpływ na pipeline sprzedażowy.

Dodatkowy wymiar analizy to „pozycja w cytowaniu” — czy FlowMetric jest pierwszym, drugim, czy trzecim źródłem, które ChatGPT wymienia w odpowiedzi. Na starcie projektu FlowMetric był źródłem numer 1 dla 2 z 47 zapytań kontrolnych (4%), źródłem numer 2 dla 7 zapytań (15%), i źródłem numer 3 dla 11 zapytań (23%) — reszta to „wzmianka bez priorytetu”. Po 90 dniach liczby wyglądają tak: źródło #1 dla 12 zapytań (26%), #2 dla 18 zapytań (38%), #3 dla 9 zapytań (19%). Innymi słowy, FlowMetric stał się najczęściej cytowanym źródłem w swojej kategorii dla Polski, z komfortową przewagą nad konkurencją.

Co zadziałało najlepiej — głębsze spojrzenie na trzy decyzje

Gdy patrzymy wstecz na projekt, trzy decyzje miały nieproporcjonalnie duży wpływ na końcowy wynik. Jeśli musielibyśmy wybrać 20% ruchów, które dały 80% rezultatu — to te.

Decyzja pierwsza — dodanie sekcji „kluczowa liczba” w każdej sekcji. To była koncepcja, którą podkradliśmy z badań nad tym, jak modele językowe dekodują długie teksty. Okazuje się, że konkretne liczby (z jednostką, w kontekście) są dla modelu silnym „sygnałem zakotwiczenia” — model zapamiętuje liczbę i kontekst, a potem z wysokim prawdopodobieństwem przywołuje ją w odpowiedzi. Zamiast pisać „MTA jest droższe niż last-click”, pisaliśmy „MTA kosztuje średnio 8 400–14 200 zł miesięcznie w pełnym wdrożeniu, 4–8x więcej niż klasyczna atrybucja last-click”. W każdej sekcji (średnio 4–6 sekcji na artykuł) dawaliśmy co najmniej jedną taką konkretną liczbę z kontekstem. Efekt — liczba cytowań z „liczbą w zdaniu” wzrosła z 12 na starcie do 143 po 90 dniach.

Decyzja druga — H2 jako pytania. Klasyczne SEO-wskazówki mówią, żeby nagłówki były opisowe („Atrybucja multi-touch — przewodnik”). Ale LLM-y skanują strukturę dokumentu i preferują nagłówki w formie pytań, bo te pytania często są identyczne z zapytaniami użytkowników. Przepisując H2 z „Rodzaje modeli atrybucji” na „Jakie są najpopularniejsze modele atrybucji multi-touch w 2026 roku?”, daliśmy modelowi wyraźny sygnał — „tu jest odpowiedź na to pytanie”. 127 z 160 URL-i po refactorze ma teraz co najmniej 60% nagłówków w formie pytań.

Decyzja trzecia — FAQ z konkretnymi nazwiskami i instytucjami. To niuans, ale istotny. Zamiast generycznego „według badań, atrybucja multi-touch…”, pisaliśmy „według raportu Forrester z listopada 2024, firmy stosujące multi-touch attribution zwiększają ROI kampanii o średnio 18% w pierwszym roku”. Modele LLM bardzo silnie zakotwiczają na nazwanych źródłach, bo to uwiarygadnia odpowiedź. Oczywiście — źródła muszą być prawdziwe, bo inaczej wpadasz w pułapkę „halucynacji” i tracisz autorytet. Zainwestowaliśmy około 15 godzin w research konkretnych źródeł do uzupełnienia istniejących artykułów.

Trudne pytania, które dostawaliśmy po drodze

W trakcie projektu rozmawialiśmy z zespołem FlowMetric co tydzień — i regularnie padały trudne pytania, które warto tu omówić, bo pewnie pojawią się też u Ciebie, jeśli rozważasz podobne wdrożenie.

„Czy to nie jest po prostu SEO 2.0 pod inną nazwą?” Krótko — nie. Klasyczne SEO optymalizuje pod algorytm Google PageRank i rankingu, który jest deterministyczny i zwraca listę linków. LLM optymalizuje pod proces generowania tekstu, który łączy wiele źródeł w jedną odpowiedź. To inna matematyka. Artykuł, który świetnie rankuje w Google, może być zupełnie niewidoczny w ChatGPT (i odwrotnie). W praktyce zasady się nakładają w 60–70%, ale pozostałe 30–40% to są specyficzne dla AIO techniki, których w klasycznym SEO nie było.

„Co z ryzykiem, że jutro OpenAI zmieni algorytm i wszystko się zmieni?” Ryzyko jest realne, ale mniejsze niż się wydaje. Modele językowe są trenowane na dużych zbiorach danych, i wzorce, które działają dzisiaj (konkretne liczby, jasna struktura, schema), prawdopodobnie będą działać i za 3 lata — bo to są fundamentalne właściwości „dobrego źródła”. Tak jak Google od 20 lat mówi „pisz dla ludzi, a nie dla algorytmu” i to w dużej mierze nadal działa, AIO ma swoje fundamentalne zasady, które nie znikną wraz z kolejną wersją GPT czy Claude.

„Czy nasza treść nie będzie teraz 'ukradziona’ przez ChatGPT i nie stracimy ruchu?” To też realna obawa, i odpowiedź jest bardziej zniuansowana. Tak, część użytkowników otrzyma odpowiedź bez wchodzenia na stronę — to jest w pewnym sensie „utracony klik”. Ale — i to pokazuje projekt FlowMetric — ci użytkownicy, którzy jednak klikną, to są lepiej skwalifikowane leady. Ruch spadł o 3% na niektórych URL-ach, ale konwersja wzrosła o 22%. Ostatecznie firma ma więcej leadów, bo widoczność jest wyższa w ogóle. Drugi aspekt — bycie cytowanym w ChatGPT jest samo w sobie „ekspozycją marki”, nawet jeśli użytkownik nie klika. To, że prospekt słyszy nazwę „FlowMetric” w odpowiedzi na swoje pytanie, buduje świadomość — którą potem można konwertować przez LinkedIn Ads czy email sequence.

„Czy jeśli konkurencja zrobi to samo, nie skończy się to wyścigiem zbrojeń bez zwycięzców?” To pytanie zadał CEO FlowMetric w tygodniu 8, i jest najuczciwsze z wszystkich. Odpowiedź brzmi — tak, będzie wyścig, ale z niego można wygrać. Po pierwsze, pierwsi „wygrywają” więcej, bo budują autorytet, który potem trudno podważyć. Po drugie, jakość wykonania mocno się różni — nie każdy zrobi pełny refactor z rozumieniem chunkingu, większość zrobi tylko powierzchowne zmiany. Po trzecie, w miarę jak rynek się profesjonalizuje, AIO przestanie być przewagą, a zacznie być higieną — tak jak w 2010 roku podstawowe SEO było przewagą, a dzisiaj jest minimum. Lepiej być tym, który buduje higienę wcześnie.

Podsumowanie projektu w kluczowych liczbach

Na koniec skondensujmy cały case w jednym miejscu, żeby można było szybko wrócić do danych, gdy będziesz oceniać, czy coś podobnego ma sens u Ciebie. 90 dni projektu. 38 200 zł netto budżetu. 143 godziny czasu zespołu wewnętrznego. 30 zrefaktorowanych URL-i plus 42 nowe artykuły, czyli 72 URL-e dotknięte bezpośrednio. 160 URL-i z FAQPage schema, 28 z Dataset, 41 z HowTo. Wzrost cytowań w ChatGPT z 47 do 207 (+340%). Wzrost leadów z 140 do 198 miesięcznie (+41%). ROI 180 dni 3,2x, ROI 12 miesięcy 8,7x.

Gdybyśmy mieli zrobić ten projekt ponownie, zachowalibyśmy 90% decyzji i zmienili tylko trzy rzeczy — zaczęlibyśmy od refactoru, a nie od nowych treści; testowali we wszystkich 4 modelach od tygodnia 1; oraz przygotowali z wyprzedzeniem „defensywne” tematy na wypadek ruchu konkurencji. Reszta — szablon AIO-first, cotygodniowe pomiary, schema jako priorytet, sygnały zewnętrzne jako piąty filar — to są ruchy, które ponownie wykonalibyśmy bez zmian.

Jeśli ten case study jest dla Ciebie punktem startu do własnego projektu, zatrzymaj się na jeden wieczór nad trzema pytaniami. Gdzie jesteś dziś (ile cytowań, ile URL-i, jaki content)? Gdzie chcesz być za 90 dni (konkretny target liczbowy — na przykład „potroić cytowania”)? Co musi się wydarzyć w tym czasie, żeby tam dotrzeć (zasoby, czas, budżet)? Odpowiedzi na te trzy pytania nie muszą być skomplikowane, ale muszą być szczere. FlowMetric nie był wyjątkowy — był po prostu konsekwentny. I to jest pewnie najważniejsza lekcja całego projektu.