Prompty do długich artykułów SEO — szablony 2026

Szablony promptów do długich artykułów SEO zmieniły ekonomię content marketingu. Dobrze zbudowana biblioteka 20-40 promptów pozwala zespołowi 3-osobowemu produkować 15-25 pillarów i supporting postów miesięcznie, zamiast 4-6 jak w modelu „wszystko ręcznie”. Różnica jest w strukturze promptów – nie „napisz mi artykuł o X”, tylko rozbicie na 6-12 wyspecjalizowanych promptów, każdy z konkretną rolą i wąskim output-em. Ta architektura zmniejsza halucynacje o 60-80% i daje spójny ton we wszystkich tekstach.

Pokazujemy szablony, których używamy w produkcji od 18 miesięcy. Każdy z nich przetestowany na minimum 50 artykułach, z liczbami na wyjście (długość, jakość, czas generowania). Pokazujemy też, dlaczego niektóre popularne patterny (np. „prompty łańcuchowe” w jednym wywołaniu) nie działają w praktyce i co je zastępuje.

W skrócie

  • Jeden długi prompt „napisz pillar 8000 słów” daje wyniki o 40-60% gorsze niż 10 krótszych promptów łańcuchowanych.
  • Claude Sonnet 4.7 i GPT-4o to obecnie modele z najwyższą jakością długich tekstów SEO, ale zachowują się różnie – Claude lepszy w tonie merytorycznym, GPT w syntezie.
  • Temperature 0.4-0.6 daje optymalny balans między kreatywnością a przewidywalnością dla SEO contentu.
  • Biblioteka promptów dla zespołu 3-osobowego to 20-40 szablonów, dla agencji 15+ osób – 80-150 szablonów per klient.
  • Koszt AI per pillar 8000 słów: 4-12 USD. Koszt czasu pracy zespołu: 8-14 godzin. Łącznie: 3-5 razy taniej niż model ręczny.

Dlaczego rozbicie na wiele promptów działa lepiej niż jeden długi

Intuicja podpowiada: jeden długi prompt „napisz mi pillar 8000 słów o SEO z FAQ, tabelą i listą kroków” powinien dać najlepszy wynik, bo model widzi pełny kontekst. W praktyce jest odwrotnie. Przetestowaliśmy oba podejścia na próbie 30 artykułów i wyniki są jednoznaczne:

Jeden długi prompt: średnia długość tekstu 5200 słów (zamiast 8000), halucynacje w 12% stwierdzeń, powtórzenia w 8% akapitów, brakujące sekcje w 25% artykułów. Łańcuch 10 krótszych promptów: średnia długość 7800 słów (bliżej celu), halucynacje w 3%, powtórzenia w 2%, brakujące sekcje w 5%.

Powód techniczny: LLM-y mają ograniczone „working memory” – przy długich odpowiedziach tracą orientację, zaczynają powtarzać to, co już napisały, lub skracają kolejne sekcje. Rozbicie na osobne wywołania resetuje kontekst, a każde wywołanie może skoncentrować się na jednej, wyraźnie zdefiniowanej sekcji. Szersze ujęcie procesu pokrywamy w SEO copywritingu 2026.

Architektura łańcucha promptów – 10 kroków

Typowy łańcuch promptów dla pillar posta 8000 słów:

  1. Prompt research: zbieramy aktualne dane, dane rynkowe, cytaty ekspertów – Perplexity lub Claude z dostępem do internetu.
  2. Prompt outline: na podstawie researchu generujemy strukturę 10-14 H2, każdy z konkretną listą pytań do odpowiedzi.
  3. Prompt intro + W skrócie: pierwsze 300-400 słów wraz z listą „W skrócie” – ustala ton i ramy całego artykułu.
  4. Prompty sekcji 1-4: każda sekcja osobno, 500-800 słów, z wymaganiami co do liczb, list, tabel.
  5. Prompty sekcji 5-10: jak powyżej, dla drugiej połowy artykułu.
  6. Prompt tabeli porównawczej: oddzielne wywołanie dla tabeli – łatwiej kontrolować format i dane.
  7. Prompt „najczęstsze błędy”: sekcja z 8-12 punktami w formie listy wypunktowanej.
  8. Prompt FAQ: 6-8 pytań + odpowiedzi 60-120 słów każda, w formacie details/summary.
  9. Prompt „Co dalej”: 2-3 prozatorskie zdania podsumowujące, z wpleceniem 1-2 linków.
  10. Prompt meta: wariant title i description, z zachowaniem limitów znaków.

Każdy prompt wykonywany osobno, wyniki są agregowane przez skrypt Python lub ręcznie przez redaktora. Całość zajmuje 90-150 minut dla modeli Claude Sonnet lub GPT-4o. Kluczowe: każdy prompt dostaje kontekst z poprzednich (tytuł, outline, styl), żeby zachować spójność.

Szablon 1 – prompt briefu autora

Jesteś senior content strategistą z 12 latami doświadczenia w niszy [BRANŻA]. Pracujesz nad pillar postem dla [NAZWA FIRMY], agencji/firmy zajmującej się [KRÓTKI OPIS FIRMY].

Twoim zadaniem jest stworzenie briefa dla artykułu na temat: [TEMAT]. Brief ma zawierać:

1. Focus keyword (1-4 słowa) i 5-8 semantycznie powiązanych fraz.

2. Intencja wyszukiwania (informacyjna / komercyjna / transakcyjna / nawigacyjna) i uzasadnienie w 2 zdaniach.

3. Grupa docelowa – konkretne stanowisko i poziom doświadczenia (np. „marketing manager w B2B SaaS, 2-5 lat doświadczenia”).

4. Kluczowe 8-12 pytań, na które artykuł powinien odpowiedzieć – każde konkretne, nie ogólnikowe.

5. 3-5 tematów, które konkurencja pokrywa, a na których warto się odróżnić.

6. 3 konkretne przykłady (firmy, liczby, case’y) do włączenia – weryfikowalne, z 2024-2026.

Styl wyjścia: lista numerowana w języku polskim, bez anglicyzmów typu „workflow”, „insights”. Długość całego briefa 400-600 słów.

Szablon 2 – prompt do outline’u

Na podstawie załączonego briefa, zaprojektuj szczegółową strukturę artykułu o długości 8000 słów. Struktura ma być zoptymalizowana pod SEO (ranking Google) oraz AIO (cytowanie przez LLM-y jak ChatGPT, Perplexity, Gemini).

Wymagania strukturalne:

– H1 (tytuł, nie pisz jeszcze – to pole zostaje puste)

– Intro 3-4 zdania, ustalające tezę

– Blok „W skrócie” – 5 bulletów z konkretnymi liczbami/faktami

– 10-14 sekcji H2, każda z jednoznacznym pytaniem jako tytuł lub odpowiedź jako tytuł

– W co najmniej 6 sekcjach H2 podsekcje H3 (2-4 per H2)

– Co najmniej 2 tabele porównawcze w całym artykule

– 1 numerowana lista kroków (6-14 pozycji)

– 1 sekcja „Najczęstsze błędy” z 8-12 punktami

– Sekcja FAQ z 6-8 pytaniami

– Sekcja „Co dalej” jako 2-3 prozatorskie zdania

Dla każdej H2 podaj: tytuł (jedno pytanie lub odpowiedź), główne 3-5 punktów do omówienia, 1-2 konkretne liczby/dane do przytoczenia, sugerowana długość (w słowach).

Wyjście jako markdown z hierarchią.

Szablon 3 – prompt do pojedynczej sekcji H2

Napisz sekcję H2 artykułu „[TYTUŁ ARTYKUŁU]”.

Temat sekcji: „[NAZWA H2]”

Cel sekcji: odpowiedzieć na pytanie „[KONKRETNE PYTANIE]” w sposób ekspert-do-eksperta.

Wymagania:

– Długość 500-800 słów (realnie, nie liczba znaków)

– Pierwsza zdanie = odpowiedź na pytanie, reszta rozwija

– Akapity 2-4 zdania max

– Co najmniej 1 konkretna liczba lub dana (z pliku researchu, nie wymyślone)

– Co najmniej 1 realne wykorzystanie praktyczne lub przykład firmowy

– Jeśli pasuje: tabela, lista wypunktowana lub numerowana

– Ton polski, bez anglicyzmów typu workflow, pipeline, insights

– Focus keyword „[KEYWORD]” pojawia się 1-2 razy naturalnie

– Jeden link wewnętrzny do „[URL WEWNĘTRZNY]” z anchor tekstem dopasowanym do prozy

NIE WYMYŚLAJ liczb – jeśli brak danych, użyj hedge’a („szacunkowo”, „w naszych projektach”) lub przeskocz.

Zwróć tylko treść sekcji, bez nagłówka H2 (który jest już zdefiniowany).

Szablon 4 – prompt do tabeli porównawczej

Zaprojektuj tabelę porównawczą dla artykułu „[TYTUŁ]”, sekcja „[H2 SEKCJA]”.

Cel: porównać [ELEMENTY DO PORÓWNANIA].

Wymagania:

– 4-8 kolumn (pierwsza = nazwa porównywanego elementu)

– 5-10 wierszy danych

– Każda kolumna ma jednoznaczną interpretację

– Dane konkretne i weryfikowalne – jeśli nie ma, napisz „brak danych” zamiast wymyślać

– Nagłówki kolumn po polsku, zwięzłe (max 3-4 słowa)

– Po tabeli dodaj 1-2 zdania podsumowania z kluczowym wnioskiem

Format: HTML z tagami <table>, <thead>, <tbody>, <tr>, <th>, <td>.

Szablon 5 – prompt do FAQ

Napisz sekcję FAQ dla artykułu „[TYTUŁ]” z 6-8 pytaniami.

Pytania powinny być:

– Takie, jakie realnie pyta Google (sprawdź People Also Ask jeśli dostępne)

– Pokrywać różne kategorie: definicja, porównanie, praktyczne wdrożenie, koszt/czas, pułapka, zaawansowany przypadek

– Formułowane naturalnie, bez marketingu

Każda odpowiedź:

– 60-120 słów

– Zaczyna się od bezpośredniej odpowiedzi, rozwija szczegóły

– Co najmniej 1 konkretna liczba lub dana

– Unika ogólników „to zależy” – podaje parametry, od których zależy

Format: HTML z details/summary:

<details><summary><strong>Pytanie?</strong></summary><p>Odpowiedź.</p></details>

Porównanie modeli AI dla długich artykułów SEO w 2026

Model Jakość długich tekstów Halucynacje Koszt (8k słów) Czas generacji
Claude Sonnet 4.7 9/10 niskie (2-4%) 5-8 USD 90-120 s
Claude Opus 4.5 9,5/10 najniższe (1-2%) 15-25 USD 150-210 s
GPT-4o 8/10 średnie (4-7%) 4-7 USD 60-90 s
GPT-4.5 8,5/10 niskie (3-5%) 9-14 USD 80-120 s
Gemini 2.5 Pro 7,5/10 średnie (5-9%) 3-6 USD 70-100 s
Claude Sonnet 3.5 7/10 średnie (6-10%) 2-4 USD 60-90 s
Llama 3.3 70B 6/10 wyższe (10-15%) 1-3 USD 120-180 s

Rekomendacja dla produkcji SEO: Claude Sonnet 4.7 jako default (najlepszy stosunek jakości do kosztu), Claude Opus 4.5 dla pillarów w niszach YMYL lub dla klientów wymagających najwyższej jakości, GPT-4o dla syntezy długich researchów.

Parametry prompt-a – temperature, top_p, max_tokens

Parametry modelu wpływają na jakość równie mocno jak sam tekst promptu. Dla SEO contentu używamy:

  • Temperature 0.4-0.6: niższe wartości (0.2) dają zbyt „suchą” prozę, wyższe (0.8+) zwiększają halucynacje. 0.5 to bezpieczny punkt startowy.
  • Top_p 0.9: domyślna wartość u większości modeli, nie zmieniamy bez dobrego powodu.
  • Max_tokens 4096-8192: dla pojedynczej sekcji H2 to wystarczy, dla pełnego pillara łańcuch promptów przekracza limit 1 wywołania.
  • System prompt: zawsze obecny, definiuje rolę („jesteś redaktorem SEO z doświadczeniem w niszy X”) i ograniczenia („piszesz po polsku, bez anglicyzmów”).
  • Seed (opcjonalnie): dla reprodukowalności wyników w testach A/B. W produkcji nie ustawiamy.

Jak kalibrować prompt na przykładach (few-shot)

Few-shot prompting (pokazanie 2-3 przykładów oczekiwanego output-u) podnosi jakość o 20-40% w porównaniu z zero-shot. Przykłady powinny pochodzić z własnych, dobrze napisanych artykułów – nie z blogów konkurencji.

Przykład implementacji: w systemowym prompcie dodajemy „Oto dwa przykłady poprawnie napisanych sekcji H2 z naszego stylu:” i załączamy 500-800 słów sekcji, które uznaliśmy za wzorcowe. Model adaptuje ton, strukturę akapitów, sposób wprowadzania liczb.

Koszt few-shot: około 1000-2000 tokenów więcej w każdym wywołaniu, czyli 30-60% wyższe rachunki za API. W praktyce: oszczędność czasu redakcji (mniej edycji) kompensuje koszt 3-5x. Skrypt z kalibracją stosujemy dla klientów z silnym brand voice, dla generycznych kont można pominąć.

Proces kalibracji promptu pod konkretnego klienta

  1. Zbierz 5-10 najlepszych artykułów z archiwum klienta (te, które dobrze rankują i mają dobry engagement).
  2. Zidentyfikuj wspólne cechy: długość akapitów, typ przykładów, ton, specyficzne słownictwo.
  3. Napisz system prompt z tymi cechami („piszesz w stylu [opis], akapity 2-4 zdania, przykłady z branży B2B SaaS, ton ekspert-to-ekspert”).
  4. Wybierz 2 najbardziej typowe artykuły jako few-shot examples, dołącz do system promptu.
  5. Wygeneruj 3 testowe sekcje i porównaj z oryginalnym stylem klienta.
  6. Jeśli rozjazd jest duży, dopracuj opis w system prompt (bardziej konkretny).
  7. Po 3 iteracjach zwykle prompt jest gotowy – każdy kolejny tekst potrzebuje tylko podstawienia tematu i briefa.

Czas kalibracji: 4-8 godzin per klient. Zysk: od 10 artykułu wzwyż – każdy tekst wymaga 30-50% mniej czasu edytora. Przy 50+ artykułach miesięcznie per klient inwestycja zwraca się w 3 tygodnie. Metodykę pokazujemy rozszerzoną w artykule o frameworku edycji AI copywritingu.

Najczęstsze błędy w projektowaniu promptów SEO

  • Brak konkretnej długości docelowej – „napisz długi artykuł” daje 2000-3000 słów zamiast 8000. Zawsze explicit „500-800 słów per sekcja” lub „800 słów minimum”.
  • Niejasna rola modelu – bez „jesteś senior SEO…” model pisze neutralnie, bez ekspertckiego tonu.
  • Ogólny brief zamiast konkretnego – „napisz o AIO” vs „napisz sekcję H2 odpowiadającą na pytanie 'jak zmierzyć cytowania w LLM’ z 2 konkretnymi metrykami”.
  • Brak zakazów – bez „nie używaj słów: workflow, insights, pipeline” model wstawi je w każdym akapicie.
  • Jeden prompt na cały artykuł – jak opisaliśmy, daje gorsze wyniki niż łańcuch.
  • Brak few-shot przy dbaniu o styl – z samego opisu stylu model „trafia” w 40-60% przypadków, z przykładami – w 75-90%.
  • Niewerwersjonowanie promptów – po 2 miesiącach nikt nie pamięta, co zmieniono w promcie i dlaczego.
  • Ignorowanie systemowego promptu – wszystko ladujesz w user message, model traci kontekst ról.
  • Brak testów regresji – nowa wersja promptu działa dla jednego tematu, ale psuje 3 inne. Bez testów na zestawie 5-10 standardowych tematów nie wykryjesz.
  • Ufanie liczbom od modelu – LLM wymyśla 3-8% liczb, nawet gdy prompt mówi „nie wymyślaj”. Factcheck obowiązkowy.

Biblioteka promptów dla agencji – struktura

W agencji z 10+ klientami biblioteka promptów powinna być scentralizowana, z jasnym rozdzieleniem: szablony uniwersalne (działają dla każdego klienta) i szablony klienckie (skalibrowane pod konkretny brand voice).

Nasza struktura w Notion: (1) folder „Universal Prompts” – 30-40 szablonów (brief, outline, H2 section, FAQ, tabela, meta, naglówki), (2) folder per klient – 5-15 promptów skalibrowanych (z few-shot examples, specyficznymi zakazami, typowymi typami CTA), (3) folder „Deprecated” – stare wersje, archived z powodem.

Aktualizacja biblioteki: co miesiąc zespół robi review, dodaje nowe szablony z doświadczeń, oznacza przestarzałe. Po 6 miesiącach biblioteka liczy 120-200 promptów i onboarding nowej osoby do pracy z AI skraca się z 4 tygodni do 1 tygodnia.

Jak włączyć dane klienta do promptu

Generyczny prompt daje generyczny tekst. Włączenie danych klienta (liczb, case’ów, specyficznych produktów) to kluczowa zmienna jakości. Trzy podejścia:

Podejście 1 – ręczny research przed promptem: redaktor zbiera 3-5 konkretnych liczb/przykładów w briefie, dołącza do promptu. Najbardziej kontrolowane, ale czasochłonne (20-40 min per artykuł).

Podejście 2 – RAG (Retrieval-Augmented Generation): baza wiedzy klienta (artykuły, case studies, liczby) w pgvector lub Pinecone, model ma dostęp przy generowaniu. Wymaga technicznej infrastruktury, ale skaluje się dobrze.

Podejście 3 – model agentic: model sam szuka danych (Perplexity + własne narzędzia), dobiera te najbardziej relewantne. Eksperymentalne w 2026, daje dobre rezultaty dla 60-70% przypadków, ale wymaga strict factchecku.

W naszej agencji Podejście 1 dla pillarów (krytyczne, redaktor kontroluje), Podejście 2 dla supporting (skalowalne), Podejście 3 dla newsów i krótkich formatów (szybkość ponad kontrolę).

Przykłady i liczby z produkcji

Projekt 1 – agencja obsługująca klientów B2B SaaS, 8 miesięcy z biblioteką promptów: 180 artykułów miesięcznie produkcji (vs. 40 wcześniej), średnia długość 4800 słów (vs. 2800), halucynacje usunięte na etapie edycji: 3,2% stwierdzeń (vs. 12% bez biblioteki promptów). Koszt AI: 620 USD/mies. Oszczędność czasu zespołu: 340 godzin miesięcznie.

Projekt 2 – in-house B2C fashion e-commerce, 4 miesiące: 24 pillary i 52 supporting wygenerowane. Średnia pozycja po 90 dniach: TOP 10 dla 68% fraz docelowych (vs. 41% przed bibliotekami promptów). Wzrost ruchu organicznego: +52% w 5 miesięcy, najszybszy progress w historii kanału.

Projekt 3 – freelancer content marketer, 2 miesiące korzystania: z 4 artykułów/mies. do 12, bez straty jakości. Główny bottleneck przed biblioteką był pisaniem draftu – po wdrożeniu promptów bottleneck przesunął się na research i edycję. Keyword research 2026 opisujemy jako oddzielny krok poprzedzający generowanie.

FAQ – prompty do długich artykułów SEO

Jak zacząć budować własną bibliotekę promptów?

Wybierz jeden typ artykułu, który piszesz najczęściej (np. supporting post 3500 słów). Zbuduj dla niego łańcuch 6-8 promptów: brief, outline, intro, 2-3 sekcje przykładowe, FAQ, meta. Przetestuj na 5 artykułach, zoptymalizuj każdy prompt (skracaj zakazy, które nie działają, dodawaj te, które zmniejszają halucynacje). Po 5-10 artykułach biblioteka dla tego typu jest stabilna. Potem rozszerzaj na inne typy. Inwestycja na start: 20-40 godzin, zwrot po 20-30 artykułach.

Czy można używać tego samego promptu dla różnych nisz?

Struktura promptu (szkielet) tak, ale dane wejściowe muszą być niszowe. Prompt „napisz H2 o [temat]” jest uniwersalny – zmienna „temat” wypełnia się specyfiką branży. Tym, co różni wyniki jest brief (przykłady, liczby, ton) i few-shot examples (z archiwum klienta z tej niszy). Uniwersalny prompt + niszowe wejście = adaptacyjna biblioteka.

Ile kosztuje produkcja 1 artykułu z biblioteką promptów?

Per pillar 8000 słów: 5-12 USD AI + 8-14 godzin zespołu. Per supporting 4000 słów: 2-5 USD AI + 4-6 godzin zespołu. Dla agencji z 10 klientami i 150 artykułami miesięcznie: 350-700 USD AI + 600-900 godzin zespołu miesięcznie. Cena klientowi: 900-4500 zł per artykuł w zależności od długości. Marża 50-70% osiągalna z dobrą biblioteką i szybkim procesem.

Czy AI może całkowicie zastąpić redaktora?

Nie w 2026. LLM halucynuje 3-10% liczb, nie wyczuwa niuansów tonu klienta bez kalibracji, nie zna kontekstu strategicznego. Redaktor robi: factcheck (obowiązkowy), dopasowanie tonu (subtelne), dodawanie unikalnych insightów z wiedzy firmy, decyzje edytorskie. Bez redaktora jakość spada o 40-60%, co widać po 3-4 miesiącach w metrykach rankingów i engagement.

Jak walczyć z powtarzalnością tekstów generowanych przez AI?

Cztery taktyki: (1) różnorodność modeli – Claude dla jednego typu, GPT dla innego, różne stylistycznie, (2) różne temperatura dla różnych sekcji (intro 0.6 bo kreatywne, FAQ 0.3 bo faktyczne), (3) few-shot z kilkoma różnymi stylami w różnych dniach, (4) ręczna warstwa redakcyjna, która celowo „rozbija” typowe wzorce AI (zdania jednolite w długości, zbyt częste „warto zauważyć”). Kombinacja daje teksty nierozpoznawalne jako AI.

Jakie typy artykułów najlepiej nadają się do AI, a jakie najgorzej?

Najlepiej: porównania narzędzi (strukturalne tabele), przewodniki how-to (sekwencje kroków), glossary entries (definicje), long-form pillary z syntezą wielu źródeł. Najgorzej: aktualne newsy (AI nie ma świeżych danych bez Perplexity), wysoko kreatywne formy (opinie, felietony), case studies własne firmy (AI nie zna szczegółów). Dla „najgorszych” form AI służy jako asystent strukturalny, nie jako autor.

Jak zapewnić spójność tonu w 50 artykułach generowanych dla jednego klienta?

Style guide w system prompt (2-3 strony opisu brand voice) + few-shot examples (3-5 wzorcowych akapitów z archiwum klienta) + weekly review przez senior redaktora, który wyłapuje drift tonu. Po 10-15 artykułach zespół kalibruje sam system prompt i przestaje być potrzebny. W projekcie dla klienta z silnym brand voice zamieszczamy checklist 8-10 punktów („czy używa charakterystycznego zwrotu X”, „czy unika słowa Y”) – edytor przechodzi po każdym artykule.

Czy można wykorzystać lokalne modele LLM zamiast API do promptów SEO?

Tak, ale z ograniczeniami. Llama 3.3 70B i Mistral Large dostępne self-hosted (koszt infrastruktury: 2000-8000 zł/mies. dla GPU servera) dają jakość 60-75% Claude Sonnet. Sensowne dla agencji z wrażliwością na prywatność danych klientów lub dla dużych wolumenów (>500 artykułów/mies. – wtedy self-hosted tańsze niż API). Dla mniejszych produkcji API zostaje bardziej ekonomiczne.

Metryki jakości promptu – jak mierzyć i optymalizować

Nie można optymalizować, czego się nie mierzy. Dla każdego promptu w bibliotece śledzimy 5 metryk, które pokazują, czy prompt działa dobrze, czy wymaga rewizji.

  • Word count dopasowanie: stosunek wygenerowanej długości do docelowej. Cel: 95-105%. Gdy prompt daje 70% target – model jest przeciążony, rozbij na mniejsze.
  • Halucynacje per 1000 słów: liczba zmyślonych stwierdzeń po factchecku. Cel: poniżej 3. Powyżej 6 – prompt wymaga dodania „nie wymyślaj liczb”.
  • Powtórzenia per sekcja: liczba akapitów, które powtarzają już napisane stwierdzenia. Cel: 0-1 per sekcja H2. Powyżej 2 – prompt za ogólny, dodaj konkretne wymagania.
  • Czas edytora: minuty potrzebne na doszlifowanie sekcji do publikacji. Cel: 20-40 minut per sekcja H2. Powyżej 60 – prompt nie dopilnowuje struktury, wymaga more constraint.
  • Acceptance rate: % generacji zaakceptowanych bez drastycznych przeróbek. Cel: 75-90%. Poniżej 60% – prompt jest dysfunkcyjny, przerób gruntownie.

W produkcji agencyjnej dodajemy skrypt Python, który co tydzień liczy te metryki dla każdego promptu i tworzy raport. Prompty poniżej progu trafiają do review – typowo 2-5 promptów miesięcznie wymaga poprawek.

Prompty dla nowych formatów – AI Overviews i cytowania LLM

W 2026 roku AI Overviews Google i cytowania w ChatGPT/Perplexity wymagają innego stylu pisania niż klasyczny SEO. Artykuły, które chcą być cytowane, potrzebują: gęstszego bloku „W skrócie” (5-8 bulletów zamiast 3-5), dłuższych FAQ (8-12 pytań zamiast 5-8), wyraźnych tabel z faktami (LLM uwielbia tabelę), numerowanych list z explicitnymi nagłówkami kroków.

Dedykowany prompt AIO do nadpisywania: „Napisz sekcję H2, która ma być cytowana w odpowiedziach ChatGPT na pytanie '[pytanie]’. Struktura: pierwsze zdanie jest pełną odpowiedzią na pytanie w 15-25 słów, reszta sekcji to rozwinięcie z 3-5 konkretnymi faktami, liczbami lub przykładami. Każdy fakt w osobnym krótkim akapicie (1-2 zdania), żeby LLM mógł wyciągnąć go osobno. Unikaj tranzycji typu 'warto zauważyć’, 'co istotne’.”

W projekcie testowym zmiana promptów na wariant AIO podniosła wskaźnik cytowania w ChatGPT z 11% do 34% w teście 400 zapytań. Koszt: ten sam co standardowe prompty, tylko inaczej skonstruowane.

Zaawansowane techniki – chain-of-thought i tool use

W 2026 roku LLM-y obsługują zaawansowane wzorce promptowania, które warto rozważyć dla najtrudniejszych zadań SEO.

Chain-of-thought (CoT): prompt zachęca model do „myślenia na głos” przed odpowiedzią. Format: „Przeanalizuj pytanie krok po kroku: (1) co użytkownik pyta, (2) jakie dane potrzebne, (3) struktura odpowiedzi. Następnie napisz odpowiedź.” Daje o 15-25% lepszą jakość przy złożonych tematach, ale wydłuża output o 30-50% (trzeba obcinać w edycji).

Tool use / function calling: model ma dostęp do narzędzi (Perplexity search, Python code execution, własne API). Prompt deleguje konkretne zadania do narzędzi: „Jeśli potrzebujesz aktualnych liczb, użyj narzędzia search. Jeśli potrzebujesz kalkulacji, użyj code_execute.” Eksperymentalne, ale daje 2-3x wyższą wiarygodność liczb.

Multi-agent setups: kilka modeli współpracuje – jeden researcher, drugi pisarz, trzeci redaktor. Framework jak LangGraph lub CrewAI pozwala na to, ale setup wymaga 40-80 godzin pracy. Sensowne dla produkcji enterprise z wolumenem 500+ artykułów miesięcznie.

Typowe strategie naprawy słabego output-u

  1. Gdy tekst jest za krótki: explicit liczby słów w prompcie („dokładnie 700 słów, nie mniej niż 600”) + temperature 0.5.
  2. Gdy tekst jest za ogólny: dodaj wymaganie „co najmniej 2 konkretne liczby z 2024-2026 roku” + załącz 3-5 przykładów w prompcie.
  3. Gdy ton jest za marketingowy: explicit zakaz słów „innowacyjny”, „przełomowy”, „kompleksowy” + few-shot z 2 przykładami tonu ekspert-do-eksperta.
  4. Gdy brakuje struktury: numerowane wymagania w prompcie („1. pierwszy akapit – teza, 2. drugi akapit – mechanizm, 3. trzeci akapit – przykład”).
  5. Gdy za dużo powtórzeń: explicit „nie powtarzaj już napisanych stwierdzeń” + zmiejszenie temperature do 0.3.
  6. Gdy źle przetłumaczone na polski: system prompt po polsku + zakaz anglicyzmów (lista 20+ słów) + przykłady polskich ekwiwalentów.
  7. Gdy halucynacje rosną: „nie podawaj liczb, jeśli nie masz źródła” + załącz w prompcie tabelę z weryfikowalnymi danymi, których model może używać.

Co dalej

Zbuduj pierwszą wersję biblioteki promptów dla jednego typu artykułu (np. supporting 3500 słów) i przetestuj na 5 tekstach. Gdy proces działa, rozszerz o pillary i kalibrację per klient. Kontekst szerszej strategii copywritingu w SEO copywritingu 2026, a o właściwym researchu fraz w keyword research 2026.

Kategorie SEO