podstawy ai slownik

Token

Jednostka tekstu w LLM. Polski generuje ich więcej niż angielski.

Szybka odpowiedź

Token to najmniejsza porcja tekstu, jaką model językowy widzi i przetwarza. W polskim języku jeden token to średnio 2-3 znaki — czyli to hasło ma teraz około 700 tokenów.

Co to znaczy

Modele językowe nie czytają tekstu jak ludzie. Najpierw tną go na tokeny — fragmenty słów, znaki interpunkcyjne, czasem całe słowa krótkie. „Marketing" to dwa tokeny („market" + „ing"). „A" to jeden. „Antydyskryminacyjny" to siedem. Polski generuje więcej tokenów niż angielski na tej samej treści — to wina końcówek fleksyjnych i diakrytyków.

Liczy się to z dwóch powodów:

- Płacisz za każdy token, który wejdzie i wyjdzie z modelu. ChatGPT Plus, Claude Pro, Gemini Advanced ukrywają to za miesięczną opłatą, ale w API widać każdy ułamek centa.

  • Każdy model ma limit tokenów na rozmowę (context window). Po przekroczeniu — model „zapomina" początek. Claude Sonnet 4.6 ma 200 000 tokenów, GPT-4o około 128 000, Gemini 2.5 Pro do 2 milionów.

Dlaczego to ważne

Bo gdy Twój prompt + załączony dokument + odpowiedź modelu razem przekroczą context window, model wytnie sobie najstarszą część rozmowy. Brief klienta wklejony rano znika, gdy po południu zadasz dziesiąte pytanie. Stąd ta dziwna chwila, gdy ChatGPT „zapomina, o czym mówiliśmy".

Przykład po polsku

Wklejasz 30-stronicowy raport branżowy (~25 000 tokenów). Robisz 5 follow-upów. Po szóstym model już nie pamięta, co było na stronie 1.

Czym to nie jest

- Słowem — jedno słowo to 1-5 tokenów

  • Znakiem — jeden token to 2-6 znaków
  • Zdaniem — jedno zdanie to 15-40 tokenów

Jak rozpoznać

Mówi o „dużym kontekście", „dłuższych promptach", „obsłudze grubych dokumentów" — to są ekonomicznie tokeny. Pytajcie ile, w jakim modelu i za ile.

Powiązane pojęcia

Tagi