В отличие от веб-интерфейса, где вся токенизация происходит на BPE 100k, написанном на C++ (wasm-tokenizer), в API токены считает провайдер LLM (например, OpenAI для GPT, Anthropic для Claude и т.д.).
Если вы хотите предварительно посчитать токены перед отправкой, вам необходимо использовать библиотеки для подсчета, такие как tiktoken и другие, в зависимости от модели, которую вы будете использовать.
При отправке запроса в наш API в ответ вы получите полный отчет об использовании токенов.
Например, при отправке запроса в Assistant API в ответе будет объект usage, где можно увидеть, сколько токенов было потрачено и на какие цели: