Skip to main content

Keširanje prompta s obzirom na provajdera

Superdav AI Agent v1.12.0 uvodi keširanje prompta s obzirom na provajdera (provider-aware prompt caching), što optimizira troškove API-ja i latenciju keširanjem promptova preko različitih LLM provajdera. Svaki provajder ima različite mehanizme i konfiguracije keširanja.

Pregled

Keširanje promptova omogućava vam da:

  • Keširate velike, često korištene promptove
  • Smanjite troškove API-ja izbjegavanjem ponavljajućeg obrađivanja
  • Poboljšate latenciju za keširane zahtjeve
  • Eksplicitno upravljate životnim ciklusom keša

Različiti provajderi implementiraju keširanje na različite načine:

  • Google Gemini: cachedContents API
  • Azure OpenAI: Keširanje prompta s TTL (Time To Live)
  • OpenRouter: Keširanje specifično za provajdera
  • Vertex Anthropic: Keširanje prompta s kontrolom keša

Google Gemini: cachedContents API

Google Gemini pruža eksplicitno upravljanje kešom putem cachedContents API-ja.

Konfiguracija

$config = [
'provider' => 'google-gemini',
'model' => 'gemini-2.0-flash',
'caching' => [
'enabled' => true,
'ttl' => 3600, // 1 sat u sekundama
'max_tokens' => 1000000, // Maksimalni tokeni za keširanje
],
];

Kreiranje keširanog prompta

use Superdav\AI\Providers\GoogleGemini;

$gemini = new GoogleGemini( $config );

$cached_content = $gemini->create_cached_content(
[
'system_prompt' => 'You are a helpful assistant...',
'context' => 'Large context document...',
'ttl' => 3600,
]
);

// Vraća: ['cache_id' => 'abc123', 'expires_at' => timestamp]

Korištenje keširanog prompta

$response = $gemini->generate(
[
'cache_id' => 'abc123',
'prompt' => 'User question here',
]
);

Životni ciklus keša

// Lista keširanog sadržaja
$caches = $gemini->list_cached_contents();

// Dohvati detalje keša
$cache = $gemini->get_cached_content( 'abc123' );

// Produžiti TTL keša
$gemini->update_cached_content(
'abc123',
['ttl' => 7200] // Produži na 2 sata
);

// Izbrisati keš
$gemini->delete_cached_content( 'abc123' );

Najbolje prakse za Gemini

  • Postavite odgovarajući TTL: Balansirajte uštedu troškova naspram zastarjevanja keša
  • Keširajte sistemske promptove: Ponovno koristite isti sistemski prompt za zahteve
  • Pratite korištenje keša: Pratite koji keševi se najviše koriste
  • Čistite istekle kešove: Periodično brišite neiskorištene kešove

Azure OpenAI: Keširanje prompta

Azure OpenAI podržava keširanje promptova s automatskim upravljanjem TTL-om.

Konfiguracija

$config = [
'provider' => 'azure-openai',
'model' => 'gpt-4-turbo',
'api_version' => '2024-08-01-preview',
'caching' => [
'enabled' => true,
'cache_control' => 'max_age=3600',
],
];

Omogućavanje keširanja

use Superdav\AI\Providers\AzureOpenAI;

$azure = new AzureOpenAI( $config );

$response = $azure->generate(
[
'system_prompt' => 'You are a helpful assistant...',
'context' => 'Large context document...',
'prompt' => 'User question here',
'cache_control' => 'max_age=3600',
]
);

// Odgovor uključuje korištenje keša:
// [
// 'content' => '...',
// 'cache_creation_input_tokens' => 1000,
// 'cache_read_input_tokens' => 500,
// ]

Zaglavlja keša (Cache Headers)

Azure OpenAI koristi HTTP zaglavlja za kontrolu keša:

Cache-Control: max_age=3600

Podržane vrijednosti:

  • max_age=<sekunde>: Keširaj za navedeni period
  • no_cache: Ne keširaj ovaj zahtjev
  • no_store: Ne keširaj i ne ponovno koristi

Praćenje korištenja keša

$response = $azure->generate( [...] );

$cache_tokens = $response['cache_creation_input_tokens'] ?? 0;
$cache_hits = $response['cache_read_input_tokens'] ?? 0;

echo "Kreiranje keša: $cache_tokens tokena\n";
echo "Pogađanje keša: $cache_hits tokena\n";

Najbolje prakse za Azure OpenAI

  • Koristite dosljedne promptove: Identični promptovi profitiraju od keširanja
  • Postavite razuman TTL: Balansirajte trošak naspram svježine
  • Pratite metrike keša: Pratite kreiranje naspram pogađanja keša
  • Batchujte slične zahteve: Grupirajte zahteve kako biste maksimizirali pogađanje keša

OpenRouter: Keširanje specifično za provajdera

OpenRouter podržava keširanje putem osnovnih provajdera (OpenAI, Anthropic, itd.).

Konfiguracija

$config = [
'provider' => 'openrouter',
'model' => 'openai/gpt-4-turbo',
'caching' => [
'enabled' => true,
'provider_cache' => 'openai', // Koristi keširanje OpenAI-ja
],
];

Korištenje OpenRouter keširanja

use Superdav\AI\Providers\OpenRouter;

$router = new OpenRouter( $config );

$response = $router->generate(
[
'system_prompt' => 'You are a helpful assistant...',
'context' => 'Large context document...',
'prompt' => 'User question here',
'cache_control' => 'max_age=3600',
]
);

Opcije specifične za provajdera

Različiti provajderi imaju različite mehanizme keširanja:

// Keširanje kompatibilno sa OpenAI-jem
$response = $router->generate(
[
'model' => 'openai/gpt-4-turbo',
'cache_control' => 'max_age=3600',
]
);

// Keširanje kompatibilno sa Anthropic-om
$response = $router->generate(
[
'model' => 'anthropic/claude-3-opus',
'cache_control' => [
'type' => 'ephemeral',
'max_tokens' => 1000000,
],
]
);

Najbolje prakse za OpenRouter

  • Poznajte keširanje provajdera: Svaki provajder ima različite mehanizme
  • Testirajte ponašanje keširanja: Provjerite da li keširanje radi s vašim odabranim provajderom
  • Pratite troškove: Pratite uštede iz keširanja
  • Koristite dosljedne modele: Promjena modela prekida pogađanje keša

Vertex Anthropic: Keširanje prompta s kontrolom keša

Vertex Anthropic (Google Cloud) podržava keširanje promptova s eksplicitnom kontrolom keša.

Konfiguracija

$config = [
'provider' => 'vertex-anthropic',
'model' => 'claude-3-opus',
'project_id' => 'your-gcp-project',
'region' => 'us-central1',
'caching' => [
'enabled' => true,
'cache_control' => [
'type' => 'ephemeral',
'max_tokens' => 1000000,
],
],
];

Korištenje Vertex Anthropic keširanja

use Superdav\AI\Providers\VertexAnthropic;

$vertex = new VertexAnthropic( $config );

$response = $vertex->generate(
[
'system_prompt' => 'You are a helpful assistant...',
'context' => 'Large context document...',
'prompt' => 'User question here',
'cache_control' => [
'type' => 'ephemeral',
'max_tokens' => 1000000,
],
]
);

// Odgovor uključuje metrike keša:
// [
// 'content' => '...',
// 'usage' => [
// 'input_tokens' => 1000,
// 'cache_creation_input_tokens' => 500,
// 'cache_read_input_tokens' => 300,
// ],
// ]

Vrste kontrole keša

  • ephemeral: Keširanje za trajanje zahtjeva (podrazumevano)
  • persistent: Keširanje preko više zahtjeva (ako je podržano)

Praćenje korištenja keša

$response = $vertex->generate( [...] );

$usage = $response['usage'];
$cache_created = $usage['cache_creation_input_tokens'] ?? 0;
$cache_read = $usage['cache_read_input_tokens'] ?? 0;

echo "Kreirano keš: $cache_created tokena\n";
echo "Pročitano keš: $cache_read tokena\n";

Najbolje prakse za Vertex Anthropic

  • Koristite efemerno keširanje: Dobro za keširanje unutar jedne sesije
  • Postavite max_tokens odgovarajuće: Balansirajte veličinu keša naspram troška
  • Pratite metrike keša: Pratite učinkovitost keša
  • Testirajte s vašim radnim opterećenjem: Provjerite da li keširanje koristi vašem slučaju korištenja

Međuprovajderska strategija keširanja

Unificirana konfiguracija

$config = [
'caching' => [
'enabled' => true,
'default_ttl' => 3600,
'providers' => [
'google-gemini' => [
'ttl' => 3600,
'max_tokens' => 1000000,
],
'azure-openai' => [
'cache_control' => 'max_age=3600',
],
'vertex-anthropic' => [
'cache_control' => [
'type' => 'ephemeral',
'max_tokens' => 1000000,
],
],
],
],
];

Detekcija provajdera

$provider = $config['provider'];

$cache_config = $config['caching']['providers'][ $provider ]
?? $config['caching'];

// Koristi se konfiguracija keširanja specifična za provajdera

Strategija fallback-a

try {
// Pokušaj keširanja s primarnim provajderom
$response = $primary_provider->generate( $request );
} catch ( CacheException $e ) {
// Fallback na zahtjev bez keširanja
$response = $primary_provider->generate(
array_merge( $request, ['cache_control' => 'no_cache'] )
);
}

Optimizacija troškova

Izračun uštede

$cache_created_tokens = $response['cache_creation_input_tokens'] ?? 0;
$cache_read_tokens = $response['cache_read_input_tokens'] ?? 0;
$regular_tokens = $response['input_tokens'] ?? 0;

// Tipična cijena (varira po provajderu):
$cache_creation_cost = $cache_created_tokens * 0.00001; // 10x je jeftinije
$cache_read_cost = $cache_read_tokens * 0.000001; // 100x je jeftinije
$regular_cost = $regular_tokens * 0.00001;

$total_cost = $cache_creation_cost + $cache_read_cost + $regular_cost;
$savings = ($regular_tokens * 0.00001) - $total_cost;

echo "Procjena uštede: \$$savings\n";

Savjeti za optimizaciju

  • Keširajte velike sistemske promptove: Najveća ušteda troškova
  • Ponovno koristite kontekst: Keširajte često korištene dokumente konteksta
  • Batchujte zahteve: Grupirajte slične zahteve kako biste maksimizirali pogađanje keša
  • Pratite učinkovitost keša: Pratite stvarne uštede
  • Podesite TTL: Balansirajte trošak naspram svježine

Rješavanje problema

Keš se ne koristi

  • Provjerite je li keširanje omogućeno u konfiguraciji
  • Provjerite da li su promptovi identični (keširanje zahtijeva točno podudaranje)
  • Provjerite da li keš nije istekao
  • Provjerite specifične limite keša provajdera

Neuspješno kreiranje keša

  • Provjerite da li je veličina keša unutar limita provajdera
  • Provjerite da li je sintaksa kontrole keša ispravna
  • Osigurajte da provajder podržava keširanje za vaš model
  • Pregledajte dokumentaciju provajdera o ograničenjima

Neočekivani troškovi

  • Pratite kreiranje keša naspram čitanja keša
  • Provjerite da li se keš zaista koristi
  • Provjerite da li do keš-propusta dolazi zbog varijacija prompta
  • Razmislite o podešavanju TTL-a ili strategije keširanja

Poređenje provajdera

FeatureGeminiAzure OpenAIOpenRouterVertex Anthropic
Cache APIcachedContentsHTTP headersProvider-specificCache control
TTL controlEksplicitnoPreko zaglavljaZavisno od provajderaEphemeral/persistent
Max cache size1M tokenaZavisno od provajderaZavisno od provajdera1M tokena
Cost reduction90%90%Zavisno od provajdera90%
MonitoringDetaljnoPreko metrikaZavisno od provajderaPreko korištenja

Sljedeći koraci

  1. Izaberite provajdera: Odaberite na temelju vaših potreba
  2. Konfigurišite keširanje: Postavite keširanje specifično za provajdera
  3. Testirajte keširanje: Provjerite da li radi s vašim promptovima
  4. Pratite korištenje: