Keširanje prompta s obzirom na provajdera
Superdav AI Agent v1.12.0 uvodi keširanje prompta s obzirom na provajdera (provider-aware prompt caching), što optimizira troškove API-ja i latenciju keširanjem promptova preko različitih LLM provajdera. Svaki provajder ima različite mehanizme i konfiguracije keširanja.
Pregled
Keširanje promptova omogućava vam da:
- Keširate velike, često korištene promptove
- Smanjite troškove API-ja izbjegavanjem ponavljajućeg obrađivanja
- Poboljšate latenciju za keširane zahtjeve
- Eksplicitno upravljate životnim ciklusom keša
Različiti provajderi implementiraju keširanje na različite načine:
- Google Gemini:
cachedContentsAPI - Azure OpenAI: Keširanje prompta s TTL (Time To Live)
- OpenRouter: Keširanje specifično za provajdera
- Vertex Anthropic: Keširanje prompta s kontrolom keša
Google Gemini: cachedContents API
Google Gemini pruža eksplicitno upravljanje kešom putem cachedContents API-ja.
Konfiguracija
$config = [
'provider' => 'google-gemini',
'model' => 'gemini-2.0-flash',
'caching' => [
'enabled' => true,
'ttl' => 3600, // 1 sat u sekundama
'max_tokens' => 1000000, // Maksimalni tokeni za keširanje
],
];
Kreiranje keširanog prompta
use Superdav\AI\Providers\GoogleGemini;
$gemini = new GoogleGemini( $config );
$cached_content = $gemini->create_cached_content(
[
'system_prompt' => 'You are a helpful assistant...',
'context' => 'Large context document...',
'ttl' => 3600,
]
);
// Vraća: ['cache_id' => 'abc123', 'expires_at' => timestamp]
Korištenje keširanog prompta
$response = $gemini->generate(
[
'cache_id' => 'abc123',
'prompt' => 'User question here',
]
);
Životni ciklus keša
// Lista keširanog sadržaja
$caches = $gemini->list_cached_contents();
// Dohvati detalje keša
$cache = $gemini->get_cached_content( 'abc123' );
// Produžiti TTL keša
$gemini->update_cached_content(
'abc123',
['ttl' => 7200] // Produži na 2 sata
);
// Izbrisati keš
$gemini->delete_cached_content( 'abc123' );
Najbolje prakse za Gemini
- Postavite odgovarajući TTL: Balansirajte uštedu troškova naspram zastarjevanja keša
- Keširajte sistemske promptove: Ponovno koristite isti sistemski prompt za zahteve
- Pratite korištenje keša: Pratite koji keševi se najviše koriste
- Čistite istekle kešove: Periodično brišite neiskorištene kešove
Azure OpenAI: Keširanje prompta
Azure OpenAI podržava keširanje promptova s automatskim upravljanjem TTL-om.
Konfiguracija
$config = [
'provider' => 'azure-openai',
'model' => 'gpt-4-turbo',
'api_version' => '2024-08-01-preview',
'caching' => [
'enabled' => true,
'cache_control' => 'max_age=3600',
],
];
Omogućavanje keširanja
use Superdav\AI\Providers\AzureOpenAI;
$azure = new AzureOpenAI( $config );
$response = $azure->generate(
[
'system_prompt' => 'You are a helpful assistant...',
'context' => 'Large context document...',
'prompt' => 'User question here',
'cache_control' => 'max_age=3600',
]
);
// Odgovor uključuje korištenje keša:
// [
// 'content' => '...',
// 'cache_creation_input_tokens' => 1000,
// 'cache_read_input_tokens' => 500,
// ]
Zaglavlja keša (Cache Headers)
Azure OpenAI koristi HTTP zaglavlja za kontrolu keša:
Cache-Control: max_age=3600
Podržane vrijednosti:
max_age=<sekunde>: Keširaj za navedeni periodno_cache: Ne keširaj ovaj zahtjevno_store: Ne keširaj i ne ponovno koristi
Praćenje korištenja keša
$response = $azure->generate( [...] );
$cache_tokens = $response['cache_creation_input_tokens'] ?? 0;
$cache_hits = $response['cache_read_input_tokens'] ?? 0;
echo "Kreiranje keša: $cache_tokens tokena\n";
echo "Pogađanje keša: $cache_hits tokena\n";
Najbolje prakse za Azure OpenAI
- Koristite dosljedne promptove: Identični promptovi profitiraju od keširanja
- Postavite razuman TTL: Balansirajte trošak naspram svježine
- Pratite metrike keša: Pratite kreiranje naspram pogađanja keša
- Batchujte slične zahteve: Grupirajte zahteve kako biste maksimizirali pogađanje keša
OpenRouter: Keširanje specifično za provajdera
OpenRouter podržava keširanje putem osnovnih provajdera (OpenAI, Anthropic, itd.).
Konfiguracija
$config = [
'provider' => 'openrouter',
'model' => 'openai/gpt-4-turbo',
'caching' => [
'enabled' => true,
'provider_cache' => 'openai', // Koristi keširanje OpenAI-ja
],
];
Korištenje OpenRouter keširanja
use Superdav\AI\Providers\OpenRouter;
$router = new OpenRouter( $config );
$response = $router->generate(
[
'system_prompt' => 'You are a helpful assistant...',
'context' => 'Large context document...',
'prompt' => 'User question here',
'cache_control' => 'max_age=3600',
]
);
Opcije specifične za provajdera
Različiti provajderi imaju različite mehanizme keširanja:
// Keširanje kompatibilno sa OpenAI-jem
$response = $router->generate(
[
'model' => 'openai/gpt-4-turbo',
'cache_control' => 'max_age=3600',
]
);
// Keširanje kompatibilno sa Anthropic-om
$response = $router->generate(
[
'model' => 'anthropic/claude-3-opus',
'cache_control' => [
'type' => 'ephemeral',
'max_tokens' => 1000000,
],
]
);
Najbolje prakse za OpenRouter
- Poznajte keširanje provajdera: Svaki provajder ima različite mehanizme
- Testirajte ponašanje keširanja: Provjerite da li keširanje radi s vašim odabranim provajderom
- Pratite troškove: Pratite uštede iz keširanja
- Koristite dosljedne modele: Promjena modela prekida pogađanje keša
Vertex Anthropic: Keširanje prompta s kontrolom keša
Vertex Anthropic (Google Cloud) podržava keširanje promptova s eksplicitnom kontrolom keša.
Konfiguracija
$config = [
'provider' => 'vertex-anthropic',
'model' => 'claude-3-opus',
'project_id' => 'your-gcp-project',
'region' => 'us-central1',
'caching' => [
'enabled' => true,
'cache_control' => [
'type' => 'ephemeral',
'max_tokens' => 1000000,
],
],
];
Korištenje Vertex Anthropic keširanja
use Superdav\AI\Providers\VertexAnthropic;
$vertex = new VertexAnthropic( $config );
$response = $vertex->generate(
[
'system_prompt' => 'You are a helpful assistant...',
'context' => 'Large context document...',
'prompt' => 'User question here',
'cache_control' => [
'type' => 'ephemeral',
'max_tokens' => 1000000,
],
]
);
// Odgovor uključuje metrike keša:
// [
// 'content' => '...',
// 'usage' => [
// 'input_tokens' => 1000,
// 'cache_creation_input_tokens' => 500,
// 'cache_read_input_tokens' => 300,
// ],
// ]
Vrste kontrole keša
- ephemeral: Keširanje za trajanje zahtjeva (podrazumevano)
- persistent: Keširanje preko više zahtjeva (ako je podržano)
Praćenje korištenja keša
$response = $vertex->generate( [...] );
$usage = $response['usage'];
$cache_created = $usage['cache_creation_input_tokens'] ?? 0;
$cache_read = $usage['cache_read_input_tokens'] ?? 0;
echo "Kreirano keš: $cache_created tokena\n";
echo "Pročitano keš: $cache_read tokena\n";
Najbolje prakse za Vertex Anthropic
- Koristite efemerno keširanje: Dobro za keširanje unutar jedne sesije
- Postavite max_tokens odgovarajuće: Balansirajte veličinu keša naspram troška
- Pratite metrike keša: Pratite učinkovitost keša
- Testirajte s vašim radnim opterećenjem: Provjerite da li keširanje koristi vašem slučaju korištenja
Međuprovajderska strategija keširanja
Unificirana konfiguracija
$config = [
'caching' => [
'enabled' => true,
'default_ttl' => 3600,
'providers' => [
'google-gemini' => [
'ttl' => 3600,
'max_tokens' => 1000000,
],
'azure-openai' => [
'cache_control' => 'max_age=3600',
],
'vertex-anthropic' => [
'cache_control' => [
'type' => 'ephemeral',
'max_tokens' => 1000000,
],
],
],
],
];
Detekcija provajdera
$provider = $config['provider'];
$cache_config = $config['caching']['providers'][ $provider ]
?? $config['caching'];
// Koristi se konfiguracija keširanja specifična za provajdera
Strategija fallback-a
try {
// Pokušaj keširanja s primarnim provajderom
$response = $primary_provider->generate( $request );
} catch ( CacheException $e ) {
// Fallback na zahtjev bez keširanja
$response = $primary_provider->generate(
array_merge( $request, ['cache_control' => 'no_cache'] )
);
}
Optimizacija troškova
Izračun uštede
$cache_created_tokens = $response['cache_creation_input_tokens'] ?? 0;
$cache_read_tokens = $response['cache_read_input_tokens'] ?? 0;
$regular_tokens = $response['input_tokens'] ?? 0;
// Tipična cijena (varira po provajderu):
$cache_creation_cost = $cache_created_tokens * 0.00001; // 10x je jeftinije
$cache_read_cost = $cache_read_tokens * 0.000001; // 100x je jeftinije
$regular_cost = $regular_tokens * 0.00001;
$total_cost = $cache_creation_cost + $cache_read_cost + $regular_cost;
$savings = ($regular_tokens * 0.00001) - $total_cost;
echo "Procjena uštede: \$$savings\n";
Savjeti za optimizaciju
- Keširajte velike sistemske promptove: Najveća ušteda troškova
- Ponovno koristite kontekst: Keširajte često korištene dokumente konteksta
- Batchujte zahteve: Grupirajte slične zahteve kako biste maksimizirali pogađanje keša
- Pratite učinkovitost keša: Pratite stvarne uštede
- Podesite TTL: Balansirajte trošak naspram svježine
Rješavanje problema
Keš se ne koristi
- Provjerite je li keširanje omogućeno u konfiguraciji
- Provjerite da li su promptovi identični (keširanje zahtijeva točno podudaranje)
- Provjerite da li keš nije istekao
- Provjerite specifične limite keša provajdera
Neuspješno kreiranje keša
- Provjerite da li je veličina keša unutar limita provajdera
- Provjerite da li je sintaksa kontrole keša ispravna
- Osigurajte da provajder podržava keširanje za vaš model
- Pregledajte dokumentaciju provajdera o ograničenjima
Neočekivani troškovi
- Pratite kreiranje keša naspram čitanja keša
- Provjerite da li se keš zaista koristi
- Provjerite da li do keš-propusta dolazi zbog varijacija prompta
- Razmislite o podešavanju TTL-a ili strategije keširanja
Poređenje provajdera
| Feature | Gemini | Azure OpenAI | OpenRouter | Vertex Anthropic |
|---|---|---|---|---|
| Cache API | cachedContents | HTTP headers | Provider-specific | Cache control |
| TTL control | Eksplicitno | Preko zaglavlja | Zavisno od provajdera | Ephemeral/persistent |
| Max cache size | 1M tokena | Zavisno od provajdera | Zavisno od provajdera | 1M tokena |
| Cost reduction | 90% | 90% | Zavisno od provajdera | 90% |
| Monitoring | Detaljno | Preko metrika | Zavisno od provajdera | Preko korištenja |
Sljedeći koraci
- Izaberite provajdera: Odaberite na temelju vaših potreba
- Konfigurišite keširanje: Postavite keširanje specifično za provajdera
- Testirajte keširanje: Provjerite da li radi s vašim promptovima
- Pratite korištenje: