Кешаванне прамптаў, ўсведамляючы пра провайдэра

Superdav AI Agent v1.12.0 прадстаўляе кешаванне прамптаў, ўсведамляючы пра провайдэра, што аптымізуе выдаткі на API і латэнцыю, кешаванне прамптаў паміж рознымі провайдэрамі LLM. Кожны провайдэра мае свае спецыфічныя механізмы і канфігурацыі кешавання.

Агляд

Кешаванне прамптаў дазваляе вам:

Кешаваць вялікія, часта выкарыстоўваныя прампты
Зніжаць выдаткі на API, адмовіўшыся ад паўторнай праробкі
Палепшыць латэнцыю для кешаваных запытаў
Яўна кіраваць жыцдарным цыклам кеша

Розныя провайдэра ўпрэўмяваюць кешаванне па-розныму:

Google Gemini: API cachedContents
Azure OpenAI: Кешаванне прамптаў з TTL
OpenRouter: Кешаванне, спецыфічнае для провайдэра
Vertex Anthropic: Кешаванне прамптаў з кантролем кеша

Google Gemini: API cachedContents

Google Gemini прадугледжвае яўнае кіраванне кешам праз API cachedContents.

Канфігурацыя

$config = [
    'provider' => 'google-gemini',
    'model' => 'gemini-2.0-flash',
    'caching' => [
        'enabled' => true,
        'ttl' => 3600, // 1 hour in seconds
        'max_tokens' => 1000000, // Max tokens to cache
    ],
];

Стваৰэнне кешаванага прампта

use Superdav\AI\Providers\GoogleGemini;

$gemini = new GoogleGemini( $config );

$cached_content = $gemini->create_cached_content(
    [
        'system_prompt' => 'You are a helpful assistant...',
        'context' => 'Large context document...',
        'ttl' => 3600,
    ]
);

// Returns: ['cache_id' => 'abc123', 'expires_at' => timestamp]

Выкарыстанне кешаванага прампта

$response = $gemini->generate(
    [
        'cache_id' => 'abc123',
        'prompt' => 'User question here',
    ]
);

Жыцдар кеша

// List cached contents
$caches = $gemini->list_cached_contents();

// Get cache details
$cache = $gemini->get_cached_content( 'abc123' );

// Extend cache TTL
$gemini->update_cached_content(
    'abc123',
    ['ttl' => 7200] // Extend to 2 hours
);

// Delete cache
$gemini->delete_cached_content( 'abc123' );

Найлепшыя практыкі для Gemini

Устаноўце адпаведны TTL: Збалансаванне эканоміі коштаў і старасці кеша
Кешаваць сістэмныя прампты: Павторыстое выкарыстанне аднога і таго сістэмнага прампта ў розных запытах
Маніторыць выкарыстанне кеша: Адказваць, якія кешы выкарыстоўваюцца найбольш
Пачысці прасрочаныя кешы: Перадыважо адказваць невыкарыстоўваныя кешы

Azure OpenAI: Кешаванне прамптаў

Azure OpenAI падтрымлівае кешаванне прамптаў з аўтаматычным кіраваннем TTL.

Канфігурацыя

$config = [
    'provider' => 'azure-openai',
    'model' => 'gpt-4-turbo',
    'api_version' => '2024-08-01-preview',
    'caching' => [
        'enabled' => true,
        'cache_control' => 'max_age=3600',
    ],
];

Аактывацыя кешавання

use Superdav\AI\Providers\AzureOpenAI;

$azure = new AzureOpenAI( $config );

$response = $azure->generate(
    [
        'system_prompt' => 'You are a helpful assistant...',
        'context' => 'Large context document...',
        'prompt' => 'User question here',
        'cache_control' => 'max_age=3600',
    ]
);

// Response includes cache usage:
// [
//     'content' => '...',
//     'cache_creation_input_tokens' => 1000,
//     'cache_read_input_tokens' => 500,
// ]

Загоłвы кеша

Azure OpenAI выкарыстоўвае HTTP-загоłвы для кантролю кеша:

Cache-Control: max_age=3600

Падтрымліваныя значэнні:

max_age=<seconds>: Кешаванне на ўказаны перыяд
no_cache: Не кешаваць гэты запыт
no_store: Не кешаваць і не перавыкарыстоўваць

Маніторынг выкарыстання кеша

$response = $azure->generate( [...] );

$cache_tokens = $response['cache_creation_input_tokens'] ?? 0;
$cache_hits = $response['cache_read_input_tokens'] ?? 0;

echo "Cache creation: $cache_tokens tokens\n";
echo "Cache hits: $cache_hits tokens\n";

Найлепшыя практыкі для Azure OpenAI

Выкарыстоўвайце адсочныя прампты: Ідэнтычныя прампты выгадоўваюць кешаваннем
Устаноўце рацыянальны TTL: Збалансаванне кошту і свежасці
Маніторыць метрыкі кеша: Адказваць стварэнне кеша адносна паспехаў
Парачкаваць падобныя запыты: Групваць запыты, каб максімізаваць паспехі кеша

OpenRouter: Кешаванне, спецыфічнае для провайдэра

OpenRouter падтрымлівае кешаванне праз падлёжачых провайдэраў (OpenAI, Anthropic і г.д.).

Канфігурацыя

$config = [
    'provider' => 'openrouter',
    'model' => 'openai/gpt-4-turbo',
    'caching' => [
        'enabled' => true,
        'provider_cache' => 'openai', // Use OpenAI's caching
    ],
];

Выкарыстанне кешавання OpenRouter

use Superdav\AI\Providers\OpenRouter;

$router = new OpenRouter( $config );

$response = $router->generate(
    [
        'system_prompt' => 'You are a helpful assistant...',
        'context' => 'Large context document...',
        'prompt' => 'User question here',
        'cache_control' => 'max_age=3600',
    ]
);

Варыянты, спецыфічныя для провайдэра

Розныя провайдэры маюць розныя механізмы кешавання:

// OpenAI-compatible caching
$response = $router->generate(
    [
        'model' => 'openai/gpt-4-turbo',
        'cache_control' => 'max_age=3600',
    ]
);

// Anthropic-compatible caching
$response = $router->generate(
    [
        'model' => 'anthropic/claude-3-opus',
        'cache_control' => [
            'type' => 'ephemeral',
            'max_tokens' => 1000000,
        ],
    ]
);

Найлепшыя практыкі для OpenRouter

Знайце кешаванне вашага провайдэра: Кожны провайдэра мае адрозныя механізмы
Пратэставуйце паводзіны кешавання: Праверце, што кешаванне працуе з выбраным провайдэрамі
Маніторыце выдаткі: Адказваць эканомію ад кешавання
Выкарыстоўвайце адсочныя мадэлі: Змяненне мадэляў pháраўвае паспехі кеша

Vertex Anthropic: Кешаванне прамптаў з кантролем кеша

Vertex Anthropic (Google Cloud) падтрымлівае кешаванне прамптаў з яўнага кантролю кеша.

Канфігурацыя

$config = [
    'provider' => 'vertex-anthropic',
    'model' => 'claude-3-opus',
    'project_id' => 'your-gcp-project',
    'region' => 'us-central1',
    'caching' => [
        'enabled' => true,
        'cache_control' => [
            'type' => 'ephemeral',
            'max_tokens' => 1000000,
        ],
    ],
];

Выкарыстанне кешавання Vertex Anthropic

use Superdav\AI\Providers\VertexAnthropic;

$vertex = new VertexAnthropic( $config );

$response = $vertex->generate(
    [
        'system_prompt' => 'You are a helpful assistant...',
        'context' => 'Large context document...',
        'prompt' => 'User question here',
        'cache_control' => [
            'type' => 'ephemeral',
            'max_tokens' => 1000000,
        ],
    ]
);

// Response includes cache metrics:
// [
//     'content' => '...',
//     'usage' => [
//         'input_tokens' => 1000,
//         'cache_creation_input_tokens' => 500,
//         'cache_read_input_tokens' => 300,
//     ],
// ]

Тыпы кантролю кеша

ephemeral: Кешаванне на працягу запыту (па ўстаянні)
persistent: Кешаванне паміж некалькімі запытамі (калі падтрымліваецца)

Маніторынг выкарыстання кеша

$response = $vertex->generate( [...] );

$usage = $response['usage'];
$cache_created = $usage['cache_creation_input_tokens'] ?? 0;
$cache_read = $usage['cache_read_input_tokens'] ?? 0;

echo "Cache created: $cache_created tokens\n";
echo "Cache read: $cache_read tokens\n";

Найлепшыя практыкі для Vertex Anthropic

Выкарыстоўвайце ephemeral кешаванне: Добра для кешавання ў адным сесіі
Устаноўце max_tokens адпадна): Збалансаванне памеру кеша і кошту
Маніторыць метрыкі кеша: Адказваць эфектыўнасць кешавання
Патэставуйце на сваім нараладзе: Праверце, ці кешаванне выгадоўвае вашыму выкарыстанню

Стратэгія кешавання паміж провайдэрамі

Адраматыўная канфігурацыя

$config = [
    'caching' => [
        'enabled' => true,
        'default_ttl' => 3600,
        'providers' => [
            'google-gemini' => [
                'ttl' => 3600,
                'max_tokens' => 1000000,
            ],
            'azure-openai' => [
                'cache_control' => 'max_age=3600',
            ],
            'vertex-anthropic' => [
                'cache_control' => [
                    'type' => 'ephemeral',
                    'max_tokens' => 1000000,
                ],
            ],
        ],
    ],
];

Выяўленне провайдэра

$provider = $config['provider'];

$cache_config = $config['caching']['providers'][ $provider ]
    ?? $config['caching'];

// Use provider-specific caching configuration

Стратэгія рэзервацыі

try {
    // Try caching with primary provider
    $response = $primary_provider->generate( $request );
} catch ( CacheException $e ) {
    // Fall back to non-cached request
    $response = $primary_provider->generate(
        array_merge( $request, ['cache_control' => 'no_cache'] )
    );
}

Аптымізацыя коштаў

Вылічэнне эканоміі

$cache_created_tokens = $response['cache_creation_input_tokens'] ?? 0;
$cache_read_tokens = $response['cache_read_input_tokens'] ?? 0;
$regular_tokens = $response['input_tokens'] ?? 0;

// Typical pricing (varies by provider):
$cache_creation_cost = $cache_created_tokens * 0.00001; // 10x cheaper
$cache_read_cost = $cache_read_tokens * 0.000001; // 100x cheaper
$regular_cost = $regular_tokens * 0.00001;

$total_cost = $cache_creation_cost + $cache_read_cost + $regular_cost;
$savings = ($regular_tokens * 0.00001) - $total_cost;

echo "Estimated savings: \$$savings\n";

Парады па аптымізацыі

Кешаваць вялікія сістэмныя прампты: Найбольш вялікія эканоміі коштаў
Павторыстое выкарыстанне кантэксту: Кешаванне часта выкарыстоўваных кантэкставых дакументаў
Парачкаванне запытаў: Групванне падобных запытаў, каб максімізаваць паспехі кеша
Маніторынг эфектыўнасці кеша: Адказванне сапраўдных эканоміў
Выпраўленне TTL: Балансаванне кошту і свежасці

Выяўленне і выпраўленне памылак

Кеш не выкарыстоўваецца

Праверце, што кешаванне актывавана ў канфігурацыі
Праверце, што прампты ідэнтычныя (кешаванне патрабуе точнага спалучэння)
Праверце, што кеш не прасрочыўся
Праверце спецыфічныя для провайдэра ліміты кеша

Памылка стварэння кеша

Праверце, што памер кеша ў рамках лімітаў провайдэра
Праверце, што składняванне cache control правільна
Убедзіцеся, што провайдэра падтрымлівае кешаванне для вашай мадэлі
Пагледзьце дакументацыю провайдэра на магчымасці

Нечакаваныя выдаткі

Маніторыце стварэнне кеша адносна прачытання кеша
Праверце, што кеш сапраўды выкарыстоўваецца
Пагледзьце на промагілі кеша з-за варыяцый прамптаў
Пагледжаць на магчымасць выпраўлення TTL або стратэгіі кеша

Параўнанне провайдэраў

Feature	Gemini	Azure OpenAI	OpenRouter	Vertex Anthropic
Cache API	cached

Агляд​

Google Gemini: API cachedContents​

Канфігурацыя​

Стваৰэнне кешаванага прампта​

Выкарыстанне кешаванага прампта​

Жыцдар кеша​

Найлепшыя практыкі для Gemini​

Azure OpenAI: Кешаванне прамптаў​

Канфігурацыя​

Аактывацыя кешавання​

Загоłвы кеша​

Маніторынг выкарыстання кеша​

Найлепшыя практыкі для Azure OpenAI​

OpenRouter: Кешаванне, спецыфічнае для провайдэра​

Канфігурацыя​

Выкарыстанне кешавання OpenRouter​

Варыянты, спецыфічныя для провайдэра​

Найлепшыя практыкі для OpenRouter​

Vertex Anthropic: Кешаванне прамптаў з кантролем кеша​

Канфігурацыя​

Выкарыстанне кешавання Vertex Anthropic​

Тыпы кантролю кеша​

Маніторынг выкарыстання кеша​

Найлепшыя практыкі для Vertex Anthropic​

Стратэгія кешавання паміж провайдэрамі​

Адраматыўная канфігурацыя​

Выяўленне провайдэра​

Стратэгія рэзервацыі​

Аптымізацыя коштаў​

Вылічэнне эканоміі​

Парады па аптымізацыі​

Выяўленне і выпраўленне памылак​

Кеш не выкарыстоўваецца​

Памылка стварэння кеша​

Нечакаваныя выдаткі​

Параўнанне провайдэраў​

Агляд

Google Gemini: API cachedContents

Канфігурацыя

Стваৰэнне кешаванага прампта

Выкарыстанне кешаванага прампта

Жыцдар кеша

Найлепшыя практыкі для Gemini

Azure OpenAI: Кешаванне прамптаў

Канфігурацыя

Аактывацыя кешавання

Загоłвы кеша

Маніторынг выкарыстання кеша

Найлепшыя практыкі для Azure OpenAI

OpenRouter: Кешаванне, спецыфічнае для провайдэра

Канфігурацыя

Выкарыстанне кешавання OpenRouter

Варыянты, спецыфічныя для провайдэра

Найлепшыя практыкі для OpenRouter

Vertex Anthropic: Кешаванне прамптаў з кантролем кеша

Канфігурацыя

Выкарыстанне кешавання Vertex Anthropic

Тыпы кантролю кеша

Маніторынг выкарыстання кеша

Найлепшыя практыкі для Vertex Anthropic

Стратэгія кешавання паміж провайдэрамі

Адраматыўная канфігурацыя

Выяўленне провайдэра

Стратэгія рэзервацыі

Аптымізацыя коштаў

Вылічэнне эканоміі

Парады па аптымізацыі

Выяўленне і выпраўленне памылак

Кеш не выкарыстоўваецца

Памылка стварэння кеша

Нечакаваныя выдаткі

Параўнанне провайдэраў