Основы
Сам по себе адаптер не добавляет никаких новых функций, он просто позволяет использовать модели Yandex Cloud через OpenAI SDK.
Поддерживаемые модели
Генерация текста
Адаптер преобразует ответы от Yandex Cloud в ответы OpenAI для обычной генерации, стримингового режима, с tools.
Вы можете использовать короткие названия моделей в параметре model, например:
yandexgpt/rcyandexgpt-lite/latestllama/latestllama-lite/latest
Также можно использовать полные uri, например:
gpt://{FOLDER_ID}/yandexgpt/rcds://{FOLDER_ID}/{MODEL_NAME}/latestds://{MODEL_ID}(старый формат)
Также вы можете указывать модели OpenAI (например, gpt-4o). Подробнее в разделе Маппинг моделей.
Deprecated режим работы с инструментами function calling и сообщения assistant с результатом работы инструменто в не поддерживается адаптером. Вместо этого используйте tool_calls и сообщения с ролью tool.
Embeddings
Адаптер может принимать несколько документов (текстов) за 1 синхронный запрос. Но в YC FOMO нет батчевой синхронной обработки эмбеддингов. Поэтому внутри себя адаптер он будет стараться обработать батч как можно быстрее в соответствии с вашей квотой.
Вы можете использовать короткие названия моделей в параметре model, например:
text-search-doc/latesttext-search-query/latest
Также можно использовать полные uri, например:
emb://{FOLDER_ID}/text-search-doc/latest
Также вы можете указывать модели OpenAI (например, text-embedding-3-small). Подробнее в разделе Маппинг моделей.
Расширенный функционал
Для работы с Foundational Models, в купе с данным адаптером, рекомендуется использовать liteLLM proxy. Это позволит настроить:
- ограничени на количество параллельных генераций со своей стороны
- огромное количество настроек для командной работы
- огромное количество настроек для аутентификации
- огромное количество настроек для бюджетов
- огромное количество настроек для логирования, метрик, алертов
- огромное количество настроек вообще