Запрос к API сервиса
<< Click to Display Table of Contents >> Интеллектуальные возможности > Генеративный ИИ > Сервис Directum LLM Service Запрос к API сервиса |
![]() ![]() ![]() |
Для работы с моделью генеративного ИИ используется универсальный запрос к API сервиса Directum LLM Service. В зависимости от текста для обработки, передаваемого в запросе, можно получить разный результат, например текст письма или приказа.
Если при установке сервиса в конфигурационном файле config.yml в параметре API_KEY задан токен, его нужно передавать в каждом запросе. Если токен не задан, при отправке запроса не используется авторизация.
Примечание. В разделе под текстом для обработки понимается пользовательский запрос к модели генеративного ИИ, на основании которого она формирует ответ.
Синтаксис
POST {{service_url}}/v1/chat/completions
{
"messages": [
{
"role": "system",
"content": "Текст системного запроса"
},
{
"role": "user",
"content": "Текст пользовательского запроса"
}
],
"model": "Наименование модели",
"max_tokens": Максимальное количество токенов в запросе,
"temperature": Креативность ответа,
"stream": false
}
Параметры
•messages – секция с текстом для обработки, передаваемый модели генеративного ИИ. Содержит параметры:
•role – роль, от которой передаются тексты для обработки. Возможные значения:
user – роль пользователя. Текст от нее передается всегда.
system – системная роль. Текст от нее передавать необязательно. Используется дополнительно, например если нужно создать несколько запросов с одинаковыми правилами формирования ответа от модели, но для разных ситуаций. При этом, если какие-то условия в текстах отличаются, модель формирует ответ с условием из текста от системной роли;
•content – текст для обработки. В зависимости от значения параметра role отличаются рекомендации к значению параметра content.
Текст от роли пользователя указывается в повелительном наклонении, а также в него, например, можно добавить:
•текст, который пользователь вводит в запросе на формирование содержимого в документе;
•текст документа, на основании которого нужно сформировать ответ или аннотацию;
•вид документа, на основании которого нужно сформировать ответ или аннотацию. Используется для более точного формирования текста.
Текст от системной роли указывается в повелительном наклонении, а также в нем рекомендуется:
•описывать правила, которым нужно следовать при формировании ответа. Например, писать на русском языке, проверять орфографию или соблюдать определенную структуру;
•указывать роль, от которой нужно формировать текст, например от роли делопроизводителя или менеджера продаж. Это позволяет формировать ответы корректнее.
За подробными рекомендациями к текстам для обработки обратитесь к компании‑вендору сервиса Directum LLM Service;
•model – наименование используемой модели генеративного ИИ. Укажите значение Qwen/Qwen2-7B-Instruct;
•max_tokens – максимальный размер ответа от модели в токенах;
•temperature – креативность ответа от модели. Значение параметра указывается в интервале от 0 до 2. Например, при значении 0,1 модель формирует наиболее вероятные и точные ответы, а при значении 2 – креативные и разнообразные;
•stream – признак, что токены ответа по мере их формирования передаются в отдельных сообщениях. Возможные значения: true и false. Значение по умолчанию false – после формирования всех токенов ответа он передается одним сообщением.
Пример запроса
https://gpt.ario.directum360.ru/v1/chat/completions
{
"messages": [
{
"role": "system",
"content": "Ты — опытный менеджер по взаимодействию с клиентами. Ты соблюдаешь грамматику русского языка, составляешь вежливые письма. Твои письма серьёзные и официальные, текст исключительно серьёзный."
},
{
"role": "user",
"content": "Клиент написал жалобу на задержку доставки его последнего заказа, который должен был прибыть на прошлой неделе. Напиши вежливый и официальный ответ, в котором нужно извиниться за неудобства, объяснить причины задержки и предложить возможные варианты компенсации"
}],
"model": "Qwen/Qwen2-7B-Instruct",
"max_tokens": 512,
"temperature": 0.4,
"stream": false
}
Ответ
{
"id": "chat-d7e8448b7a744b528cd25b2c690839fd",
"object": "chat.completion",
"created": 1732024450,
"model": "Qwen/Qwen2-7B-Instruct",
"choices": [...],
"usage": {...},
"prompt_logprobs": null
}
Содержит ответ на запрос и информацию о нем:
•id – идентификатор запроса;
•object – тип запроса. Всегда принимает значение chat.completion;
•created – дата и время формирования ответа на запрос в системе Unix-время;
•model – наименование модели генеративного ИИ. Принимает значение, указанное в запросе;
•choices – секция с ответом от модели;
•usage – секция с информацией о тексте для обработки и тексте ответа модели;
•prompt_logprobs – системный параметр. Всегда принимает значение null;
"choices": [ Содержит основную информацию об ответе от модели: •index – индекс ответа от модели. Всегда принимает значение 0; •message – секция с ответом модели на запрос; •logprobs – системный параметр. Всегда принимает значение null; •finish_reason – причина, по которой модель прекратила формировать ответ. Возможные значения: stop – модель завершила формировать ответ. length – в ответе достигнуто максимальное количество токенов, указанное в запросе. content_filter – ответ не прошел проверку системой фильтрации сервиса. •stop_reason – текст ошибки, из-за которой модель прекратила формировать ответ. Если ошибок нет, принимает значение null. |
"message": { Содержит ответ модели на запрос: •role – роль, от которой формируется ответ от модели. Всегда принимает значение assistant; •content – текст ответа; •tool_calls – системный параметр. Всегда принимает пустое значение. |
"usage": { Содержит информацию о контексте запроса и ответа: •prompt_tokens – количество токенов; •total_tokens – суммарное количество токенов в тексте для обработки и ответе от модели; •completion_tokens – количество токенов в ответе на запрос. |
© Компания Directum, 2025 |