<< Click to Display Table of Contents >> Интеллектуальные возможности > Сервисы Directum Ario > Администрирование сервисов Ario (Windows) > Конфигурирование настроек Ario Directum Text Classifier Service |
Сервис Directum Text Classifier Service настраивается в конфигурационном файле config.ini.
Структура файла:
[DEFAULT]
debug = {Записывать в лог-файл отладочные сообщения}
area = {Используемый раздел конфигурационного файла}
max_models_in_pool = {Максимальное количество моделей классификации в пуле}
model_cache_lifetime = {Время хранения модели классификации в пуле}
csv_text_field = {Название поля с текстом для обучения данными в формате CSV}
csv_class_field = {Название поля с классами для обучения данными в формате CSV многоклассового классификатора}
csv_classes_field = {Название поля с классами для обучения данными в формате CSV многозначного классификатора}
csv_external_id_field = {Название поля с внешним идентификатором класса для обучения данными в формате CSV многоклассового классификатора}
allow_local_path = {Разрешить обучение из локальной папки}
repository = {Тип репозитория для хранения моделей классификации}
port = {TCP-порт сервиса}
can_train_models = {Разрешить использовать сервис как сервис обучения классификаторов}
max_text_extraction_requests = {Количество документов для одновременного извлечения текста при обучении классификатора}
#[DB]
dbname = {Имя базы данных PostgreSQL}
dbuser = {Имя пользователя для подключения к СУБД PostgreSQL}
dbhost = {Адрес СУБД PostgreSQL}
dbpass = {"Пароль для подключения к СУБД PostgreSQL"}
dbport = {Порт для подключения к СУБД PostgreSQL}
#[RABBITMQ]
queue_connection = {Строка подключения к RabbitMQ}
message_ttl_seconds = {Время хранения сообщений об обработке в RabbitMQ в секундах}
prefetch_count = {Максимальное количество одновременно обрабатываемых запросов}
#[LOGGING]
period = {Периодичность создания новых лог-файлов}
suffix = {Формат названия лог-файлов}
filename = {Имя лог-файла}
path = {Путь до папки с лог-файлами}
#[APM]
server_url = {Адрес сервиса Elastic APM Service}
metrics_interval = {Интервал сбора метрик в секундах}
span_frames_min_duration = {Время, в течение которого в лог файл записывается подробная информация об ошибке обработки документа. Указывается в миллисекундах}
DEFAULT – основные настройки сервиса:
•debug. Записывать в лог-файл отладочные сообщения. Возможные значения: True, False. Значение по умолчанию True;
•area. Используемый в данный момент раздел конфигурационного файла. Используется для быстрого переключения между настройками окружения. Если параметр не задан в указанном разделе, используется значение параметра из раздела DEFAULT. Пример значения: DEVELOP;
•max_models_in_pool. Максимальное количество моделей классификации, хранящихся в невыгружаемом пуле. Если модель классификации находится в пуле, обращение к ней выполняется быстрее, таким образом ускоряется классификация текстов. Укажите целое число больше нуля. Значение по умолчанию 15;
•model_cache_lifetime. Время хранения модели классификации в пуле в минутах. Модели, к которым не обращались в течение этого промежутка времени, выгружаются из пула. Укажите целое число больше нуля. Значение по умолчанию 60;
•csv_text_field, csv_class_field, csv_classes_field, csv_external_id_field. Названия полей в CSV-файле для обучения классификаторов через набор данных в формате CSV. Параметры являются внутренними, изменять не рекомендуется;
•allow_local_path. Разрешить обучение классификаторов из локальной папки сервера. Возможные значения: True, False. Если установлено значение False, повышается безопасность работы. Значение по умолчанию True;
•repository. Тип репозитория, используемого для хранения моделей классификации. Параметр является внутренним, изменять не рекомендуется;
•port. TCP-порт сервиса. Значение по умолчанию 9007;
•can_train_models. Разрешить использовать этот сервис в качестве сервиса обучения классификаторов. Возможные значения: True, False. Значение по умолчанию True;
•max_text_extraction_requests. Количество документов без текстового слоя, из которых при обучении классификатора может одновременно извлекаться текст. Рекомендуется указывать значение выше, чем общее количество обработчиков Directum Text Exctractor Service, но не слишком большое, так как возрастает нагрузка на CPU. Значение по умолчанию 8.
DB – параметры подключения к базе данных:
•dbname. Имя базы данных PostgreSQL;
•dbuser. Имя пользователя для подключения к СУБД PostgreSQL;
•dbhost. Адрес СУБД PostgreSQL;
•dbpass. Пароль для подключения к СУБД PostgreSQL. Не допускается использование пустого пароля. Для корректной работы сервиса в пароле не рекомендуется использовать спецсимволы: ‘ # @ \ \ : * ? “ < > |.
Важно. Если значение параметра dbpass не заключено в кавычки, добавьте их вручную. Это нужно для корректной работы сервиса DTCS. Пример значения: {"ario12345"}.
•dbport. Порт для подключения к СУБД PostgreSQL.
Примечание. Параметры подключения к базе данных должны совпадать с параметрами, указанными в конфигурационном файле Directum Smart Service.
RABBITMQ – параметры подключения к брокеру сообщений:
•queue_connection. Строка подключения к RabbitMQ в формате amqp://{Имя пользователя}:{Пароль}@{Адрес}:{Порт}/{Виртуальный хост}?heartbeat={Значение}, где:
ВАЖНО. В логине и пароле для подключения к RabbitMQ не рекомендуется использовать спецсимволы: ‘ # @ \ \ : * ? “ < > |. Если их значения не заключены в кавычки, добавьте их вручную. Это нужно для корректной работы сервиса DTCS. Пример значения для пароля: {"ario12345"}.
•Виртуальный хост – виртуальный тенант RabbitMQ. Подробнее см. в документации RabbitMQ статью Virtual Hosts;
•heartbeat – промежуток времени в секундах, за который в RabbitMQ дважды отправляется сообщение о состоянии сервиса. Если этого не происходит, то соединение между RabbitMQ и сервисом прерывается. Значение по умолчанию 36000.
Пример значения: amqp://"ario":"ario12345"@localhost:5672/ario?heartbeat={36000};
•message_ttl_seconds. Время хранения сообщений об обработке документа в RabbitMQ в секундах. Значение по умолчанию 86400;
•prefetch_count. Максимальное количество одновременно обрабатываемых сервисом запросов. Значение по умолчанию 0. Если установлено такое значение, то оптимальное количество одновременно обрабатываемых запросов подбирается автоматически. Оно зависит от доступного ресурса системы, который рассчитывается как количество логических ядер процессора минус одно ядро для работы ОС. Формула для расчета параметра: (CPU-1)/2 с округлением вверх. Например, при CPU=8 доступный ресурс системы будет равен 7 (одно ядро отводится на работу ОС), а итоговое количество параллельно обрабатываемых запросов будет равно 4.
LOGGING – параметры ведения лог-файлов:
•period. Периодичность создания новых лог-файлов. Возможные значения:
•per_minute – каждую минуту;
•per_hour – каждый час;
•per_day – каждый день;
•midnight – каждый день в полночь.
Значение по умолчанию midnight;
•suffix. Формат названия лог-файлов. Значение по умолчанию %Y%m%d;
•filename. Имя лог-файла;
•path. Путь до папки с лог-файлами.
APM – настройки сервиса Directum Elastic APM Service:
•server_url. Адрес сервиса Elastic APM Service;
•metrics_interval. Интервал сбора метрик о состоянии памяти и CPU. Значение по умолчанию 0s, при котором метрики не собираются;
•span_frames_min_duration. Если при обработке документа возникла ошибка и время обработки превышает значение параметра, в лог-файл записывается не только факт ошибки, но и подробная информация о ней. Значение по умолчанию 0ms, при котором запись в лог-файл отключена.
© Компания Directum, 2024 |