<< Click to Display Table of Contents >> Интеллектуальные возможности > Сервисы Directum Ario > Администрирование сервисов Ario (Linux) > Конфигурирование настроек Ario Text Classifier Service |
Сервис Text Classifier Service настраивается в одноименной секции конфигурационного файла .env.
Структура секции:
# TextClassifierService
dtcs_replicas = {Количество запускаемых копий сервиса Text Classifier Service}
dtcs_external_port = ${ariotextclassifierservice_port}
dtcs_debug = {Записывать в лог-файл отладочные сообщения}
dtcs_area = {Используемый раздел конфигурационного файла}
dtcs_max_models_in_pool = {Максимальное количество моделей классификации в пуле}
dtcs_model_cache_lifetime = {Время хранения модели классификации в пуле}
dtcs_dbname = ${pg_database}
dtcs_dbuser = ${pg_user}
dtcs_dbhost = ${pg_host}
dtcs_dbpass = ${pg_password}
dtcs_dbport = ${pg_port}
dtcs_csv_text_field = {Название поля с текстом для обучения данными в формате CSV}
dtcs_csv_class_field = {Название поля с классами для обучения данными в формате CSV многоклассового классификатора}
dtcs_csv_classes_field = {Название поля с классами для обучения данными в формате CSV многозначного классификатора}
dtcs_csv_external_id_field = {Название поля с внешним идентификатором класса для обучения данными в формате CSV многоклассового классификатора}
dtcs_repository = {Тип репозитория для хранения моделей классификации}
dtcs_can_train_models = {Разрешить использовать сервис как сервис обучения классификаторов}
dtcs_queue_connection = ${rabbit_url}
dtcs_message_ttl_seconds = ${queues_message_ttl}
dtcs_prefetch_count = {Максимальное количество одновременно обрабатываемых запросов}
dtcs_max_text_extraction_requests = {Количество документов для одновременного извлечения текста при обучении классификатора}
dtcs_allow_local_path = {Разрешить обучение из локальной папки}
dtcs_server_url = ${elastic_apm_server_urls}
dtcs_metrics_interval = ${elastic_apm_metric_interval}
dtcs_span_frames_min_duration = ${elastic_apm_span_frames_min_duration}
dtcs_suffix = {Формат названия лог-файлов}
•dtcs_replicas. Количество запускаемых копий сервиса Text Classifier Service. Возможные значения: 0 – сервис DTCS не будет запущен при следующем запуске сервисов, 1 – сервис DTCS будет запущен при следующем запуске сервисов. Значение по умолчанию 1;
•dtcs_external_port. TCP-порт сервиса Text Classifier Service. Используется значение, указанное в конфигурационном файле .env в секции DL Services в параметре ariotextclassifierservice_port;
•dtcs_debug. Записывать в лог-файл отладочные сообщения. Возможные значения: True, False. Значение по умолчанию True;
•dtcs_area. Используемый в данный момент раздел конфигурационного файла. Используется для быстрого переключения между настройками окружения. Пример значения: develop;
•dtcs_max_models_in_pool. Максимальное количество моделей классификации, хранящихся в невыгружаемом пуле. Если модель классификации находится в пуле, обращение к ней выполняется быстрее, таким образом ускоряется классификация текстов. Укажите целое число больше нуля. Значение по умолчанию 15;
•dtcs_model_cache_lifetime. Время хранения модели классификации в пуле в минутах. Модели, к которым не обращались в течение этого промежутка времени, выгружаются из пула. Укажите целое число больше нуля. Значение по умолчанию 60;
•dtcs_dbname. Имя базы данных PostgreSQL. Используется значение, указанное в конфигурационном файле .env в секции PostgreSQL в параметре pg_database;
•dtcs_dbuser. Имя пользователя для подключения к СУБД PostgreSQL. Используется значение, указанное в конфигурационном файле .env в секции PostgreSQL в параметре pg_user;
•dtcs_dbhost. Адрес СУБД PostgreSQL. Используется значение, указанное в конфигурационном файле .env в секции PostgreSQL в параметре pg_host;
•dtcs_dbpass. Пароль для подключения к СУБД PostgreSQL. Используется значение, указанное в конфигурационном файле .env в секции PostgreSQL в параметре pg_password;
•dtcs_dbport. Порт для подключения к СУБД PostgreSQL. Используется значение, указанное в конфигурационном файле .env в секции PostgreSQL в параметре pg_port;
Примечание. Все параметры подключения к базе данных должны совпадать с параметрами, указанными в конфигурационном файле Smart Service;
•dtcs_csv_text_field, dtcs_csv_class_field, dtcs_csv_classes_field, dtcs_csv_external_id_field. Названия полей в CSV-файле для обучения классификаторов через набор данных в формате CSV. Параметры являются внутренними, изменять не рекомендуется;
•dtcs_repository. Тип репозитория, используемого для хранения моделей классификации. Параметр является внутренним, изменять не рекомендуется;
•dtcs_can_train_models. Разрешить использовать этот сервис в качестве сервиса обучения классификаторов. Возможные значения: True, False. Значение по умолчанию True;
•dtcs_queue_connection. Строка подключения к RabbitMQ. Используется значение, указанное в конфигурационном файле .env в секции RabbitMQ в параметре rabbit_url;
•dtcs_message_ttl_seconds. Время хранения сообщений об обработке документа в RabbitMQ в секундах. Используется значение, указанное в конфигурационном файле .env в параметре queues_message_ttl;
•dtcs_prefetch_count. Количество одновременно обрабатываемых запросов на сервисе. Значение по умолчанию 0. Если установлено такое значение, то оптимальное количество одновременно обрабатываемых запросов подбирается автоматически. Оно зависит от доступного ресурса системы, который рассчитывается как количество логических ядер процессора минус одно ядро для работы ОС. Формула для расчета параметра: (CPU-1)/2 с округлением вверх. Например, при CPU=8 доступный ресурс системы будет равен 7 (одно ядро отводится на работу ОС), а итоговое количество параллельно обрабатываемых запросов будет равно 4;
•dtcs_allow_local_path. Разрешить обучение классификаторов из локального каталога сервера. Возможные значения: True, False. Если установлено значение False, повышается безопасность работы. Значение по умолчанию True;
•dtcs_max_text_extraction_requests. Количество документов без текстового слоя, из которых при обучении классификатора может одновременно извлекаться текст. Рекомендуется указывать значение выше, чем общее количество обработчиков Text Exctractor Service, но не слишком большое, так как возрастает нагрузка на CPU. Значение по умолчанию 8;
•dtcs_server_url. Адрес сервиса Elastic APM Service. Используется значение, указанное в конфигурационном файле .env в секции Elastic APM Service в параметре elastic_apm_server_urls;
•dtcs_metrics_interval. Интервал сбора метрик о состоянии памяти и CPU. Используется значение, указанное в конфигурационном файле .env в секции Elastic APM Service в параметре elastic_apm_metric_interval;
•dtcs_span_frames_min_duration. Сообщения, которые передаются в сервис Elastic APM Service. Используется значение, указанное в конфигурационном файле .env в секции Elastic APM Service в параметре elastic_apm_span_frames_min_duration;
•dtcs_suffix. Формат названия лог-файлов. Значение по умолчанию %Y%m%d.
© Компания Directum, 2024 |