<< Click to Display Table of Contents >> Интеллектуальные возможности > Сервисы Directum Ario > Администрирование сервисов Ario (Linux) > Конфигурирование настроек Ario Fact Extractor Learn Service |
Сервис Fact Extractor Learn Service настраивается в одноименной секции конфигурационного файла .env.
Структура секции:
# FactExtractorLearnService
dfesl_replicas = {Количество запускаемых копий сервиса Fact Extractor Learn Service}
dfesl_max_replicas_per_node = {Ограничение количества запускаемых копий сервиса Fact Extractor Learn Service на одном сервере}
dfesl_external_port = ${ariofactextractorlearnservice_port}
dfesl_debug = {Записывать в лог-файл отладочные сообщения}
dfesl_worker_cache_lifetime = {Время хранения результата обучения в кэше сервиса в секундах}
dfesl_can_train_models = {Разрешить использовать сервис как сервис обучения}
dfesl_dbname = ${pg_database}
dfesl_dbuser = ${pg_user}
dfesl_dbhost = ${pg_host}
dfesl_dbpass = ${pg_password}
dfesl_dbport = ${pg_port}
dfesl_queue_connection = ${rabbit_url}//?heartbeat={Значение}
dfesl_message_ttl_seconds = ${queues_message_ttl}
dfesl_prefetch_count = {Количество одновременно обрабатываемых сообщений}
dfesl_model_cache_lifetime = {Время хранения модели в пуле}
dfesl_subprocesses = {Количество подпроцессов}
dfesl_algorithm = {Алгоритм обучения}
dfesl_c1 = {Коэффициент L1-регуляризации}
dfesl_c2 = {Коэффициент L2-регуляризации}
dfesl_epsilon = {Точность вычисления показателя качества модели}
dfesl_delta = {Относительный показатель качества модели}
dfesl_slice_period = {Количество итераций обучения, через которое оценивается относительный показатель качества модели}
dfesl_max_iterations = {Максимальное число итераций обучения}
dfesl_all_possible_transitions = {Генерировать все сочетания классов}
dfesl_logging_period = {Интервал логирования процесса обучения в итерациях}
dfesl_test_size = {Размер выборки для расчета метрик}
dfesl_server_url = ${elastic_apm_server_urls}
dfesl_metrics_interval = ${elastic_apm_metric_interval}
dfesl_span_frames_min_duration = ${elastic_apm_span_frames_min_duration}
dfesl_suffix = {Формат названия лог-файлов}
•dfesl_replicas. Количество запускаемых копий сервиса Fact Extractor Learn Service. Возможные значения: 0 – сервис DFES-L не будет запущен при следующем запуске сервисов, 1 – сервис DFES-L будет запущен при следующем запуске сервисов. Значение по умолчанию 1;
•dfesl_external_port. TCP-порт сервиса Fact Extractor Learn Service. Используется значение, указанное в конфигурационном файле .env в секции DL Services в параметре ariofactextractorlearnservice_port;
•dfesl_debug. Записывать в лог-файл отладочные сообщения. Возможные значения: True, False. Значение по умолчанию True;
•dfesl_worker_cache_lifetime. Время хранения результатов обучения модели в кэше сервиса Fact Extractor Learn Service. Указывается в секундах. Если при отправке сообщения о результатах сервису не удается подключиться к RabbitMQ, то данные о последнем обучении сохраняются в кэше DFES-L в течение заданного периода. Это позволит не запускать обучение заново при восстановлении подключения к RabbitMQ. Значение по умолчанию 86400 (24 часа);
•dfesl_can_train_models. Разрешить использовать Fact Extractor Learn Service в качестве сервиса обучения. Возможные значения: True, False. Значение по умолчанию True;
•dfesl_dbname. Имя базы данных PostgreSQL. Используется значение, указанное в конфигурационном файле .env в секции PostgreSQL в параметре pg_database;
•dfesl_dbuser. Имя пользователя для подключения к СУБД PostgreSQL. Используется значение, указанное в конфигурационном файле .env в секции PostgreSQL в параметре pg_user;
•dfesl_dbhost. Адрес СУБД PostgreSQL. Используется значение, указанное в конфигурационном файле .env в секции PostgreSQL в параметре pg_host;
•dfesl_dbpass. Пароль для подключения к СУБД PostgreSQL. Используется значение, указанное в конфигурационном файле .env в секции PostgreSQL в параметре pg_password;
•dfesl_dbport. Порт для подключения к СУБД PostgreSQL. Используется значение, указанное в конфигурационном файле .env в секции PostgreSQL в параметре pg_port;
Примечание. Параметры подключения к базе данных должны совпадать с параметрами, указанными в конфигурационном файле Smart Service;
•dfesl_queue_connection. Строка подключения к RabbitMQ в формате amqp://{Имя пользователя}:{Пароль}@{Адрес}:{Порт}/{Виртуальный хост}?heartbeat={Значение}, где heartbeat – промежуток времени в секундах, за который в RabbitMQ дважды отправляется сообщение о состоянии сервиса. Если этого не происходит, то соединение между RabbitMQ и сервисом прерывается. Значение по умолчанию 36000;
•dfesl_message_ttl_seconds. Время хранения сообщений об обработке документа в RabbitMQ в секундах. Значение по умолчанию 86400. Используется значение, указанное в конфигурационном файле .env в параметре queues_message_ttl;
•dfesl_prefetch_count. Количество одновременно обрабатываемых запросов на сервисе. Значение по умолчанию 0. Если установлено такое значение, то оптимальное количество одновременно обрабатываемых запросов подбирается автоматически. Оно зависит от доступного ресурса системы, который рассчитывается как количество логических ядер процессора минус одно ядро для работы ОС. Формула для расчета параметра: (CPU-1)/2 с округлением вверх. Например, при CPU=8 доступный ресурс системы будет равен 7 (одно ядро отводится на работу ОС), а итоговое количество параллельно обрабатываемых запросов будет равно 4.
ПРИМЕЧАНИЕ. На некоторые типы запросов распространяются дополнительные условия, которые позволяют снизить нагрузку на систему. А именно:
•если значение параметра 0, то количество одновременно обрабатываемых запросов на обучение или дообучение моделей всегда равно 1;
•количество одновременно обрабатываемых запросов на экспорт или импорт прикладной разработки всегда равно 1, вне зависимости от установленного в параметре значения;
•dfesl_model_cache_lifetime. Время хранения модели в невыгружаемом пуле в минутах. Модели, к которым не обращаются в течение этого времени, выгружаются из пула. Укажите целое число больше нуля. Значение по умолчанию 60;
•dfesl_subprocesses. Количество подпроцессов для более быстрого обучения моделей извлечения фактов. Если параметр отсутствует, подпроцессы не выделяются. Значение по умолчанию 4;
•dfesl_algorithm. Алгоритм обучения модели. Поддерживается только алгоритм Ibfgs;
•dfesl_c1, dfesl_c2. Значение коэффициентов по умолчанию 0,1;
•dfesl_epsilon. Точность, с которой вычисляется параметр dfesl_delta. Значение по умолчанию 0,00001;
•dfesl_delta. Допустимая разница в качестве обучения модели на разных итерациях. Если качество модели отличается не более чем на установленное значение, то считается, что качество не изменилось. Значение по умолчанию 0,04;
•dfesl_slice_period. Количество итераций обучения, через которое проверяется, что значение параметра delta не превышает установленного. Значение по умолчанию 10;
•dfesl_max_iterations. Максимальное количество итераций для обучения. Значение по умолчанию 250;
•dfesl_all_possible_transitions. Значение по умолчанию True;
•dfesl_logging_period. Периодичность логирования процесса при обучении модели извлечения фактов. Задается в итерациях. Значение по умолчанию 10. Если логирование процесса обучения не требуется, отключите его, указав значение 0;
•dfesl_test_size. Значение по умолчанию 0,25.
Примечание. Подробнее о параметрах обучения см. в документации к библиотеке Sklearn-crfsuite статью API Reference, раздел CRF;
•dfesl_server_url. Адрес сервиса Elastic APM Service. Используется значение, указанное в конфигурационном файле .env в секции Elastic APM Service в параметре elastic_apm_server_urls;
•dfesl_metrics_interval. Интервал сбора метрик о состоянии памяти и CPU. Используется значение, указанное в конфигурационном файле .env в секции Elastic APM Service в параметре elastic_apm_metric_interval;
•dfesl_span_frames_min_duration. Если при обработке документа возникла ошибка и время обработки превышает значение параметра, в лог-файл записывается не только факт ошибки, но и подробная информация о ней. Используется значение, указанное в конфигурационном файле .env в секции Elastic APM Service в параметре elastic_apm_span_frames_min_duration;
•dfesl_suffix. Формат названия лог-файла. Значение по умолчанию %Y%m%d.
© Компания Directum, 2024 |