<< Click to Display Table of Contents >> Интеллектуальные возможности > Сервисы Directum Ario > Администрирование сервисов Ario (Windows) > Конфигурирование настроек Ario Directum Fact Extractor Learn Service |
Сервис Directum Fact Extractor Learn Service настраивается в конфигурационном файле config.ini.
Структура файла:
[DEFAULT]
debug = {Записывать в лог-файл отладочные сообщения}
port = {TCP-порт сервиса}
can_train_models = {Разрешить использовать сервис как сервис обучения}
model_cache_lifetime = {Время хранения модели в пуле}
worker_cache_lifetime = {Время хранения результата обучения в кэше сервиса в секундах}
subprocesses = {Количество подпроцессов}
#[DB]
dbname = {Имя базы данных PostgreSQL}
dbuser = {Имя пользователя для подключения к СУБД PostgreSQL}
dbhost = {Адрес СУБД PostgreSQL}
dbpass = {"Пароль для подключения к СУБД PostgreSQL"}
dbport = {Порт для подключения к СУБД PostgreSQL}
#[RABBITMQ]
queue_connection = {Строка подключения к RabbitMQ}
message_ttl_seconds = {Время хранения сообщений об обработке в RabbitMQ в секундах}
prefetch_count = {Максимальное количество одновременно обрабатываемых запросов}
#[LOGGING]
period = {Периодичность создания новых лог-файлов}
suffix = {Формат названия лог-файлов}
filename = {Имя лог-файла}
path = {Путь до папки с лог-файлами}
#[CRF]
algorithm = {Алгоритм обучения}
c1 = {Коэффициент L1-регуляризации}
c2 = {Коэффициент L2-регуляризации}
epsilon = {Точность вычисления показателя качества модели}
delta = {Относительный показатель качества модели}
slice_period = {Количество итераций обучения, через которое оценивается относительный показатель качества модели}
max_iterations = {Максимальное число итераций обучения}
all_possible_transitions = {Генерировать все сочетания классов}
logging_period = {Интервал логирования процесса обучения в итерациях}
test_size = {Размер выборки для расчета метрик}
#[APM]
server_url = {Адрес сервиса Elastic APM Service}
metrics_interval = {Интервал сбора метрик в секундах}
span_frames_min_duration = {Время, в течение которого в лог файл записывается подробная информация об ошибке обработки документа. Указывается в миллисекундах}
DEFAULT – основные настройки сервиса:
•debug. Записывать в лог-файл отладочные сообщения. Возможные значения: True, False. Значение по умолчанию True;
•port. TCP-порт сервиса. Значение по умолчанию 9019;
•can_train_models. Разрешить использовать Fact Extractor Learn Service в качестве сервиса обучения. Возможные значения: True, False. Значение по умолчанию True;
•model_cache_lifetime. Время хранения модели в невыгружаемом пуле в минутах. Модели, к которым не обращаются в течение этого времени, выгружаются из пула. Укажите целое число больше нуля. Значение по умолчанию 60;
•worker_cache_lifetime. Время хранения результатов обучения модели в кэше сервиса Directum Fact Extractor Learn Service. Указывается в секундах. Если при отправке сообщения о результатах сервису не удается подключиться к RabbitMQ, то данные о последнем обучении сохраняются в кэше DFES-L в течение заданного периода. Это позволит не запускать обучение заново при восстановлении подключения к RabbitMQ. Значение по умолчанию 86400 (24 часа);
•subprocesses. Количество подпроцессов для более быстрого обучения моделей извлечения фактов. Если параметр отсутствует, подпроцессы не выделяются. Значение по умолчанию 4.
DB – параметры подключения к базе данных:
•dbname. Имя базы данных PostgreSQL;
•dbuser. Имя пользователя для подключения к СУБД PostgreSQL;
•dbhost. Адрес СУБД PostgreSQL;
•dbpass. Пароль для подключения к СУБД PostgreSQL. Не допускается использование пустого пароля. Для корректной работы сервиса в пароле не рекомендуется использовать спецсимволы: ‘ # @ \ \ : * ? “ < > |.
Важно. Если значение параметра dbpass не заключено в кавычки, добавьте их вручную. Это нужно для корректной работы сервиса DFES-L. Пример значения: {"ario12345"}.
•dbport. Порт для подключения к СУБД PostgreSQL.
Примечание. Параметры подключения к базе данных должны совпадать с параметрами, указанными в конфигурационном файле Directum Smart Service.
RABBITMQ – параметры подключения к брокеру сообщений:
•queue_connection. Строка подключения к RabbitMQ в формате amqp://{Имя пользователя}:{Пароль}@{Адрес}:{Порт}/{Виртуальный хост}?heartbeat={Значение}, где:
ВАЖНО. В логине и пароле для подключения к RabbitMQ не рекомендуется использовать спецсимволы: ‘ # @ \ \ : * ? “ < > |. Если их значения не заключены в кавычки, добавьте их вручную. Это нужно для корректной работы сервиса DFES-L. Пример значения для пароля: {"ario12345"}.
•Виртуальный хост – виртуальный тенант RabbitMQ. Подробнее см. в документации RabbitMQ статью Virtual Hosts;
•heartbeat – промежуток времени в секундах, за который в RabbitMQ дважды отправляется сообщение о состоянии сервиса. Если этого не происходит, то соединение между RabbitMQ и сервисом прерывается. Значение по умолчанию 36000.
Пример значения: amqp://"ario":"ario12345"@localhost:5672/ario?heartbeat={36000};
•message_ttl_seconds. Время хранения сообщений об обработке документа в RabbitMQ в секундах. Значение по умолчанию 86400;
•prefetch_count. Максимальное количество одновременно обрабатываемых сервисом запросов. Значение по умолчанию 0. Если установлено такое значение, то оптимальное количество одновременно обрабатываемых запросов подбирается автоматически. Оно зависит от доступного ресурса системы, который рассчитывается как количество логических ядер процессора минус одно ядро для работы ОС. Формула для расчета параметра: (CPU-1)/2 с округлением вверх. Например, при CPU=8 доступный ресурс системы будет равен 7 (одно ядро отводится на работу ОС), а итоговое количество параллельно обрабатываемых запросов будет равно 4.
ПРИМЕЧАНИЕ. На некоторые типы запросов распространяются дополнительные условия, которые позволяют снизить нагрузку на систему. А именно:
•если значение параметра 0, то количество одновременно обрабатываемых запросов на обучение или дообучение моделей всегда равно 1;
•количество одновременно обрабатываемых запросов на экспорт или импорт прикладной разработки всегда равно 1, вне зависимости от установленного в параметре значения.
LOGGING – параметры ведения лог-файлов:
•period. Периодичность создания новых лог-файлов. Возможные значения:
•per_minute – каждую минуту;
•per_hour – каждый час;
•per_day – каждый день;
•midnight – каждый день в полночь.
Значение по умолчанию midnight;
•suffix. Формат названия лог-файла. Значение по умолчанию %Y%m%d;
•filename. Имя лог-файла;
•path. Путь до папки с лог-файлами.
CRF – внутренние параметры обучения модели, менять которые не рекомендуется.
•algorithm. Поддерживается только алгоритм Ibfgs;
•c1, c2. Значение коэффициентов по умолчанию 0,1;
•epsilon. Точность, с которой вычисляется параметр delta. Значение по умолчанию 0,00001;
•delta. Допустимая разница в качестве обучения модели на разных итерациях. Если качество модели отличается не более чем на установленное значение, то считается, что качество не изменилось. Значение по умолчанию 0,04;
•slice_period. Количество итераций обучения, через которое проверяется, что значение параметра delta не превышает установленного. Значение по умолчанию 10;
•max_iterations. Максимальное количество итераций для обучения. Значение по умолчанию 250;
•all_possible_transitions. Значение по умолчанию True;
•logging_period. Периодичность логирования процесса при обучении модели извлечения фактов. Задается в итерациях. Значение по умолчанию 10. Если логирование процесса обучения не требуется, отключите его, указав значение 0;
•test_size. Значение по умолчанию 0,25.
Подробнее о параметрах обучения см. в документации к библиотеке Sklearn-crfsuite статью API Reference, раздел CRF.
APM – настройки сервиса Directum Elastic APM Service:
•server_url. Адрес сервиса Elastic APM Service;
•metrics_interval. Интервал сбора метрик о состоянии памяти и CPU. Значение по умолчанию 0s, при котором метрики не собираются;
•span_frames_min_duration. Если при обработке документа возникла ошибка и время обработки превышает значение параметра, в лог-файл записывается не только факт ошибки, но и подробная информация о ней. Значение по умолчанию 0ms, при котором запись в лог-файл отключена.
© Компания Directum, 2024 |