<< Click to Display Table of Contents >> Интеллектуальные возможности > Сервисы Directum Ario > Администрирование сервисов Ario (Linux) > Конфигурирование настроек Ario Text Extractor Service |
Сервис Text Extractor Service настраивается в одноименной секции конфигурационного файла .env.
Структура секции:
# TextExtractor
dtes_replicas = {Количество запускаемых копий сервиса Text Extractor Service}
dtes_external_port = ${ariotextextractorservice_port}
dtes_serilog_default = ${log_level}
dtes_serilog_microsoft = Warning
dtes_serilog_aspnet_core = Information
dtes_serilog_entity_framework_core = Error
dtes_serilog_system = Error
dtes_serilog_elastic_apm = Error
dtes_serilog_application = TextExtractorService
dtes_serilog_name = RollingFile
dtes_serilog_formatter = TextExtractorService.Logger.SmartEcsTextFormatter, TextExtractorService
dtes_serilog_path_format = {Путь до каталога для логов Text Extractor Service внутри контейнера}
dtes_background_remover = {Алгоритм удаления фона}
dtes_extraction_quality = {Качество извлечения текстового слоя}
dtes_ocr_text_from_pdf = {Всегда извлекать текстовый слой из PDF-документов}
dtes_ocr_dpi = {Разрешение, используемое для извлечения текста из PDF-документов
без текстового слоя или из документов, у которых игнорируется существующий
текстовый слой}
dtes_convert_fact_positions = {Учитывать поворот документов при получении координат
фактов}
dtes_page_classifier_words_count = {Количество слов на странице, которые
используются для определения начала нового документа}
dtes_use_fixed_forms = {Использовать жесткие формы документов}
dtes_detect_orientation = {Определять ориентацию страниц}
dtes_find_objects = {Искать подписи}
dtes_find_stamps = {Искать печати}
dtes_prefetch_count = {Максимальное количество одновременно обрабатываемых запросов}
dtes_parallel_processing_page_count = {Количество одновременно обрабатываемых
страниц документа}
dtes_max_pages = {Максимальное число страниц, при котором из документа будет извлекаться текстовый слой}
dtes_debug_images_enabled = {Режим отладки для сохранения промежуточных результатов обработки изображений}
dtes_debug_images_path = {Каталог для сохранения промежуточных результатов обработки изображений внутри контейнера}
dtes_debug_images_path_host = {Каталог для сохранения промежуточных результатов обработки изображений}
dtes_elastic_apm_server_urls = ${elastic_apm_server_urls}
dtes_elastic_apm_transaction_sample_rate = ${elastic_apm_transaction_sample_rate}
dtes_elastic_apm_span_frames_min_duration = ${elastic_apm_span_frames_min_duration}
dtes_elastic_apm_metrics_interval = ${elastic_apm_metric_interval}
dtes_elastic_apm_capture_body = ${elastic_apm_capture_body}
dtes_elastic_apm_capture_body_content_types = "*"
dtes_queues_message_ttl = ${queues_message_ttl}
dtes_queue_connection = ${rabbit_url}
dtes_queue_retry_connection_count = {Количество повторных попыток подключения к
RabbitMQ}
•dtes_replicas. Количество запускаемых копий сервиса Text Extractor Service. Возможные значения: 0 – сервис DTES не будет запущен при следующем запуске сервисов, 1 – сервис DTES будет запущен при следующем запуске сервисов. Значение по умолчанию 1;
•dtes_external_port. TCP-порт сервиса Text Extractor Service. Используется значение, указанное в конфигурационном файле .env в секции DL Services в параметре ariotextextractorservice_port;
•dtes_serilog_default. Параметры ведения лог-файлов;
•dtes_serilog_path_format. Путь до каталога с лог-файлами Text Extractor Service;
•dtes_background_remover. Алгоритм, который используется для удаления фона в документе. Возможные значения:
•ConnectedComponents. Основан на методе поиска связанных компонент установленного размера и последующем удалении компонент меньше этого значения. Быстрее и точнее обрабатывает простые и сложные фоны, но иногда может задевать текстовый слой: стирать границы таблиц и удалять знаки препинания;
•Sobel. Основан на методе поиска границ изображения с помощью оператора Собеля. Обрабатывает простые фоны;
•None. Фон не удаляется.
Значение по умолчанию ConnectedComponents;
•dtes_extraction_quality. Качество извлечения текстового слоя. Возможные значения:
•fast. Высокая скорость извлечения, при этом снижается качество;
•quality. Высокое качество извлечения, при этом снижается скорость.
Значение по умолчанию fast;
•dtes_ocr_text_from_pdf. Всегда извлекать текстовый слой из PDF-документов, даже если текстовый слой уже существует. Возможные значения: True, False. Значение по умолчанию True;
•dtes_ocr_dpi. Разрешение, используемое для извлечения текста из PDF-документов без текстового слоя или из документов, у которых игнорируется существующий текстовый слой. Укажите целое число больше нуля. Значение по умолчанию 300;
•dtes_convert_fact_positions. Учитывать поворот документов при получении координат фактов. Возможные значения: True, False. Укажите значение False, если импортируются PDF-документы без предварительной обработки. Если импортируются обработанные PDF-документы, оставьте значение по умолчанию True;
•dtes_page_classifier_words_count. Количество слов на странице, которые используются для определения начала нового документа. Укажите целое число больше нуля. Значение по умолчанию 75. Если используется система Directum RX в варианте поставке Intelligence, то при изменении значения по умолчанию продублируйте его в параметр CsvTrainingTokensPerPageLimit таблицы базы данных Sungero_Docflow_Params. Это необходимо для формирования корректного CSV-файла, который используется для автоматического дообучения классификатора первых страниц;
•dtes_use_fixed_forms. При обработке изображений применять жесткие формы документов, например формы паспортов РФ. Возможные значения: True, False. Если нет необходимости в распознавании документов с жесткими формами, для ускорения обработки документов рекомендуется оставить значение по умолчанию False;
•dtes_detect_orientation. Определять ориентацию страниц. Возможные значения: True, False. Значение по умолчанию True. Если нет необходимости в определении ориентации страниц, для ускорения обработки документов установите значение False;
•dtes_find_objects. Искать подписи. Возможные значения: True, False. Значение по умолчанию True. Если нет необходимости в поиске, для ускорения обработки документов установите значение False;
•dtes_find_stamps. Искать печати. Возможные значения: True, False. Значение по умолчанию True. Если нет необходимости в поиске, для ускорения обработки документов установите значение False;
•dtes_prefetch_count. Максимальное количество одновременно обрабатываемых сервисом запросов. Значение по умолчанию 0. Если установлено такое значение, то оптимальное количество одновременно обрабатываемых документов подбирается автоматически. Оно зависит от доступного ресурса системы.
Доступный ресурс представляет собой число логических ядер процессора (за вычетом одного ядра на работу ОС). Формула для расчета: CPU-1;
•dtes_parallel_processing_page_count. Количество одновременно обрабатываемых страниц документа. Значение по умолчанию 0. Если установлено такое значение, то оптимальное количество одновременно обрабатываемых страниц подбирается автоматически. Оно зависит от доступного ресурса системы, который рассчитывается по формуле, аналогичной расчету ресурса для параметра dtes_prefetch_count. При этом, если значение доступного ресурса:
•больше 1, то количество одновременно обрабатываемых страниц равно 2;
•меньше или равно 1, то количество одновременно обрабатываемых страниц равно 1;
•dtes_max_pages. Максимальное число страниц, при котором из документа извлекается текстовый слой. Если количество страниц превышает установленный лимит, то текстовый слой не извлекается.
Если из документа уже был извлечен текстовый слой, то при конвертации в формат PDF он сохранится. Исключение составляют многостраничные файлы в формате TIFF, при конвертации которых в PDF текстовый слой не сохраняется. Также такие файлы не разделяются на несколько документов.
Значение по умолчанию 100. Если указать в параметре 0 или отрицательное число, то лимит будет отключен;
•dtes_debug_images_enabled. Режим отладки для сохранения промежуточных результатов обработки изображений. Возможные значения: True, False. Если указано значение True, то во временный каталог, указанный в параметре dtes_debug_images_path, сохраняются промежуточные результаты обработки изображений на каждом из этапов. Значение по умолчанию False.
Чтобы включить режим отладки:
1.В параметре dtes_debug_images_enabled установите значение True.
2.В конфигурационном файле deploy.yml в секции dtes в разделе volumes раскомментируйте строку:
#- ${dtes_debug_images_path_host}:/usr/src/textextractor-service/${dtes_debug_images_path}
3.Перезапустите сервисы Ario. Для этого последовательно выполните команды:
/.do.sh ario stop
/.do.sh ario start
•dtes_debug_images_path. Адрес временного каталога для сохранения промежуточных результатов обработки изображений. Значение по умолчанию tmp/debug. Не рекомендуется менять значение параметра;
•dtes_debug_images_path_host. Каталог для сохранения промежуточных результатов обработки изображений на сервере. Значение по умолчанию ./etc/textextractor-service/debug. Не рекомендуется менять значение параметра;
•dtes_elastic_apm_server_urls. Адрес сервиса Elastic APM Service. Используется значение, указанное в конфигурационном файле .env в секции Elastic APM Service в параметре elastic_apm_server_urls;
•dtes_elastic_apm_transaction_sample_rate. Регулярность отправки трейсов в Elastic APM Service. Используется значение, указанное в конфигурационном файле .env в секции Elastic APM Service в параметре elastic_apm_transaction_sample_rate;
•dtes_elastic_apm_span_frames_min_duration. Если при обработке документа возникла ошибка и время обработки превышает значение параметра, в лог-файл записывается не только факт ошибки, но и подробная информация о ней. Используется значение, указанное для этого параметра в конфигурационном файле .env в секции Elastic APM Service;
•dtes_elastic_apm_metrics_interval. Интервал сбора метрик о состоянии памяти и CPU. Используется значение, указанное в конфигурационном файле .env в секции Elastic APM Service в параметре elastic_apm_metric_interval;
•dtes_elastic_apm_capture_body. Сообщения, которые передаются в сервис Elastic APM Service. Используется значение, указанное в конфигурационном файле .env в секции Elastic APM Service в параметре elastic_apm_capture_body;
•dtes_queue_message_ttl. Время хранения сообщений об обработке документа в RabbitMQ в секундах. Используется значение, указанное в конфигурационном файле .env в параметре queues_message_ttl;
•dtes_queue_connection. Строка подключения к очереди сообщений RabbitMQ. Используется значение, указанное в конфигурационном файле .env в секции RabbitMQ в параметре rabbit_url;
•dtes_retry_connection_count. Количество повторных попыток подключения к брокеру сообщений. Значение по умолчанию 5.
© Компания Directum, 2024 |