<< Click to Display Table of Contents >> Интеллектуальные возможности > Сервисы Directum Ario > Администрирование сервисов Ario (Windows) > Конфигурирование настроек Ario Directum Text Extractor Service |
Сервис Directum Text Extractor Service настраивается в конфигурационном файле appsettings.json.
Структура файла:
{
"Serilog": {
"MinimumLevel": {
"Default": "{Минимальный уровень логирования}",
"Override": {
"Microsoft.EntityFrameworkCore": "Error",
"System": "Error",
"Elastic.Apm": "Error"
}
},
"Properties": {
"Application": "TextExtractorService"
},
"WriteTo": [
{
"Name": "RollingFile",
"Args": {
"formatter": "TextExtractorService.Logger.SmartEcsTextFormatter, TextExtractorService",
"pathFormat": "{Путь до папки с лог-файлом}/{Date}.log"
}
}
]
},
"TextExtractor": {
"BackgroundRemover": "{Алгоритм удаления фона}",
"ExtractionQuality": "{Качество извлечения текстового слоя}",
"OCRTextFromPdf": "{Всегда извлекать текстовый слой из PDF-документов}",
"OCRdpi": "{Разрешение для извлечения текста из PDF-документов без текстового слоя или из документов, у которых игнорируется существующий текстовый слой}",
"ConvertFactPositions": "{Учитывать поворот документов при получении координат фактов}",
"PageClassifierWordsCount": "{Количество слов на странице, которые используются для определения начала нового документа}",
"UseFixedForms": "{Использовать жесткие формы документов}",
"UseAngleCorrection": "{Повернуть страницу до ближайшего угла, кратного 90 градусам}",
"DetectOrientation": "{Определять ориентацию страниц}",
"FindObjects": "{Искать подписи}",
"FindStamps": "{Искать печати}",
"PrefetchCount": "{Максимальное количество одновременно обрабатываемых запросов}",
"ParallelProcessingPageCount": "{Количество одновременно обрабатываемых страниц документа}",
"MaxPages": "{Максимальное число страниц, при котором из документа будет извлекаться текстовый слой}"
},
"DebugImages": {
"Enabled": "{Режим отладки для сохранения промежуточных результатов обработки изображений}",
"Path": "{Папка для сохранения промежуточных результатов обработки изображений}"
},
"ElasticApm": {
"ServerUrls": "{Адрес сервиса Elastic APM Service}",
"TransactionSampleRate": "{Регулярность отправки трейсов в сервис Elastic APM Service}",
"SpanFramesMinDuration": "{Время, в течение которого в лог файл записывается подробная информация об ошибке обработки документа. Указывается в миллисекундах}",
"MetricsInterval": "{Интервал сбора метрик в секундах}",
"CaptureBody": "all",
"CaptureBodyContentTypes": "*"
},
"Queues": {
"QueueConnection": "{Строка подключения к RabbitMQ}",
"MessageTTL": "{Время хранения сообщений об обработке в RabbitMQ в секундах}",
"RetryConnectionCount": "{Количество повторных попыток подключения к RabbitMQ}"
}
}
Serilog – параметры ведения лог-файлов:
•MinimumLevel. Минимальный уровень протоколирования. Значение по умолчанию:
"Serilog": {
"MinimumLevel": {
"Default": "{Минимальный уровень логирования}",
"Override": {
"Microsoft.EntityFrameworkCore": "Error",
"System": "Error",
"Elastic.Apm": "Error"
}
},
При указанном значении параметра в лог-файл записываются сообщения о каждом этапе обработки документа, а также ошибки, возникающие при работе сервиса.
Подробнее об изменении значения параметра см. на сервисе GitHub в документации библиотеки Serilog;
•WriteTo. Формат хранения лог-файлов, где:
•pathFormat. Путь до папки с лог-файлами.
TextExtractor – настройки сервиса:
•BackgroundRemover. Алгоритм, который используется для удаления фона в документе. Возможные значения:
•ConnectedComponents. Основан на методе поиска связанных компонент установленного размера и последующем удалении компонент меньше этого значения. Быстрее и точнее обрабатывает простые и сложные фоны, но иногда может задевать текстовый слой: стирать границы таблиц и удалять знаки препинания;
•Sobel. Основан на методе поиска границ изображения с помощью оператора Собеля. Обрабатывает простые фоны;
•None. Фон не удаляется.
Значение по умолчанию ConnectedComponents;
•ExtractionQuality. Качество извлечения текстового слоя. Возможные значения:
•fast. Высокая скорость извлечения, при этом снижается качество;
•quality. Высокое качество извлечения, при этом снижается скорость.
Значение по умолчанию fast;
•OCRTextFromPdf. Всегда извлекать текстовый слой из PDF-документов, даже если текстовый слой уже существует. Возможные значения: True, False. Значение по умолчанию True;
•OCRdpi. Разрешение, используемое для извлечения текста из PDF-документов без текстового слоя или из документов, у которых игнорируется существующий текстовый слой. Укажите целое число больше нуля. Значение по умолчанию 300;
•ConvertFactPositions. Учитывать поворот документов при получении координат фактов. Возможные значения: True, False. Укажите значение False, если импортируются PDF-документы без предварительной обработки. Если импортируются обработанные PDF-документы, оставьте значение по умолчанию True;
•PageClassifierWordsCount. Количество слов на странице, которые используются для определения начала нового документа. Укажите целое число больше нуля. Значение по умолчанию 75. Если используется система Directum RX в варианте поставке Intelligence, то при изменении значения по умолчанию продублируйте его в параметр CsvTrainingTokensPerPageLimit таблицы базы данных Sungero_Docflow_Params. Это необходимо для формирования корректного CSV-файла, который используется для автоматического дообучения классификатора первых страниц;
•UseFixedForms. При обработке изображений применять жесткие формы документов, например, формы паспортов РФ. Возможные значения: True, False. Если нет необходимости в распознавании документов с жесткими формами, для ускорения обработки документов рекомендуется оставить значение по умолчанию False;
•UseAngleCorrection. При обработке изображений поворачивать их до ближайшего угла, кратного 90 градусам. Например, страница под углом в 275 градусов будет повернута до угла в 270 градусов. Это позволяет дополнительно выравнивать документ. Возможные значения: True, False. Значение по умолчанию True;
•DetectOrientation. Определять ориентацию страниц. Возможные значения: True, False. Значение по умолчанию True. Если нет необходимости в определении ориентации страниц, для ускорения обработки документов установите значение False;
•FindObjects. Искать подписи. Возможные значения: True, False. Значение по умолчанию True. Если нет необходимости в поиске, для ускорения обработки документов установите значение False;
•FindStamps. Искать печати. Возможные значения: True, False. Значение по умолчанию True. Если нет необходимости в поиске, для ускорения обработки документов установите значение False;
•PrefetchCount. Максимальное количество одновременно обрабатываемых сервисом запросов. Значение по умолчанию 0. Если установлено такое значение, то оптимальное количество одновременно обрабатываемых документов подбирается автоматически. Оно зависит от доступного ресурса системы.
Доступный ресурс представляет собой число логических ядер процессора (за вычетом одного ядра на работу ОС). Формула для расчета: CPU-1;
•ParallelProcessingPageCount. Количество одновременно обрабатываемых страниц документа. Значение по умолчанию 0. Если установлено такое значение, то оптимальное количество одновременно обрабатываемых страниц подбирается автоматически. Оно зависит от доступного ресурса системы, который рассчитывается по формуле, аналогичной расчету ресурса для параметра PrefetchCount. При этом, если значение доступного ресурса:
•больше 1, то количество одновременно обрабатываемых страниц равно 2;
•меньше или равно 1, то количество одновременно обрабатываемых страниц равно 1;
•MaxPages. Максимальное число страниц, при котором из документа извлекается текстовый слой. Если количество страниц превышает установленный лимит, то текстовый слой не извлекается.
Если из документа уже был извлечен текстовый слой, то при конвертации в формат PDF он сохранится. Исключение составляют многостраничные файлы в формате TIFF, при конвертации которых в PDF текстовый слой не сохраняется. Также такие файлы не разделяются на несколько документов.
Значение по умолчанию 100. Если указать в параметре 0 или отрицательное число, то лимит будет отключен.
DebugImages – режим отладки для сохранения промежуточных результатов обработки изображений:
•Enabled. Включить режим отладки. Возможные значения: True, False. Если указано значение True, то во временную папку, указанную в параметре Path, сохраняются промежуточные результаты обработки изображений на каждом из этапов. Значение по умолчанию False;
•Path. Адрес временной папки для сохранения промежуточных результатов обработки изображений.
ElasticApm – настройка подключения к сервису Directum Elastic APM Service:
•ServerUrls. Адрес сервиса Elastic APM Service;
•TransactionSampleRate. Регулярность отправки трейсов в Elastic APM Service. Укажите значение 1.0, если необходимо отправлять все трейсы, 0.5 – если каждый второй. Значение по умолчанию 1.0;
•SpanFramesMinDuration. Если при обработке документа возникла ошибка и время обработки превышает значение параметра, в лог-файл записывается не только факт ошибки, но и подробная информация о ней. Значение по умолчанию 0ms, при котором запись в лог-файл отключена;
•MetricsInterval. Интервал сбора метрик о состоянии памяти и CPU. Значение по умолчанию 0s, при котором метрики не собираются;
•CaptureBody. Сообщения, которые передаются в сервис Elastic APM Service. Возможные значения:
•off – сообщения не передаются;
•errors – сообщения с ошибками;
•transactions – сообщения без ошибок;
•all – все сообщения.
Значение по умолчанию all.
Queues – настройка для очередей RabbitMQ:
•QueueConnection. Строка подключения к брокеру сообщений RabbitMQ в формате amqp://{Имя пользователя}:{Пароль}@{Адрес}:{Порт}/{Virtual Host}, где:
•Virtual Host – виртуальный тенант RabbitMQ. Подробнее см. в документации RabbitMQ статью Virtual Hosts.
Пример значения: amqp://ario:ario12345@localhost:5672/ario;
•MessageTTL. Время хранения сообщений об обработке документов в RabbitMQ в секундах. Значение по умолчанию 86400;
•RetryConnectionCount. Количество повторных попыток подключения к брокеру сообщений. Значение по умолчанию 5.
© Компания Directum, 2024 |