Интеллектуальные возможности > Интеллектуальная обработка документов > Сервисы Directum Ario > Описание API Ario > Прикладные задачи извлечения текстового слоя

Извлекать текстовый слой из документов можно с помощью асинхронного или синхронного метода. Асинхронный метод используется разработчиками для управляемого извлечения за счет распараллеливания потоков. Синхронный метод используется администраторами для упрощенного извлечения за счет минимального количества действий со стороны администратора.

Асинхронный метод

Синтаксис

POST {{service_url}}/api/textextractor/extractfileasync
{
"file": "Путь до файла, из которого извлекается текстовый слой",
"PageClassifierId": "ИД классификатора первых страниц",
"ProcessDocumentsCount": "Количество документов для обработки",
"UseFixedForms": "Признак обработки документов жестких форм",
"Languages": "Языки документов",
"SaveUnprocessedDocuments": "Загрузка в систему необработанных документов из комплекта"
}

Параметры

•file – путь до файла, из которого нужно извлечь текстовый слой;

•PageClassifierId – ИД классификатора первых страниц, который нужно использовать при обработке документа;

•ProcessDocumentsCount – количество документов для обработки. Возможные значения: 0 – обрабатываются все документы комплекта, 1 – обрабатывается только первый документ комплекта. Например, если указано значение 1, то для комплекта из четырех документов сервис вернет результат обработки только первого документа. Значение по умолчанию 0;

•UseFixedForms – признак того, что классификатор обрабатывает документы жесткой формы, например паспорта РФ. Не рекомендуется менять значение по умолчанию false;

•Languages – языки документов. Значение по умолчанию rus, eng. Другие языки, распознавание которых поддерживают сервисы Ario, добавляются вручную;

•SaveUnprocessedDocuments – признак того, что необработанные документы из комплекта загружаются в систему. Когда в параметре ProcessDocumentsCount установлено значение 1, обрабатывается только первый документ из комплекта. Если в параметре SaveUnprocessedDocuments установлено значение false, все последующие документы из комплекта не загружаются. Если в параметре установлено значение true, они загружаются в систему без текстового слоя с типом «Простой документ» в формате PDF.

Пример запроса

POST http://smartstable:61100/api/textextractor/extractfileasync
{
"file": Акт 56,
"PageClassifierId": 4,
"ProcessDocumentsCount": 0,
"UseFixedForms": False,
"Languages": ["eng", "rus"],
"SaveUnprocessedDocuments": False
}

Ответ

Содержит основную информацию о задаче на извлечение текстового слоя:

{
"taskId": 56350,
"state": 1,
"started": "2023-11-29T15:18:46.5000132+04:00",
"finished": null
}

Где:

•taskId – ИД задачи на обработку документа;

•state – состояние задачи. Возможные значения: 0 – новая задача, 1 – задача не завершена, 2 – задача завершена, 3 – произошла ошибка, 4 – обучение завершено, 5 – задача прекращена;

•started – дата и время начала выполнения задачи;

•finished – дата и время окончания задачи. Если обработка еще не завершена, параметр имеет значение null.

Подробную информацию о результате извлечения текстового слоя можно получить с помощью запроса информации по конкретной задаче на извлечение текстового слоя.

Синхронный метод

Синтаксис и параметры при извлечении текстового слоя такие же, как в аналогичном асинхронном запросе.

Ответ

Содержит основную информацию о задаче на извлечение текстового слоя:

{
"results": [
{
"text": "ПРОТОКОЛ \n№8 \nПОСТАНОВИЛИ:",
"pages": [...],
"guid": "312d9203-1294-44ac-863b-43366ee60528",
"tables": [...],
"classificationResult": null,
"additionalClassificationResult": null,
"extractionResult": null,
"stamps": [...],
"signatures": [...],
"textSegments": null
}
]
}

Где:

•text – извлеченный текст;

•pages – секция с информацией о страницах документа;

•guid – уникальный идентификатор PDF-документа, сконвертированного сервисами Directum Ario;

•tables – секция с информацией о таблицах в документе;

•classificationResult – секция с результатами классификации файла основным классификатором. Для этого запроса всегда принимает значение null;

•additionalClassificationResult – секция с информацией о результатах классификации файла дополни тельными классификаторами. Для этого запроса параметр всегда принимает значение null;

•extractionResult – секция с результатами извлечения фактов из файла. Для этого запроса параметр всегда принимает значение null;

•stamps – секция с информацией об извлеченных штампах. Подробнее описание секции см. в разделе «Классификация и извлечение фактов из файла» в подразделе «Синхронный метод» в описании одноименной секции;

•signatures – секция с информацией об извлеченных подписях. Подробнее описание секции см. в разделе «Классификация и извлечение фактов из файла» в подразделе «Синхронный метод» в описании одноименной секции;

•textSegments – секция с информацией о текстовых сегментах. Для этого запроса параметр всегда принимает значение null.

Извлечение текстового слоя

Извлечение текстового слоя