<< Click to Display Table of Contents >> Интеллектуальные возможности > Сервисы Directum Ario > Описание API Ario > Прикладные задачи извлечения текстового слоя Извлечение текстового слоя |
Извлекать текстовый слой из документов можно с помощью асинхронного или синхронного метода. Асинхронный метод используется разработчиками для управляемого извлечения за счет распараллеливания потоков. Синхронный метод используется администраторами для упрощенного извлечения за счет минимального количества действий со стороны администратора.
Синтаксис
POST {{service_url}}/api/textextractor/extractfileasync
{
"file": "Путь до файла, из которого извлекается текстовый слой",
"PageClassifierId": "ИД классификатора первых страниц",
"ProcessDocumentsCount": "Количество документов для обработки",
"UseFixedForms": "Признак обработки документов жестких форм",
"Languages": "Языки документов"
"SaveUnprocessedDocuments": "Загрузка в систему необработанных документов из комплекта"
}
Параметры
•file – путь до файла, из которого нужно извлечь текстовый слой;
•PageClassifierId – ИД классификатора первых страниц, который нужно использовать при обработке документа;
•ProcessDocumentsCount – количество документов для обработки. Возможные значения: 0 – обрабатываются все документы комплекта, 1 – обрабатывается только первый документ комплекта. Например, если указано значение 1, то для комплекта из четырех документов сервис вернет результат обработки только первого документа. Значение по умолчанию 0;
•UseFixedForms – признак того, что классификатор обрабатывает документы жесткой формы, например паспорта РФ. Возможные значения: true, false. Если распознавать документы с жесткими формами не нужно, для ускорения обработки документов рекомендуется оставить значение по умолчанию false;
•Languages – языки документов. Значение по умолчанию rus, eng. Другие языки, распознавание которых поддерживают сервисы Ario, добавляются вручную;
•SaveUnprocessedDocuments – признак того, что необработанные документы из комплекта загружаются в систему. Когда в параметре ProcessDocumentsCount установлено значение 1, обрабатывается только первый документ из комплекта. Если в параметре SaveUnprocessedDocuments установлено значение false, все последующие документы из комплекта не загружаются. Если в параметре установлено значение true, они загружаются в систему без текстового слоя с видом «Простой документ» в формате PDF.
Пример запроса
POST http://smartstable:61100/api/textextractor/extractfileasync
{
"file": Акт 56,
"PageClassifierId": 4,
"ProcessDocumentsCount": 0,
"UseFixedForms": False,
"Languages": ["eng", "rus"],
"SaveUnprocessedDocuments": False,
}
Ответ
Содержит основную информацию о задаче на извлечение текстового слоя:
{
"taskId": 56350,
"state": 1,
"started": "2023-11-29T15:18:46.5000132+04:00",
"finished": null
}
Где:
•taskId – ИД задачи на обработку документа;
•state – состояние задачи. Возможные значения: 0 – новая задача, 1 – задача не завершена, 2 – задача завершена, 3 – произошла ошибка, 4 – обучение завершено, 5 – задача прекращена;
•started – дата и время начала выполнения задачи;
•finished – дата и время окончания задачи. Если обработка еще не завершена, параметр имеет значение null.
Подробную информацию о результате извлечения текстового слоя можно получить с помощью запроса информации по конкретной задаче на извлечение текстового слоя.
Синтаксис и параметры при извлечении текстового слоя такие же, как в аналогичном асинхронном запросе.
Ответ
Содержит основную информацию о задаче на извлечение текстового слоя:
{
"results": [
{
"text": "ПРОТОКОЛ \n№8 \nПОСТАНОВИЛИ:",
"pages": [...],
"guid": "312d9203-1294-44ac-863b-43366ee60528",
"tables": [...],
"classificationResult": null,
"additionalClassificationResult": null,
"extractionResult": null,
"stamps": [...],
"signatures": [...],
"textSegments": null
}
]
}
Где:
•text – извлеченный текст;
•pages – секция с информацией о страницах документа;
•guid – уникальный идентификатор PDF-документа, сконвертированного сервисами Directum Ario;
•tables – секция с информацией о таблицах в документе;
•classificationResult – секция с результатами классификации файла основным классификатором. Для этого запроса всегда принимает значение null;
•additionalClassificationResult – секция с информацией о результатах классификации файла дополни тельными классификаторами. Для этого запроса параметр всегда принимает значение null;
•extractionResult – секция с результатами извлечения фактов из файла. Для этого запроса параметр всегда принимает значение null;
•stamps – секция с информацией об извлеченных штампах. Подробнее описание секции см. в разделе «Классификация и извлечение фактов из файла» в подразделе «Синхронный метод» в описании одноименной секции;
•signatures – секция с информацией об извлеченных подписях. Подробнее описание секции см. в разделе «Классификация и извлечение фактов из файла» в подразделе «Синхронный метод» в описании одноименной секции;
•textSegments – секция с информацией о текстовых сегментах. Для этого запроса параметр всегда принимает значение null.
"pages": [ Содержит информацию о страницах документа: •text – извлеченный текст; •metadata – секция с информацией о метаданных страницы: •number – порядковый номер страницы; •width – ширина страницы документа; •height – высота страницы документа; •length – длина страницы. Всегда принимает значение 0; •type – вид объекта из запроса; •pageOrder – информация о порядке следования страницы. |
"tables": [ Содержит информацию о таблицах в документе: •number – порядковый номер таблицы; •rows – количество строк в таблице; •cols – количество колонок в таблице; •area – область таблицы; •isVirtualTable – признак того, что в документе есть мнимые таблицы. Возможные значения: true, false; •position – секция с детальной информацией о таблице в извлеченном текстовом слое. Подробнее описание секции см. в разделе «Классификация и извлечение фактов из файла» в подразделе «Синхронный метод» в описании одноименной секции; •cells – секция с информацией о ячейках. |
"cells": [ Содержит информацию о ячейках в таблице: •row – строка; •col – колонка; •value – обработанное значение, извлеченное из текста; •confidence – коэффициент уверенности в извлеченном текстовом слое. Возможные значения: от 0 до 100; •position – секция с детальной информацией о таблице в извлеченном текстовом слое. Подробнее описание секции см. в разделе «Классификация и извлечение фактов из файла» в подразделе «Синхронный метод» в описании одноименной секции. |
© Компания Directum, 2024 |