<< Click to Display Table of Contents >> Интеллектуальные возможности > Сервисы Directum Ario > Описание API Ario > Прикладные задачи извлечения текстового слоя Извлечение текстового слоя с координатами слов |
Запрос для извлечения текстового слоя, а также определения координат слов в тексте.
Синтаксис
POST {{service_url}}/api/textextractor/gettextwithpositions
{
"file": "Путь до файла, из которого извлекается текстовый слой",
"PageClassifierId": "ИД классификатора первых страниц",
"ProcessDocumentsCount": "Количество документов для обработки",
"UseFixedForms": "Признак обработки документов жестких форм",
"Languages": "Языки документов"
"SaveUnprocessedDocuments": "Загрузка в систему необработанных документов из комплекта"
}
Параметры при извлечении текстового слоя с координатами слов такие же, как в асинхронном запросе на извлечение текстового слоя.
Пример запроса
POST http://smartstable:61100/api/textextractor/gettextwithpositions
{
"file": Акт 56,
"PageClassifierId": 4,
"ProcessDocumentsCount": 0,
"UseFixedForms": False,
"Languages": ["eng", "rus"],
"SaveUnprocessedDocuments": False,
}
Ответ
Содержит основную информацию о результате извлечения текстового слоя с координатами слов:
{
"results": [
{
"textSegments": [...]
"tables": [...],
"pages": [...]
"guid": "8844ec2a-cd03-4036-a3e8-5b7446ca1bc5"
}
]
}
Где:
•textSegments – секция с информацией о текстовых сегментах с их позициями;
•tables – секция с детальной информацией о таблице в извлеченном текстовом слое. Подробнее описание секции см. в разделе «Извлечение текстового слоя» в подразделе «Синхронный метод» в описании одноименной секции;
•pages – секция с информацией о страницах документа. Подробнее описание секции см. в разделе «Извлечение текстового слоя» в подразделе «Синхронный метод» в описании одноименной секции;
•guid – уникальный идентификатор PDF-документа, сконвертированного сервисами Directum Ario.
"textSegments": [ Содержит информацию о текстовых сегментах с их позициями: •text – извлеченный текст; •position – секция с детальной информацией о позиции извлеченного текста. Подробнее описание секции см. в разделе «Классификация и извлечение фактов» в подразделе «Синхронный метод» в описании одноименной секции; •confidence – коэффициент уверенности в извлеченном текстовом слое. Возможные значения: от 0 до 100. |
© Компания Directum, 2024 |