Извлечение фактов из файла
<< Click to Display Table of Contents >> Интеллектуальные возможности > Сервисы Directum Ario > Описание API Ario > Прикладные задачи классификации и извлечения фактов Извлечение фактов из файла |
Извлекать факты из файла можно с помощью асинхронного или синхронного метода. Асинхронный позволяет извлекать факты одновременно из нескольких файлов за счет распараллеливания потоков, при синхронном методе файлы обрабатываются в порядке очереди.
Синтаксис
POST {service_url}/api/factextractor/grammar/{grammarSetname}/extractfileasync
{
"file": "Путь до файла, из которого извлекаются факты",
"PageClassifierId": "ИД классификатора первых страниц",
"ProcessDocumentsCount": "Количество документов для обработки",
"UseFixedForms": "Признак обработки документов жестких форм",
"ConvertFactPositions": "Признак поворота документов",
"Languages": "Языки документов"
"SaveUnprocessedDocuments": "Загрузка в систему необработанных документов из комплекта"
}
Параметры
•file – путь до файла, из которого нужно извлечь факты;
•PageClassifierId – ИД классификатора первых страниц, который нужно использовать при обработке файла;
•ProcessDocumentsCount – количество документов для обработки. Возможные значения: 0 – обрабатываются все документы комплекта, 1 – обрабатывается только первый документ комплекта. Например, если указано значение 1, то для комплекта из четырех документов сервис вернет результат обработки только первого документа. Значение по умолчанию 0;
•UseFixedForms – признак того, что классификатор обрабатывает документы жесткой формы, например паспорта РФ. Возможные значения: true, false. Если распознавать документы с жесткими формами не нужно, для ускорения обработки документов рекомендуется оставить значение по умолчанию false;
•ConvertFactPositions – учитывать поворот документов при получении координат фактов. Возможные значения: true, false. Укажите значение false, если импортируются PDF-документы без предварительной обработки. Если импортируются обработанные PDF-документы, оставьте значение по умолчанию true;
•Languages – языки документов. Значение по умолчанию rus, eng. Другие языки, распознавание которых поддерживают сервисы Ario, добавляются вручную.
•SaveUnprocessedDocuments – признак того, что необработанные документы из комплекта загружаются в систему. Когда в параметре ProcessDocumentsCount установлено значение 1, обрабатывается только первый документ из комплекта. Если в параметре SaveUnprocessedDocuments установлено значение false, все последующие документы из комплекта не загружаются. Если в параметре установлено значение true, они загружаются в систему без текстового слоя с видом «Простой документ» в формате PDF;
Пример запроса
POST http://smart:61100/api/ factextractor/grammar/Letter/extractfileasync
{
"file": Вх.письмо от 05.09 о запросе сведений,
"PageClassifierId": 4,
"ProcessDocumentsCount": 0,
"UseFixedForms": False,
"ConvertFactPositions": False,
"Languages": ["eng", "rus"],
"SaveUnprocessedDocuments": False,
}
Ответ
Содержит основную информацию о задаче на извлечение фактов из документа. Параметры аналогичны параметрам ответа на асинхронный запрос при классификации и извлечении фактов из файла.
Подробную информацию о результате обработки документа можно получить с помощью запроса информации по конкретной задаче обработки.
Синтаксис и параметры при извлечении фактов из документа такие же, как в аналогичном асинхронном запросе.
Ответ
Содержит информацию об извлеченных из файла фактах. Параметры аналогичны параметрам секции extractionResult ответа на синхронный запрос при классификации и извлечении фактов из файла.
© Компания Directum, 2024 |