<< Click to Display Table of Contents >> Интеллектуальные возможности > Сервисы Directum Ario Архитектура сервисов Ario |
Directum Ario – система сервисов, основанная на инструментах искусственного интеллекта и предназначенная для распознавания значимых фактов в документах. Сервисы Directum Ario доступны в локальной поставке, которая предоставляет расширенные возможности адаптации сервисов, позволяя вносить изменения в их базовые механизмы.
Сервисы Directum Ario созданы при помощи кроссплатформенных инструментов – платформы .Net Core и языка Python. Обработка результатов распознавания выполняется во внешних системах, для интеграции с которыми используется REST API.
Сервисы Directum Ario поддерживают работу как на Microsoft Windows, так и на операционных системах на базе Linux.
Directum Smart Service (DSS) – управляющий сервис системы, предоставляющий доступ к интеллектуальным механизмам. Он выполняет следующие функции:
•организация взаимодействия сервисов Ario. Взаимодействие реализуется посредством обмена сообщениями через менеджер RabbitMQ;
•обработка запросов на распознавание документов от внешней системы.
Состав сервисов Ario
Directum Ario включает в себя следующие сервисы:
•Directum Identity Service (DIS) реализует авторизацию и аутентификацию пользователей в Directum Ario. Сервис отвечает за создание и хранение учетных записей, а также выдачу и валидацию токенов доступа. Это позволяет управлять доступом к данным и обеспечивает дополнительную безопасность.
При запуске сервисов Ario управляющий сервис запрашивает у DIS ключ для валидации токенов. Если сервисы установлены локально или в частном облаке, дополнительно запрашивается токен анонимного пользователя для работы без авторизации.
Авторизация позволяет ограничить права доступа на:
•результаты классификации;
•результаты извлечения фактов;
Признак использования аутентификации системы устанавливается в конфигурационном файле сервиса Directum Smart Service;
•Directum Image Classifier Service (DICS) определяет документы жестких форм и ориентацию страниц;
•Directum Object Detection Service (DODS) определяет наличие и местоположение подписей на документе. При обработке документа сервис возвращает информацию о позиции объекта в документе: номер страницы, на которой расположен объект, а также его абсолютную позицию в пикселях относительно размера этой страницы;
•Directum Text Extractor Service (DTES):
•извлекает текст из изображений и текстовых документов. Поддерживаемые форматы: JPG, JPEG, PNG, BMP, GIF, TIF, TIFF, PDF, DOC, DOCX, DOT, DOTX, RTF, ODT, OTT, TXT, XLS, XLSX, ODS;
•выполняет предварительную обработку изображений и постобработку текста: делит файл на несколько документов, конвертирует документы в формат PDF с текстовым слоем для поиска по тексту документов;
•извлекает метаданные (позиции слов, блоков текста) и сохраняет их в PDF-документ. Извлеченные данные используются повторно, если в документ не добавлялся текст, не менялись ориентация страниц и язык распознавания;
•определяет местоположение печатей и таблиц.
•Directum Document Disassembler Service (DDDS) разбивает документы на отдельные страницы, которые отправляет на обработку;
•Directum Document Assembler Service (DDAS) объединяет отдельно обработанные страницы в документ;
•Directum Text Classifier Service (DTCS) обучает классификаторы, создает модели классификации и классифицирует документы в разных разрезах, например по видам: договоры, служебные записки, акты, приказы и т.д. Создание, обучение и дообучение классификаторов выполняется при помощи HTTP-запросов к REST API. Например, их удобно выполнять в Postman;
•Группа сервисов Directum Fact Extractor Services включает в себя:
•Directum Fact Extractor Base Service (DFES-B), который рассчитывает вероятность правильного извлечения данных из текста и приводит факты к единому формату, например, удаляет лишние символы или изменяет регистр текста;
•Directum Fact Extractor Rules Service (DFES-R), который извлекает факты, в том числе данные таблиц, на основе правил;
•Directum Fact Extractor Learn Service (DFES-L), который извлекает факты на основе обучаемых моделей. Подготовить документы для обучения модели можно с помощью разметки в приложении AVIA.
•Directum Storage Service (DSS) хранит большие объемы данных, за счет чего уменьшается размер сообщений, которые сервисы Ario передают друг другу. Таким образом ускоряется обработка запросов сервисами Ario;
•Directum Publishing Service (DPS) импортирует и экспортирует прикладную конфигурацию сервисов Ario, облегчая ее доработку и обновление;
•Directum Elastic APM Service (APM) отслеживает запросы между всеми перечисленными сервисами при обработке документов и измеряет скорость работы. Результаты обработки запросов записываются в файлы трассировки, которые можно проанализировать с помощью интерфейса Kibana.
На операционных системах Windows для управления сервисами используются:
•для сервисов на базе .Net Core – службы Internet Information Services (IIS);
•для Python-сервисов – службы Windows с использованием Web-сервера AIOHTTP.
На операционных системах на базе Linux каждый сервис разворачивается в отдельном Docker-контейнере. Для отслеживания метрик контейнеров используется веб-приложение Grafana. Собранные метрики передаются для хранения в базу данных InfluxDB при помощи агента Telegraf.
Для повышения производительности в системах с большим объемом входящего документопотока рекомендуется установить часть сервисов Ario на отдельных серверах. Подробнее см. в системных требованиях сервисов Ario, подраздел «Обработка более 90 000 документов в месяц».
© Компания Directum, 2024 |