<< Click to Display Table of Contents >> Интеллектуальные возможности > Сервисы Directum Ario > Адаптация сервисов Ario под бизнес-задачи компании Настройка извлечения фактов |
После того, как сервис Directum Text Extractor Service извлек текстовый слой, а сервис Directum Text Classifier Service классифицировал документ, к интеллектуальной обработке подключается группа сервисов Directum Fact Extractor Services. Они извлекают из текстового слоя значимые факты. Именно они впоследствии передаются в JSON или XML-файле в информационную систему организации, и на их основе заполняются поля карточки документа.
Извлечение фактов настраивается в зависимости от потребностей организации. Возможны несколько случаев:
1.Для обработки документов достаточно базовых моделей извлечения фактов. Например, когда в вашей организации используются виды документов, которые входят в поставку. При этом документы оформляются по общепринятой форме. В этом случае достаточно импортировать базовые модели извлечения фактов и настроить информационную систему, например Directum RX или другую систему любого класса, на работу с сервисами Directum Ario. Импорт моделей администратор выполняет на этапе установки или обновления сервисов.
2.Базовые модели извлечения фактов в целом закрывают потребности, но нужны доработки: добавление в существующую модель новых фактов или обучение моделей на реальных документах организации для повышения точности и полноты извлечения. В этом случае дообучите базовые модели извлечения фактов.
ВАЖНО. Чтобы дообучить модели извлечения фактов для документов жесткой формы, например паспортов, обратитесь к компании-вендору. Для других документов дообучать модели можно самостоятельно.
3.Базовые модели извлечения фактов совсем не закрывают потребностей:
•если нужно извлекать факты из других видов документов,создайте новую грамматику и обучите новую модель извлечения фактов;
•если в организации принято оформление документов из поставки, отличное от общепринятых форматов, то обучите новую модель извлечения фактов в рамках существующей базовой грамматики.
Обучение и дообучение модели извлечения фактов с помощью запросов к API
Чтобы группа сервисов Directum Fact Extractor Services извлекала из документов значимые факты, необходимо обучить модель извлечения фактов. После обучения эта модель включается в соответствующую грамматику. Для этого:
1.Создайте грамматику. Если дообучаете существующую модель извлечения фактов, то пропустите шаг.
2.Подготовьте документы организации для обучения модели.
3.Разметьте документы с помощью визуального редактора Ario Visual Image Annotator (AVIA) и экспортируйте разметку в формате BIO для последующего обучения модели. Порядок разметки и ее экспорта см. в инструкции по использованию приложения AVIA. Входит в комплект поставки.
4.Обучите или дообучите модель.
5.Проанализируйте результаты обучения.
6.Протестируйте грамматику с помощью запроса на извлечение фактов из файла.
При тестировании обученной модели используйте рекомендации:
•количество документов должно составлять 10% от общего количества документов, участвовавших в обучении или дообучении. Например, если модель обучена на 400 документах, то для объективного тестирования потребуется 40 документов вида, на котором обучена модель;
•отобранные для тестирования документы не должны входить в исходную выборку, на которой проводилось обучение или дообучение.
Если результаты тестирования неудовлетворительные, например в документах извлеклись не все факты, то дообучите модель.
7.Если обучение выполнялось на тестовом стенде, перенесите модели на продуктивный стенд.
8.При необходимости для постобработки фактов подключите форматеры из базовой поставки или создайте свои.
© Компания Directum, 2024 |