Интеллектуальные возможности > Интеллектуальная обработка документов > Сервисы Directum Ario > Адаптация сервисов Ario под бизнес-задачи компании > Настройка извлечения фактов

Сервис Directum Fact Extractor Learn Service извлекает из документов значимые факты на основе обучаемых моделей. Чтобы обучить их, подготавливаются наборы данных, свойственные каждому классу документов:

1.Составьте перечень типов документов, извлечение фактов из которых нужно автоматизировать.

2.Подготовьте выборку документов для обучения. Репрезентативной считается выборка:

•которая содержит не менее 400 документов каждого типа той формы (оформления), которая используется в организации. При этом количество документов для каждого формата должно быть равнозначным. Например, когда в организации используются унифицированные и неунифицированные акты выполненных работ, для каждого формата потребуется отобрать не менее 400 документов;

•документы которой корректно разрезаны, не дублируются и имеют уникальные наименования. Корректно разрезанным считается комплект, документы которого разделены в зависимости от принятого в организации способа их хранения и классификации в системе. Если принято хранить документы разного типа как один объект, то исходные файлы могут содержать разные документы. Например, договор и приложение к нему, которые затем классифицируется как «Договор»;

•текст и таблицы в документах не имеют дефектов, которые могут проявляться при сканировании, например засветы, сдвиги текста или размытие границ таблиц.

Чем больше документов, тем выше точность и полнота извлечения фактов в итоговой модели извлечения фактов, но дольше процесс ее обучения.

3.Разместите выборку документов в любой папке. Удобнее размещать документы по подпапкам типов. Пример расположения папки с выборкой входящих писем: C:\Users\ForTraining\Letters.

4.Изучите особенности расположения и написания значимых данных и определите состав фактов, которые нужно извлекать из документов каждого типа.

Подготовка данных для обучения моделей

Подготовка данных для обучения моделей