<< Click to Display Table of Contents >> Интеллектуальные возможности > Сервисы Directum Ario > Адаптация сервисов Ario под бизнес-задачи компании > Настройка извлечения фактов Подготовка данных для обучения моделей |
Сервис Directum Fact Extractor Learn Service извлекает из документов значимые факты на основе обучаемых моделей. Чтобы обучить их, подготавливаются наборы данных, свойственные каждому классу документов:
1.Составьте перечень видов документов, извлечение фактов из которых нужно автоматизировать.
2.Подготовьте выборку документов для обучения. Репрезентативной считается выборка:
•которая содержит не менее 400 документов каждого вида той формы (оформления), которая используется в организации. При этом количество документов для каждого формата должно быть равнозначным. Например, когда в организации используются унифицированные и неунифицированные акты выполненных работ, для каждого формата потребуется отобрать не менее 400 документов;
•документы которой корректно разрезаны, не дублируются и имеют уникальные наименования. Корректно разрезанным считается комплект, документы которого разделены в зависимости от принятого в организации способа их хранения и классификации в системе. Если принято хранить документы разного вида как один объект, то исходные файлы могут содержать разные документы. Например, договор и приложение к нему, которые затем классифицируется как «Договор»;
•текст и таблицы в документах не имеют дефектов, которые могут проявляться при сканировании, например засветы, сдвиги текста или размытие границ таблиц.
Чем больше документов, тем выше точность и полнота извлечения фактов в итоговой модели извлечения фактов, но дольше процесс ее обучения.
3.Разместите выборку документов в любой папке. Удобнее размещать документы по подпапкам видов. Пример расположения папки с выборкой входящих писем: C:\Users\ForTraining\Letters.
4.Изучите особенности расположения и написания значимых данных и определите состав фактов, которые нужно извлекать из документов каждого вида.
© Компания Directum, 2024 |