<< Click to Display Table of Contents >> Интеллектуальные возможности > Сопровождение интеллектуальной обработки документов Автоматическое дообучение классификаторов |
Чтобы оптимизировать верификацию документов, а также минимизировать ошибки занесения документов в систему, нужно периодически дообучать классификатор по типам документов и классификатор первых страниц.
Ручное дообучение занимает продолжительное время, так как требует от администратора выполнения целого ряда действий: подготовки выборки документов, инициации обучения, анализа результатов, тестирования и переноса новой модели в продуктивную систему. В поставке Directum RX Intelligence дообучение классификаторов автоматизировано и выполняется с помощью фоновых процессов для:
•входящих писем;
•входящих счетов;
•товарных накладных;
•актов выполненных работ;
•счетов-фактур полученных, в том числе корректировочных и исправленных;
•универсальных передаточных документов, в том числе корректировочных и исправленных;
•договоров и дополнительных соглашений.
Автоматическое дообучение разгружает администратора, так как ему остается только отслеживать процесс и контролировать его результаты.
ВАЖНО. Автоматическое дообучение классификаторов возможно только при наличии лицензии на модуль «Интеллектуальные функции» и установленных сервисах Directum Ario версий 2.0 и выше.
Фоновые процессы запускаются по расписанию. Чтобы не влиять на производительность системы и не мешать работе пользователей, по умолчанию один раз в неделю: для классификатора по типам документов – в субботу, для классификатора первых страниц – в воскресенье.
СОВЕТ. При изменении расписания по умолчанию сохраняйте интервал между фоновыми процессами по дообучению в минимум 4 часа. Это необходимо для распределения нагрузки на систему.
Справочник «Сессия дообучения классификатора»
О каждом запущенном процессе дообучения автоматически формируется запись справочника Сессия дообучения классификатора. Справочник не отображается в проводнике веб-клиента, а перейти к нему можно из поиска:
СОВЕТ. Чтобы быстро найти запись о сессии дообучения конкретного классификатора, на панели настройки внешнего вида добавьте отображение поля Тип и ИД классификатора.
Запись справочника содержит основные сведения о ходе процесса дообучения:
•Тип классификатора, который отправляется на дообучение. Возможные значения: По типам документов, Первых страниц;
•ИД задачи Ario на дообучение классификатора, по которой асинхронный обработчик TrainClassifier раз в 5 минут запрашивает у сервисов статус процесса;
•Статус сессии дообучения. Возможные значения:
•Подготовка данных – устанавливается в момент формирования новой сессии дообучения: при отборе результатов распознавания на дообучение. В карточке каждого отобранного результата распознавания сохраняется ссылка на сессию обучения;
•Обучение в процессе – сформирован CSV-файл и отправлен запрос на дообучение в сервисы Ario. В карточку сессии сохраняется ИД задачи в Ario;
•Обучение завершено – модель классификации обучена и ее F1-мера больше или равна эталонной;
•Отмена обучения – модель классификации обучена, но ее F1-мера меньше эталонной. В этом случае новая модель с неудовлетворительными результатами дообучения не публикуется, действующей остается предыдущая;
•Возникла ошибка – сессия дообучения завершена с ошибкой. Проанализируйте сообщения с префиксом ClassifierTraining в лог-файле общего сервиса или сервиса асинхронных событий;
•F1-мера – мера успешности обучения модели, которая отображает гармоническое среднее между точностью (precision) и полнотой (recall). При сравнении полученной в результате дообучения модели F1-меры с эталонной делается вывод о результатах обучения. Эталонное значение, при котором считается, что модель обучена отлично, задается в таблице базы данных Sungero_Docflow_Params:
•для классификатора по типам документов – в параметре LowerFMeasureLimit. По умолчанию равен 0,95;
•для классификатора первых страниц – в параметре FirstPageClassifierLowerFMeasureLimit. По умолчанию равен 0,9;
•ИД классификатора, который обучался в рамках фонового процесса;
•ИД модели до обучения – идентификатор модели классификации, действующей на момент запуска сессии дообучения;
•ИД модели после обучения – идентификатор модели классификации, полученной в результате сессии дообучения. Если результат дообучения меньше эталонного, и новая модель классификации не опубликована, поле остается пустым.
© Компания Directum, 2024 |