<< Click to Display Table of Contents >> Объектная модель > Базовое решение Directum RX > SmartProcessing – интеллектуальная обработка Дообучение классификатора по типам документов |
Фоновый процесс StartClassifierTraining (Интеллектуальные функции. Обучение классификатора по типу документов) работает следующим образом:
1.Проверяет, есть ли в системе лицензия на модуль Intelligence (Интеллектуальные функции).
2.Проверяет, не запущен ли процесс дообучения для этого классификатора. Если процесс был запущен и еще не выполнился, дообучение классификатора повторно не запускается.
3.Отбирает данные для обучения по следующим критериям:
•документы не должны быть зашифрованными;
•количество документов в выборке для обучения должно быть не меньше 10. Если документов в классе меньше, они не используются для дообучения классификатора и откладываются до следующего запуска фонового процесса.
4.Создает сессию дообучения, связывает с ней отобранные результаты распознавания.
5.Формирует CSV-файл с текстами отобранных документов. Если размер CSV-файла превышает максимально допустимое значение, то часть документов не учитывается и будет взята на дообучение в следующий раз.
6.Отправляет запрос в Directum Ario на асинхронное дообучение классификатора. Записывает ИД задачи Directum Ario для дальнейшего отслеживания статуса обучения.
7.Запускает асинхронный обработчик TrainClassifier, который проверяет состояние обучения классификатора сервисами Ario.
8.При возникновения ошибки статус отобранных результатов распознавания сбрасывается на Ожидание обучения.
Асинхронный обработчик TrainClassifier каждые 5 минут отправляет запрос на получение информации о завершении дообучения классификатора.
Если обучение завершено успешно и модель автопубликуемая, то проверяется F1-мера классификатора после дообучения. Если она ниже минимального возможного для публикации значения, то модель возвращается до предыдущей, статус сессии меняется на Откат обучения, статус результатов распознавания на Ожидание обучения. Если F1-мера достаточной величины, то статус сессии и статус результатов распознавания меняется на Обучение завершено.
Если модель не автопубликуемая и F1-мера ниже минимального возможного для публикации значения, то модель не публикуется, статус сессии меняется на Откат обучения, статус результатов распознавания на Ожидание обучения. Если F1-мера достаточной величины, то модель публикуется, статус сессии и статус результатов распознавания меняется на Обучение завершено.
Если в процессе обучения в сервисах Directum Ario возникла ошибка, то статус сессии меняется на Возникла ошибка, статус обучения результатов распознавания на Ожидание обучения.
© Компания Directum, 2024 |