Дообучение классификатора первых страниц
<< Click to Display Table of Contents >> Объектная модель > Базовое решение Directum RX > SmartProcessing – интеллектуальная обработка Дообучение классификатора первых страниц |
Фоновый процесс StartFirstPageClassifierTraining (Интеллектуальные функции. Обучение классификатора первых страниц) работает следующим образом:
1.Проверяется, есть ли в системе лицензия на модуль Intelligence (Интеллектуальные функции).
2.Проверяется, не запущен ли процесс дообучения для этого классификатора. Если процесс запущен и еще не выполнился, дообучение классификатора повторно не запускается.
3.Отбираются результаты распознавания, ожидающие обучения (значение свойства FirstPageClassifierTrainingStatus равно Awaiting).
4.Из выборки исключаются результаты распознавания сущности, относящиеся к зашифрованным документам (в значении свойства EntityId указан идентификатор зашифрованного документа).
5.Выполняется проверка количества результатов распознавания в обучающей выборке. Для запуска процедуры дообучения должно быть отобрано не менее 10 результатов распознавания. Если общее количество результатов распознавания меньше, они не будут использованы для дообучения классификатора и будут отложены до следующего запуска фонового процесса.
6.Создается сессия дообучения, отобранные результаты распознавания связываются с ней.
7.Формируется CSV-файл с текстами документов, связанных с отобранными результатами распознавания (связь 1 к 1 по полю EntityId):
•каждый документ разделяется по страницам;
•каждой странице присваивается класс First или Not First – первая и не первая страница соответственно, в зависимости от порядка следования в документе;
•из метаинформации о каждой странице извлекается текст;
•в CSV-файл записываются первые N токенов с начала текста каждой страницы. Токен – часть текста, разделенная пробелами или переносами строки: слова, отдельно стоящие знаки препинания и т.п. По умолчанию N = 75, задается в таблице базы данных Sungero_Docflow_Params и конфигурационном файле сервиса Ario TextExtractor;
•если размер CSV-файла превышает максимально допустимое значение, то часть текстов страниц не учитывается и будет взята на дообучение в следующий раз. Если часть страниц документа вошла в обучение, а часть нет, то результат распознавания считается занесенным в обучающую выборку. Таким образом, при следующем запуске фонового процесса дообучение на оставшихся страницах документа, связанного с этим результатом распознавания, выполняться не будет.
8.Отправляется запрос в Directum Ario на асинхронное дообучение классификатора. Записывает ИД задачи Directum Ario в значение свойства ArioTaskId созданной сессии обучения классификатора для дальнейшего отслеживания статуса обучения.
9.Запускается асинхронный обработчик TrainClassifier (Проверка состояния обучения классификатора сервисами Ario).
10.При возникновения ошибки статус отобранных результатов распознавания меняется на Ожидание обучения.
Асинхронный обработчик TrainClassifier (Проверка состояния обучения классификатора сервисами Ario) каждые 5 минут отправляет запрос на получение информации о завершении дообучения классификатора.
Если обучение завершено успешно:
•если модель автопубликуемая, то проверяется F1-мера классификатора после дообучения. Если она ниже минимального возможного для публикации значения, то модель откатывается до той, что была до обучения. Статус сессии меняется на Откат обучения, статус результатов распознавания на Ожидание обучения. Если F1-мера достаточной величины, то статус сессии и статус результатов распознавания меняется на Обучение завершено;
•если модель не автопубликуемая и F1-мера ниже минимального возможного для публикации значения, то модель не публикуется. Статус сессии меняется на Откат обучения, статус результатов распознавания на Ожидание обучения. Если F1-мера достаточной величины, модель публикуется. Статус сессии и статус результатов распознавания меняется на Обучение завершено.
Если в процессе обучения в Ario возникла ошибка, то статус сессии меняется на Возникла ошибка, статус обучения результатов распознавания на «Ожидание обучения».
© Компания Directum, 2024 |