Классификатор по типам документов
<< Click to Display Table of Contents >> Интеллектуальные возможности > Сопровождение интеллектуальной обработки документов > Автоматическое дообучение классификаторов Классификатор по типам документов |
В ходе работы организации заключаются новые контракты и, как следствие, появляются новые формы документов. Поступая в Directum RX на интеллектуальную обработку, такие документы не распознаются или распознаются некорректно, так как классификатор по типам документов «не узнает» форму, на которой он обучен определять класс. Верификатору приходится вручную изменять тип документа и заполнять пустые поля карточки.
Чтобы минимизировать ручные операции проверяющего, система Directum RX автоматически дообучает классификатор по типам на документах организации с помощью фонового процесса «Интеллектуальные функции. Дообучение классификатора по типам документов».
Алгоритм работы фонового процесса
1.Накопление данных для дообучения.
Верификатор вручную меняет тип неклассифицированных документов и выполняет задания на верификацию.
Каждому такому документу в справочнике «Результат распознавания сущности» присваивается статус Ожидание обучения.
2.Проверка классификатора на готовность к обучению.
Фоновый процесс получает ИД классификатора по типам документов, указанного в настройках интеллектуальной обработки, и проверяет, что этот классификатор не обучается на момент запуска процесса. Если классификатор находится в процессе обучения, фоновый процесс завершается, а дообучение откладывается до следующего запуска по расписанию.
3.Отбор документов для дообучения классификатора.
В справочнике Результат распознавания сущности проверяются записи, ожидающие обучения. Среди них отбираются документы, удовлетворяющие условиям:
•накоплено не меньше десяти верифицированных документов;
•документы не зашифрованы.
Отобранные результаты распознавания связываются с созданной записью справочника «Сессия дообучения классификатора». В карточке сессии указывается ИД классификатора, ИД модели классификации до обучения и устанавливается статус Подготовка к обучению. В карточке результата распознавания устанавливается статус В процессе.
4.Подготовка CSV-файла для дообучения.
Фоновый процесс формирует общий для отобранных документов CSV-файл, на основании которого дообучается классификатор, а статус обучения выбранных результатов распознавания меняется на Обучение в процессе. Для равномерного распределения нагрузки на сервисы Ario и сервис асинхронных событий (Worker) или общий сервис (GenericService) размер итогового CSV-файла не превышает заданный лимит, по умолчанию 100 МБ.
СОВЕТ. В зависимости от аппаратно-программного обеспечения сервера и объема обрабатываемых документов лимит можно регулировать в большую или меньшую сторону в таблице базы данных Sungero_Docflow_Params в параметре CsvTrainingDatasetLimit.
Если лимит превышен, то часть результатов, которая не входит в текущий процесс, откладывается до следующего запуска.
5.Отправка запроса на дообучение в Ario.
Фоновый процесс отправляет в сервисы Directum Ario запрос на дообучение, которые в свою очередь ставят набор полученных данных в очередь и передают в систему идентификатор задачи на дообучение.
6.Мониторинг дообучения.
Запускается асинхронный обработчик TrainClassifier, который по ИД задачи Ario раз в 5 минут запрашивает у сервисов статус обучения.
7.Завершение процесса и публикация новой модели классификации.
Когда обучение завершено, полученная в результате дообучения F1-мера сравнивается с эталонным значением, которое задается в таблице базы данных Sungero_Docflow_Params в параметре LowerFMeasureLimit. Если полученный результат:
•больше или равен заданному, то в классификатор публикуется новая, дополненная, модель;
•меньше заданного, новая модель не публикуется, действующей остается предыдущая.
В зависимости от результатов обучения статус записей в справочнике Результат распознавания сущности меняется на Обучение завершено, Возникла ошибка или Ожидание обучения.
Анализ результатов дообучения классификатора по типам
С помощью справочника «Результаты распознавания сущности» администратор может:
•оценить результаты дообучения;
•отменить результаты дообучения, если результаты ухудшаются;
•исключить документы из выборки, отобранной системой для дообучения.
Чтобы оценить изменения точности классификации документов в результате автоматического дообучения классификатора:
1.Из поиска перейдите в справочник Результат распознавания сущности.
2.Отсортируйте результаты распознавания по столбцу Сессия дообучения классификатора в порядке убывания и отфильтруйте так, чтобы был указан Подтвержденный класс.
•если нераспознанных документов становится меньше, значит, модель классификации улучшается;
•если нераспознанных документов становится больше, а форма документов при этом не менялась, значит, модель ухудшилась. В этом случае можно вернуться к исходной модели классификации.
Необходимость отменить результаты автоматического дообучения может возникнуть, когда после цикла дообучения растет число неклассифицированных или классифицированных некорректно документов. Например, акты выполненных работ стали распознаваться в качестве счетов-фактур. Вероятно, при верификации тип документа не был изменен или был изменен неверно.
Чтобы до запуска нового цикла дообучения вернуться к предыдущей модели классификации:
1.Проанализируйте, в какой момент ухудшилась модель классификации.
2.В справочнике Сессия дообучения классификатора откройте запись о сессии, после которой точность классификации снизилась и посмотрите ИД модели до обучения.
3.Опубликуйте модель классификатора, указав в команде ИД модели до обучения.
Исключение документов из выборки на дообучение
Иногда администратор может заранее отследить, что в выборку на дообучение попадут документы, для которых верификатор указал некорректный тип. Такие документы можно исключить из цикла дообучения, чтобы они не привели к ухудшению модели. Для этого откройте справочник Результаты распознавания сущности и в карточке нужной записи на закладке «Дополнительно» очистите поле Статус обучения классификатора по типам.
Примечание. Изменение статуса обучения доступно только сотрудникам, которые входят в роль «Администраторы».
© Компания Directum, 2024 |