Классификатор первых страниц
<< Click to Display Table of Contents >> Интеллектуальные возможности > Сопровождение интеллектуальной обработки документов > Автоматическое дообучение классификаторов Классификатор первых страниц |
На верификацию в Directum RX могут приходить «склеенные» или некорректно разделенные документы. Например, входящее письмо и приложение к нему заносятся одним файлом. Это может происходить из-за ошибок базовой логики разделения комплекта, которое выполняется классификатором первых страниц, а также в ситуациях, когда логика разделения комплектов в организации отличается от базовой. В таких случаях верификатору приходится тратить время на создание новых документов внутри комплекта и перемещение в них нужных страниц.
Чтобы минимизировать ошибки разделения документов, система Directum RX автоматически дообучает классификатор первых страниц с помощью фонового процесса «Интеллектуальные функции. Дообучение классификатора первых страниц».
Алгоритм работы фонового процесса
1.Накопление данных для дообучения.
Верификатор исправляет ошибки занесения комплектов в систему: с помощью перекомплектования создает новый документ, в который перемещает нужные страницы, и завершает проверку комплекта.
Для каждого нового документа создается запись в справочнике «Результат распознавания сущности» , которой присваивается статус Ожидание обучения, а в поле Верифицированная версия указывается последняя проверенная версия документа, созданного с помощью перекомплектования.
2.Проверка классификатора на готовность к обучению.
Фоновый процесс получает ИД классификатора первых страниц, указанного в настройках интеллектуальной обработки, и проверяет, что классификатор не обучается на момент запуска процесса. Если классификатор находится в процессе обучения, фоновый процесс завершается, а дообучение откладывается до следующего запуска по расписанию.
3.Получение документов для дообучения классификатора.
В справочнике Результат распознавания сущности проверяется записи для классификатора первых страниц, ожидающие обучения. При этом для дообучения должно быть накоплено не меньше десяти верифицированных незашифрованных документов.
Полученные результаты распознавания связываются с созданной записью справочника «Сессия дообучения классификатора». В карточке сессии указывается ИД классификатора, ИД модели классификации до обучения и устанавливается статус Подготовка к обучению. В карточке результата распознавания устанавливается статус В процессе.
4.Формирование CSV-файла для дообучения.
Фоновый процесс формирует общий для отобранных документов CSV-файл, на основании которого дообучается классификатор первых страниц. Статус обучения соответствующих результатов распознавания меняется на Обучение в процессе.
CSV-файл содержит информацию о классах First и Not First. В класс First попадает текстовый слой только первых страниц, созданных с помощью перекомплектования документов, а в класс Not First – текстовый слой всех остальных. При этом из каждой страницы по умолчанию на дообучение попадает 75 слов с пробелами и знаками препинания. Количество слов, которые будут использоваться для определения начала нового документа, можно изменить. Для этого укажите нужное значение в конфигурационном файле сервиса Directum Text Extractor Service в параметре PageClassifierWordsCount и в таблице базы данных Sungero_Docflow_Params в параметре CsvTrainingTokensPerPageLimit.
Кроме того, для равномерного распределения нагрузки на сервисы Ario и сервис асинхронных событий (Worker) или общий сервис (GenericService) размер итогового CSV‑файла не превышает лимит по умолчанию 100 МБ.
СОВЕТ. В зависимости от аппаратно-программного обеспечения сервера и объема обрабатываемых документов лимит можно регулировать в большую или меньшую сторону в таблице базы данных Sungero_Docflow_Params в параметре CsvTrainingDatasetLimit.
Если лимит превышен, то часть результатов, которая не входит в текущий процесс, откладывается до следующего запуска.
5.Отправка запроса на дообучение в Ario.
Фоновый процесс отправляет в сервисы Directum Ario запрос на дообучение, которые помещают данные в очередь и передают в систему идентификатор задачи на дообучение.
6.Мониторинг дообучения.
Запускается асинхронный обработчик TrainClassifier, который по ИД задачи Ario раз в 5 минут запрашивает у сервисов статус обучения.
7.Завершение процесса и публикация новой модели классификации первых страниц.
Когда обучение завершено, полученная в результате дообучения F1-мера сравнивается с эталонным значением, которое задается в таблице базы данных Sungero_Docflow_Params в параметре FirstPageClassifierLowerFMeasureLimit. Если полученный результат:
•больше или равен заданному, то в классификатор публикуется новая, дополненная, модель;
•меньше заданного, новая модель не публикуется, действующей остается предыдущая.
В зависимости от результатов обучения статус записей в справочнике Результат распознавания сущности меняется на Обучение завершено, Возникла ошибка или Ожидание обучения.
Анализ результатов дообучения классификатора по типам
С помощью справочника «Результаты распознавания сущности» администратор может:
•оценить результаты дообучения;
•отменить результаты дообучения, если результаты ухудшаются;
•исключить документы из выборки, отобранной системой для дообучения.
Чтобы оценить изменения в разделении документов в результате автоматического дообучения классификатора:
1.Из поиска перейдите в справочник Результат распознавания сущности.
2.Отфильтруйте столбец Статус обучения классификатора первых страниц так, чтобы в фильтр попадали все значения, кроме пустых. После чего отсортируйте записи справочника по столбцу ИД сущности в порядке убывания.
3.В полученном списке проанализируйте, какое количество результатов распознавания попало в последнюю сессию дообучения: для таких записей должно быть заполнено поле Сессия обучения классификатора первых страниц.
4.В этом же списке проанализируйте, какое количество результатов распознавания попадет в текущую сессию дообучения: для таких записей поле Сессия дообучения классификатора первых страниц должно быть пустым:
•если результатов, попадающих в выборку на дообучение, становится меньше, значит, количество документов, созданных с помощью перекомплектования, уменьшается, а модель классификации улучшается;
•если результатов, попадающих на дообучение, становится больше, а логика разделения документов в организации при этом не менялась, значит, модель ухудшается. В этом случае можно вернуться к исходной модели классификации.
Необходимость отменить результаты автоматического дообучения может возникнуть, когда после цикла дообучения растет число неразделенных документов. Например, если раньше на 10 занесений документов в систему приходилось одно ошибочное, то теперь количество «склеенных» документов выросло.
Чтобы до запуска нового цикла дообучения вернуться к предыдущей модели классификации:
1.Проанализируйте, в какой момент ухудшилась модель классификации.
2.В справочнике Сессия дообучения классификатора откройте запись о сессии, после которой точность разделения документов снизилась и посмотрите ИД модели до обучения.
3.Опубликуйте модель классификатора, указав в команде ИД модели до обучения.
Исключение документов из выборки на дообучение
Иногда администратор может заранее отследить, что в выборку на дообучение попадут документы, в которых верификатор разделил документы, не требующие деления. Например, каждое приложение к входящему письму выделил в отдельный документ, а по логике работы с комплектами в организации все приложения должны заноситься одним файлом. Такие документы можно исключить из цикла дообучения, чтобы они не привели к ухудшению модели. Для этого откройте справочник Результаты распознавания сущности и в карточке нужной записи на закладке «Дополнительно» очистите поле Статус обучения классификатора первых страниц.
ПРИМЕЧАНИЕ. Изменение статуса обучения доступно только сотрудникам, которые входят в роль «Администраторы».
© Компания Directum, 2024 |