<< Click to Display Table of Contents >> Интеллектуальные возможности > Сопровождение интеллектуальной обработки документов Результаты обработки документов |
Результаты обработки каждого документа автоматически фиксируются в справочнике Результаты распознавания сущности. Справочник не отображается в проводнике веб-клиента. Перейти к нему можно из поиска:
Записи справочника создаются системой при интерпретации результатов распознавания и используются:
•для заполнения полей в карточке документа;
•для подсветки полей в карточке документа и области предпросмотра;
•для выделения факта в области предпросмотра при нажатии на соответствующее ему поле в карточке.
Запись справочника содержит информацию об основных свойствах документа и подробные сведения о распознанных фактах и полях. На закладке «Дополнительно» отображается информация о сессиях автоматического дообучения классификаторов по типам и первых страниц, в которых участвовал документ, а также информация по дополнительным классификаторам, если они использовались при распознавании.
В карточке отображается информация о классификации документа сервисами Ario:
•ИД сущности. ИД документа в Directum RX;
•Распознанный класс. Наиболее вероятный класс документа согласно классификатору сервисов Ario. Это же значение автоматически указывается в поле Имя;
•Тип сущности. Уникальный ИД (GUID) типа документа. Система определяет наиболее подходящий тип в соответствии с классом, полученным от сервисов Ario;
•Вероятность. Значение вероятности, с которой определен класс документа, в диапазоне от 0 до 1;
•Создан. Дата и время распознавания документа.
•Проверено. Дата и время выполнения задания на верификацию документа.
В табличной части отображается информация об извлеченных фактах.
Сервисы Ario передают в систему Directum RX:
•ИД факта и Имя факта, полученные в результате обработки. Факт состоит из полей, для которых указываются ИД поля и Имя поля. Например, факт Counterparty (контрагент) может включать поля Name (наименование), LegalForm (организационно-правовая форма), TIN (ИНН) и т. д.;
•Значение поля, распознанное сервисами Ario в результате обработки;
•Вероятность поля. Вероятность того, что поле факта определено сервисами Ario корректно. Указывается в диапазоне от 0 до 100. Например, вероятность того, что «ОАО» – это поле LegalForm (организационно-правовая форма) факта Counterparty (контрагент), составляет 100;
•Уверенность в тексте. Число в диапазоне от 0 до 100, отражающее, насколько сервис распознавания текстового слоя корректно распознал текст;
•Позиция. Расположение факта в тексте документа в формате:
<номер страницы>|<координаты смещения от верхнего края страницы до области в пикселях>|<координаты смещения от левого края страницы до области в пикселях>|<ширина области в пикселях>|<высота области в пикселях>|<ширина страницы в пикселях>|<высота страницы в пикселях>
Используется для подсветки факта в области предпросмотра документа.
Directum RX интерпретирует полученные данные по правилам обработки документов и определяет:
•Свойство. Название поля, которое соответствует извлеченному факту. Например, полю Name (Наименование) составного факта Counterparty (Контрагент) соответствует поле Контрагент в карточке договора. Если Свойство не заполнено, факту не соответствует ни одно поле карточки. В этом случае факт не используется, его Значение не заполняется, а Вероятность не вычисляется;
•Значение, которым заполняется поле в карточке документа. Как правило, при заполнении учитываются значения нескольких полей фактов.
Например, в документе для контрагента распознаны поля Name (Наименование), TIN (ИНН) и TRRC (КПП). В карточке договора поле Контрагент заполняется значением справочника Организации. Система ищет в справочнике наиболее подходящую запись по наименованию, ИНН и КПП, затем подставляет ее в карточку. В результатах распознавания указывается ИД найденной записи. Подробнее о заполнении полей см. в разделе «Спецификация заполнения полей в карточках документов»;
•Вероятность того, что поле в карточке документа правильно заполнено полученным значением, и Уверенность в том, что текст корректно распознан. Указываются в диапазоне от 0 до 100. При расчете учитывается:
•Вероятность поля, полученная от сервисов Ario. При заполнении учитываются только те поля фактов, для которых эта вероятность выше нижнего порогового значения;
•Уверенность в тексте для некоторых фактов, например даты, номера или суммы. Уверенность не влияет на заполнение поля и учитывается только при подсветке;
•количество возможных значений, если в поле указывается ссылка на объект системы. Например, для поля Контрагент учитывается количество подходящих записей в справочнике Организации;
•условия поиска. Например, контрагент может быть найден по наименованию, ИНН и КПП либо только по наименованию и организационно-правовой форме;
•корректность распознанного значения. Например, если распознана дата ранее 1 января 1753 года, вероятность корректного распознавания минимальна.
•Подтвержденное значение. Значение поля, которое подтвердил или скорректировал ответственный за верификацию. Для полей, в которых выбираются записи справочников, указывается ИД подтвержденной записи. Например, если в поле Подразделение изменить запись с «Отдела продаж» на «Отдел закупок», то в столбце Подтвержденное значение появится ИД записи «Отдел закупок».
•Заполнено. Результат распознавания поля. Возможные значения:
•«+» – поле заполнилось корректно;
•«-» – поле не заполнилось автоматически, и верификатор указал его значение вручную;
ПРИМЕЧАНИЕ. Поле может остаться незаполненным, если соответствующий реквизит заполнен от руки или перекрыт другими объектами, например подписью. При оценке качества обработки документов убедитесь, что они соответствуют требованиям к скан-копиям.
•«ошибочно» – поле заполнилось некорректно, и верификатор исправил его значение;
•«х» – поле не заполнилось автоматически, и верификатор оставил его пустым.
•ИД записи свойства-коллекции. Используется для полей документа, состоящих из нескольких записей, например табличной части товарных накладных или счетов фактур. Каждая строка таблицы распознается как отдельный факт с собственным идентификатором;
•Метка факта. Служебный идентификатор, передаваемый сервисами Ario.
ПРИМЕЧАНИЕ. Иногда фактов, переданных сервисами Ario, недостаточно для заполнения обязательных полей в карточке документа. Для документов, входящих в стандартную поставку Directum RX, система определяет значения таких полей самостоятельно. В результатах распознавания для них устанавливается минимальная вероятность. Подробнее см. в разделе «Спецификация заполнения полей в карточках документов».
Записи справочника доступны только для просмотра, однако могут изменяться системой:
•при сохранении изменений, внесенных в карточку документа при верификации. Если ответственный за верификацию выбрал другое значение поля, вместо найденного автоматически, то новое значение записывается в столбец Подтвержденное значение;
•при смене типа документа, созданного с помощью интеллектуальной обработки. В этом случае создается копия записи справочника, в поле Тип сущности указывается идентификатор нового типа;
•при удалении документа результат распознавания удаляется асинхронным обработчиком событий «Удаление результатов распознавания сущности».
Пример 1. После обработки счета-фактуры сервисами Ario в систему переданы результаты распознавания . Табличная часть Факты и поля содержит записи:
Из таблицы можно узнать, что:
•сервисы Ario распознали факт Goods с ИД 188919. Факт включает в себя поля Count, Price, ExciseAmount, Amount, ShortNameCountry. Для каждого из них определено ИД поля и значение поля с той или иной степенью уверенности в тексте, а также вероятность поля;
•система нашла поля карточки документа, соответствующие полям факта Count (количество), Price (цена) и Amount (сумма с учетом НДС). Для них указано значение в карточке документа, рассчитана вероятность корректного заполнения, а также определен ИД записи в табличной части;
•для полей ExciseAmount и ShortNameCountry факта Goods не найдены соответствующие поля в карточке документа. Значение и вероятность для них не указаны.
Пример 2. От сервисов Ario не получены факты, на основании которых заполняется обязательное поле Наша орг.
В карточке документа указывается наша организация, к которой относится ответственный за обработку документов (Прибор-Консалт ООО). В результатах распознавания указывается свойство и его значение, устанавливается минимальный уровень вероятности. Остальные столбцы не заполняются.
В группах полей «Обучение классификатора по типам» и «Обучение классификатора первых страниц» отображаются данные об автоматическом дообучении соответствующих классификаторов, если документ участвует в фоновом процессе «Интеллектуальные функции. Дообучение классификатора по типам документов» или «Интеллектуальные функции. Дообучение классификатора первых страниц»:
•Распознанный класс. Наиболее вероятный класс документа согласно классификатору сервисов Ario. Это же значение автоматически указывается на закладке «Свойства» в поле Имя; •Статус обучения классификатора по типам документов, в дообучении которого участвует документ. Возможные значения: •Ожидание обучения – устанавливается для документов с измененным типом, по которым выполнена задача на верификацию. Такие документы ожидают запуска фонового процесса «Интеллектуальные функции. Дообучение классификатора по типам документов». Этот же статус устанавливается в случаях, когда результаты дообучения оказались неудовлетворительными, и новая модель не была опубликована. Это необходимо, чтобы документы повторно попали в выборку при следующем запуске дообучения классификатора; •Обучение в процессе – сессия дообучения классификатора запущена; •Обучение завершено – сессия дообучения классификатора завершена; •Возникла ошибка – сессия дообучения классификатора завершена с ошибкой. Для ее устранения проанализируйте сообщения в лог-файле общего сервиса или сервиса асинхронных событий с префиксом ClassifierTraining. Если поле не заполнено, значит результат не попал в выборку на автоматическое дообучение, так как верификатор не менял тип документа или еще не выполнил задание на верификацию; •Подтвержденный класс документа, который был указан верификатором вручную при проверке комплекта; •Сессия обучения по типам, в которой документ попал в выборку для дообучения классификатора. Запись содержит ИД обучавшегося классификатора, а также дату и время его обучения. |
•Статус обучения классификатора первых страниц, в дообучении которого участвует документ. Возможные значения: •Ожидание обучения – устанавливается для документов, созданных в процессе перекомплектования, по которым выполнена задача на верификацию. Такие документы ожидают запуска фонового процесса «Интеллектуальные функции. Дообучение классификатора первых страниц». Этот же статус устанавливается в случаях, когда результаты дообучения оказались неудовлетворительными, и новая модель не была опубликована. Это необходимо, чтобы документы повторно попали в выборку при следующем запуске дообучения классификатора; •Обучение в процессе – сессия дообучения классификатора запущена; •Обучение завершено – сессия дообучения классификатора завершена; •Возникла ошибка – сессия дообучения классификатора завершена с ошибкой. Для ее устранения проанализируйте сообщения в лог-файле общего сервиса или сервиса асинхронных событий с префиксом ClassifierTraining. Если поле не заполнено, значит результат не попал в выборку на автоматическое дообучение, так как верификатор не перекомплектовывал документы или еще не выполнил задание на верификацию; •Верифицированная версия. Последняя версия документа, которая создана с помощью перекомплектования и верифицирована; •Сессия обучения классификатора первых страниц, в которой документ попал в выборку для дообучения классификатора. Запись содержит ИД обучавшегося классификатора, а также дату и время его обучения. |
В группе полей «Дополнительные классификаторы» отображается информация о классификации документа по дополнительным классификаторам, если они использовались: •ИД классификатора, по которому документу присвоен класс; •Класс документа; •Вероятность, с которой определен класс. |
Оценка качества распознавания документов
Периодический анализ качества обработки документов помогает определить, нужно ли дополнительно обучать классификаторы и модели распознавания. Результаты обработки документов за определенный период можно выгрузить из системы в CSV-файл. Для этого выполните команду с помощью утилиты RxCmd:
<Путь до утилиты RxCmd по умолчанию> rxcmd smart export-stats <Начало периода> <Конец периода> <Путь до папки выгрузки> -n <Логин пользователя> -p <Пароль пользователя>
Аргументы команды:
•Начало периода и Конец периода. Период верификации документов. Даты указываются в формате ГГГГ-ММ-ДД.
ПРИМЕЧАНИЕ. Для удобства анализа не рекомендуется формировать статистику по более чем 100000 документам. Если за указанный период количество документов больше, то рекомендуется сократить период выгрузки.
•Путь до папки выгрузки. Путь до папки, в которую выгружается статистика. Если папки не существует, она создается автоматически.
В результате в указанную папку будет выгружен CSV-файл с наименованием в формате statistics_<ДД-ММ-ГГГГ выгрузки>_<ЧЧ-ММ выгрузки>.
Изучать данные в наглядном виде удобно с помощью макроса RecognitionProtocolBuilder. Например, он позволяет построить отчеты по качеству распознавания всех документов в разрезе их типов за определенный период. Макрос и инструкция к нему предоставляются службой поддержки Directum RX по запросу.
© Компания Directum, 2024 |