<< Click to Display Table of Contents >> Интеллектуальные возможности > Разметка документов в AVIA Авторазметка |
Механизм авторазметки документов автоматически подготавливает данные для обучения моделей извлечения фактов и упрощает разметку сотрудниками.
В базовой поставке AVIA авторазметка определяет в документах типы фактов:
•персоны (ФИО адресата, подписанта, исполнителя письма, прочие персоны);
•контрагенты (наименования организаций-корреспондентов, получателей, продавцов, покупателей, грузоотправителей, грузополучателей, поставщиков, плательщиков, заказчиков, исполнителей, контрагентов, прочих организаций);
•ИНН и КПП контрагентов;
•даты документов;
•номера документов.
Загружаемые из локальной папки документы размечаются автоматически, если при создании проекта:
•установлен флажок Использовать извлечение текстового слоя;
•корректно указан адрес сервисов Directum Ario;
•выбран шаблон авторазметки.
После загрузки документов проверьте корректность авторазметки. Если какие-то факты не выделены и им не присвоен атрибут, доразметьте документы вручную.
Чтобы отключить авторазметку, очистите в настройках поле Авторазметка. При необходимости удалите неверную разметку с документов. Вновь добавляемые документы автоматически размечаться не будут.
Повышение качества разметки стандартных типов фактов
Для повышения качества разметки типов фактов в базовой поставке AVIA:
1.Проверьте правильность выбранного языка документов и шаблона авторазметки. Для этого в выпадающем списке последовательно выберите пункты Проект и Настройки или нажмите на кнопку в правой части панели действий.
2.В появившемся окне укажите нужный язык в поле Язык документов и шаблон разметки в поле Авторазметка.
3.Нажмите на кнопку Применить.
4.Загрузите в проект новые документы для авторазметки.
Авторазметка документов с другими типами фактов
Чтобы запустить авторазметку документов с другими типами фактов:
1.Из интегрируемой системы, например Directum RX или Directum, выгрузите:
•содержимое не менее 100 занесенных в систему документов, формат которых поддерживается сервисами Ario;
•файл формата JSON с реквизитами выгруженных документов.
Например, в базовую поставку системы Directum 5.8 входит сценарий Выгрузка документов для авторазметки. Он выгружает факты из ста последних созданных в системе документов каждого класса, доступного для разметки в AVIA. Затем сценарий загружает факты каждого класса документов в отдельный файл формата JSON.
Если используется другая система, механизм выгрузки данных разрабатывается отдельно.
2.Запустите авторазметку с набором параметров в зависимости от источника, который используется для разметки:
Если используется разметка на основе фактов, соответствующих грамматике, то для запуска выполните команду:
AutoAnnotator.exe -p {Путь до папки с проектом AVIA} -d {Путь до папки с документами} -g {Грамматика} -h {Адрес Directum Smart Service} --facts_markup
Если используется разметка на основе реквизитов документов, выгруженных из прикладной системы, то для запуска выполните команду:
AutoAnnotator.exe -p {Путь до папки с проектом AVIA} -d {Путь до папки с документами} -g {Грамматика} -h {Адрес Directum Smart Service} -r {Путь до файла с реквизитами документов} ‑‑requisites_markup
В обоих случаях в командной строке задаются следующие параметры:
•-p. Путь до уже существующего проекта AVIA или путь до папки, в которой нужно создать проект;
•-d. Путь до папки с документами для разметки. Если параметр указан, документы добавляются в новый или существующий проект AVIA. При отсутствии параметра используются только документы существующего проекта;
•-g. Класс документов для поиска соответствующих ему фактов. Используется, если для грамматики есть обученная модель извлечения фактов;
•-h. Адрес сервиса Directum Smart Service, если указана папка с документами или класс документов;
•-r. Путь до подготовленного JSON-файла с реквизитами документов;
•--facts_markup или --requisites_markup. Первый ключ используется для разметки по фактам. Второй ключ используется для разметки по реквизитам документов. Укажите нужный в зависимости от избранного источника разметки.
Пример вызова авторазметки на основе фактов, соответствующим товарной накладной:
AutoAnnotator.exe -p D:\project -d D:\documents -g waybill -h http://localhost:61100 ‑‑facts_markup
СОВЕТ. Для просмотра примеров запуска авторазметки запустите AutoAnnotator.exe с ключом ‑help.
В результате выполнения команд создается проект AVIA с размеченными документами.
© Компания Directum, 2024 |