<< Click to Display Table of Contents >> Интеллектуальные возможности > Сервисы Directum Ario > Адаптация сервисов Ario под бизнес-задачи компании > Настройка классификации > Настройка классификации с помощью запросов к API Подготовка документов для обучения классификатора |
В зависимости от выбранного способа дообучения или обучения классификатора подготовьте для обучения папку с документами или CSV-файл.
1.Составьте перечень видов документов, обработку которых нужно автоматизировать.
2.Отберите не менее 100 документов тех форм, которые поступают в организацию. Чем больше документов, тем выше точность классификации, но дольше обучение модели.
Примечание. Обратите внимание, что в выборку должны входить все возможные формы, даже если используется несколько форм одного вида документа.
3.Разделите комплекты на отдельные документы в соответствии с принятым в организации форматом их хранения и классификации в системе. Каждый файл должен содержать один документ одного вида.
Если в организации принято хранить документы разного вида как один объект, то исходный файл может содержать разные документы. Например, договор и приложение к нему могут заноситься в систему как один документ класса «Договор».
ПРИМЕЧАНИЕ. Файлы могут быть в одном из форматов: JPG, JPEG, PNG, BMP, GIF, TIF, TIFF, PDF, DOC, DOCX, DOT, DOTX, RTF, ODT, OTT, TXT, XLS, XLSX, ODS.
4.Создайте в локальной папке на компьютере с установленными сервисами Directum Ario или в сетевой папке структуру подпапок, каждая из которых содержит документы одного вида:
Созданные после обучения классы получат названия соответствующих папок.
ВАЖНО. В операционной системе на базе Linux структуру подкаталогов необходимо создавать внутри каталога ./dataset.
5.В каждой папке разместите документы соответствующего вида.
•файл должен содержать колонки, указанные в конфигурационном файле сервиса Directum Text Classifier Service:
•csv_text_field;
•csv_class_field;
•csv_classes_field;
•файл может содержать колонку csv_external_id_field;
•текст в колонке csv_text_field заключается в апострофы;
•если имя класса содержит запятую, то при многоклассовой классификации его необходимо заключить в апострофы;
•при многозначной классификации:
•список классов заключается в апострофы и квадратные скобки;
•классы в списке перечисляются через запятую;
•каждый класс заключается в кавычки;
•CSV-файл должен содержать один из параметров: csv_class_field или csv_classes_field;
•расположение файла зависит от операционной системы:
• локальная папка на компьютере с установленными сервисами Directum Ario или сетевая папка;
• папка ./dataset.
Пример секции конфигурационного файла сервиса Directum Text Classifier Service:
csv_text_field = Text
csv_class_field = Category
csv_classes_field = Categories
csv_external_id_field = ExternalId
Пример csv-файла для обучения многоклассового классификатора:
Id,Category,Text
1,Акт выполненных работ,`Текст документа`
2,Входящее письмо,`Текст документа`
3,Входящее письмо,`Текст документа`
4,`Входящее, исходящее письмо`,`Текст документа`
Пример csv-файла для обучения многозначного классификатора:
Id,Categories,Text
0,`["Performer_0", "Performer_1"]`,`Текст документа`
1,`["Performer_1"]`,`Текст документа`
2,`["Performer_2", "Performer_0"]`,`Текст документа`
3,`["Performer_1"]`,`Текст документа`
© Компания Directum, 2024 |