Правила нанесения разметки
<< Click to Display Table of Contents >> Интеллектуальные возможности > Разметка документов в AVIA > Ручная разметка > Нанесение разметки Правила нанесения разметки |
При нанесении разметки на документ соблюдайте общие правила разметки, особенности разметки по типам фактов и табличной части документов.
•если разметка выполняется для дообучения однофактовой модели, то в подготовленных документах достаточно разметить только новые типы фактов; •если разметка выполняется для дообучения многофактовой модели, то в документе необходимо размечать все факты: текущие и новые. Чтобы определить тип модели, выполните GET-запрос «Информация о модели» и изучите ответ в параметре description. ВАЖНО. Извлечение фактов из таблиц осуществляется только многофактовой моделью. Поэтому в письмах следует размечать все факты, а в документах с таблицами – на табличном слое все факты, на текстовом можно разметить только новые факты по аналогии с разметкой для однофактовой модели; •включайте в область все слова, которые входят в факт; •расстояние между фактом и границей области должно быть минимальным – не более 1 мм; •не вкладывайте размеченные области друг в друга. Допускается пересечение размером менее половины меньшей области; •размечайте только сам текст факта. Ключевое слово факта не размечается; •включайте в область знаки препинания, сокращения, аббревиатуры или символы, если они написаны слитно с фактом; •в мультиязычных документах, например, договорах с иностранными компаниями, размечайте факты на всех используемых в них языках; •размечайте многострочные факты: •одним прямоугольником, если в размеченную область попадают только слова, являющиеся частью факта: •несколькими прямоугольниками, если факты разделены текстом. Для этого создайте группу атрибутов «Type» с атрибутами «Новый» и «Продолжение». Первая область размечается атрибутом «Новый», следующие – атрибутом «Продолжение». Области выделяются последовательно: •размечайте факты только на печатном тексте. Не размечаются:
Исключения составляют:
|
|
1.Размечайте корректно распознанные таблицы. Таковой считается таблица, ячейки которой совпадают с ячейками исходного документа. СОВЕТ. Чтобы оценить корректность извлечения табличного слоя, находясь в проекте разметки, нажмите клавишу ALT. В результате отобразятся все ячейки таблиц в документе. 2.Не размечайте табличную часть документа на текстовом слое. 3.Размечайте таблицу целиком, даже если она располагается на нескольких страницах. При этом не нужно использовать тег CONTINUE. 4.Размечайте даже те таблицы, которые состоят из одной ячейки. Например, таблица с указанием статус функции УПД. 5.Размечайте таблицы только с замкнутыми границами. Пример таблицы с незамкнутыми границами: 6.Ячейки в таблице можно размечать как по отдельности, так и целым столбцом. При извлечении фактов ячейки группируются по строкам, где каждая строка – отдельный факт, включающий в себя данные всех ее ячеек, а значение столбца по строке – поле этого факта: 7.Для группировки ячеек таблицы в один факт, используйте префиксы. 8.Размечайте ячейки и столбцы таблицы, даже если в них нет значимых фактов. Такие ячейки могут быть пустыми или содержать специальный символ, например «-» или «Х»: 9.Ячейки таблицы, в которых содержится несколько значений, например сумма и сумма НДС, рекомендуется либо не размечать, либо создавать для таких ячеек отдельный атрибут. |
© Компания Directum, 2024 |