Признаки для обучения моделей
| << Click to Display Table of Contents >> Интеллектуальные возможности > Интеллектуальная обработка документов > Сервисы Directum Ario > Описание API Ario > Отладка моделей извлечения фактов > Обучение модели извлечения фактов Признаки для обучения моделей |     | 
При проверке распознанных слов по некоторым из признаков, которые можно указать в параметре Features, слово сверяется с записями специальных словарей. Если такая запись состоит из нескольких слов, учитывается совпадение с любым из них. Например, словарь названий стран на русском языке содержит запись «Российская Федерация». При проверке слов «Российская» и «Федерация» значение параметра CountriesRus для каждого из них будет равно 1.
| Признаки | Проверка распознанных слов (параметр Features) | Проверка распознанных ячеек (параметр TableFeatures) | 
|---|---|---|
| Addresses | Совпадает с записью из словаря выражений, которые часто используются в адресах. Например: «улица», «ул.» | Содержит запись из словаря выражений, которые часто используются в адресах. Например: «улица», «ул.» | 
| BankNames | Совпадает с записью из словаря названий банков | Содержит запись из словаря названий банков | 
| BOS | Первое в предложении | - | 
| BOSRus | Первое в предложении (документ на русском языке) | - | 
| BOSEng | Первое в предложении (документ на английском языке) | - | 
| EOS | Последнее в предложении | - | 
| EOSRus | Последнее в предложении (документ на русском языке) | 
 | 
| EOSEng | Последнее в предложении (документ на английском языке) | 
 | 
| CellLongestWord | - | Самое длинное слово в ячейке | 
| CellOverlapsCol | - | Ячейка занимает два и более столбцов | 
| CellOverlapsRow | - | Ячейка занимает две и более строк | 
| CellShortestWord | - | Самое короткое слово в ячейке | 
| CellValueLength | - | Размер значения ячейки. Возможные значения параметра: s – 1-4 символа; m – 5-10 символов; l – 11-25 символов; xl – 26-40 символов; xxl – более 40 символов | 
| ColCount | - | Ширина таблицы, к которой принадлежит ячейка. Возможные значения: s – 1-4 столбца; m – 5-8 столбцов; l – 9-16 столбцов; xl – более 16 столбцов | 
| ColFirst | - | Ячейка принадлежит к первому столбцу таблицы | 
| ColLast | - | Ячейка принадлежит к последнему столбцу таблицы | 
| ContainsCurrency | Содержит символ валюты ($, €, £) | |
| ContainsDigits | Содержит цифры | |
| ContainsAmount | Содержит число в виде суммы. Например: 1,488,322.69 | |
| CountriesRus | Совпадает с записью из словаря названий стран на русском языке | Содержит запись из словаря названий стран на русском языке | 
| CurrencyCodeDigits | Совпадает с записью из словаря кодов валют. Например: 643 – код российского рубля | - | 
| CurrencyWords | Совпадает с записью из словаря названий валют на русском языке. Например: «Российский рубль» | - | 
| DocumentKinds | Совпадает с записью из словаря наименований документов. Например: «договор» | - | 
| Encode | Закодированное слово, в котором заглавные буквы кодируются символом A, строчные - a, цифры - 0, все остальные символы остаются в исходном виде. Например, все даты вида 11.11.2019 будут представлены как 00.00.0000 | |
| EncodePrefix | Закодированный префикс (первые три буквы). Если слово состоит меньше, чем из трех букв, проверяются все буквы слова | |
| EncodeSuffix | Закодированный суффикс (последние три буквы) | |
| EndsWithColon | Заканчивается двоеточием | |
| EndsWithComa | Заканчивается запятой | |
| EndsWithDot | Заканчивается точкой | |
| EndsWithExclamation | Заканчивается восклицательным знаком | |
| EndsWithQuotes | Заканчивается кавычками | |
| IsBankAccountRus | Является расчетным счетом в Российском банке. Проверяется, что слово состоит из 20 цифр, первые три из которых соответствуют балансовому счету, а 6-8 цифры – коду валюты (например, «810», «634», «978», «840») | - | 
| IsBIC | Является БИК банка | - | 
| IsDate | Является датой | |
| IsDigit | Состоит только из цифр | |
| IsInitials | Состоит из инициалов | - | 
| IsLower | Содержит только строчные буквы | |
| IsMonth | Является месяцем | |
| (Is)MostlyDigits | MostlyDigits. Слово состоит из цифр более чем наполовину | IsMostlyDigits. Значение ячейки состоит из цифр более чем наполовину | 
| IsSymbolNumber | Является символом номера. Например: №, N, # | - | 
| IsTIN | Слово или значение ячейки похоже на ИНН. Проверяется, что слово состоит из: •10 или 12 цифр с корректной контрольной суммой; •слитно написанных текста «ИНН» и 10 или 12 цифр | |
| IsTINTRRC | Слово или значение ячейки похоже на ИНН и КПП, записанные через символ «/». Проверяется, что слово совпадает с заданными шаблонами | |
| IsTitle | Начинается с заглавной буквы | - | 
| IsTRRC | Слово или значение ячейки похоже на КПП. Проверяется, что слово состоит из 9 цифр. Также может включать в себя текст «КПП» | |
| IsUpper | Содержит только заглавные буквы | |
| IsWordBy | Слово «по» | - | 
| IsWordFrom | Слово «с» | - | 
| IsWordYear | Слово «год» или «г.» | - | 
| LegalForms | Совпадает с записью из словаря организационно-правовых форм | Содержит запись из словаря организационно-правовых форм | 
| Lower | Содержит строчные буквы | - | 
| PagePosition | Положение слова на странице относительно других слов. Распознанный текст разбивается на 10 частей. Значение параметра указывает на номер части, в которую попадает слово. Возможные значения: от 0 до 9 | - | 
| PersonNames | Совпадает с записью из словаря имен | Содержит запись из словаря имен | 
| PostCodesRus | Совпадает с записью из словаря почтовых индексов РФ | - | 
| Prefix | Содержит префикс (первые 3 буквы) | |
| PublicInstitutions | Совпадает с записью из словаря государственных учреждений | Содержит запись из словаря государственных учреждений | 
| RowCount | - | Высота таблицы, к которой принадлежит ячейка. Возможные значения: s – 1-5 строк; m – 6-15 строк; l – 16-30 строк; xl – более 30 строк | 
| RowDifferent | - | Количество столбцов в строке, которой принадлежит ячейка, отличается от количества столбцов в предыдущей строке | 
| RowFirst | - | Принадлежит к первой строке таблицы | 
| RowFull | - | Принадлежит к строке, в которой нет пустых ячеек | 
| RowLast | - | Принадлежит к последней строке таблицы | 
| RowOccupancy | - | Заполненность строки, которой принадлежит ячейка. Вычисляется делением количества заполненных ячеек на общее количество ячеек в строке. Принимает значение от 0 до 1 с шагом 0,01, где: 0 – строка пустая; 1 – все ячейки в строке заполнены | 
| SentencePosition | Позиция в предложении от 0 до 1, где: 0 – начало предложения, 1 – конец предложения | - | 
| SentencePositionRus | Позиция в предложении от 0 до 1 (документ на русском языке), где: 0 – начало предложения, 1 – конец предложения | - | 
| SentencePositionEng | Позиция в предложении от 0 до 1 (документ на английском языке), где: 0 – начало предложения, 1 – конец предложения | - | 
| StartsWithNumberSign | Начинается с символа номера (#, №, No, N) | - | 
| StartsWithQuotes | Начинается с кавычек | |
| Suffix | Содержит суффикс (последние 3 буквы) | |
| Surnames | Совпадает с записью из словаря фамилий | Содержит запись из словаря фамилий | 
| TextPosition | Позиция в тексте от 0 до 1, где: 0 – начало текста, 1 – конец текста | - | 
| TilePosition | Геометрическая позиция слова на странице. Страница делится на 10 частей по горизонтали и вертикали. Возможные значения признака состоят из номера квадрата, в который попадает слово или ячейка, по горизонтали и по вертикали. При этом слово может входить сразу в несколько частей | |
| TilePosition3010 | Геометрическая позиция слова на странице. Страница делится на 30 частей по вертикали и 10 частей по горизонтали. Проверяется как признак TilePosition | - | 
| WordInQuotes | Заключено в кавычки | - | 
| WordLength | Длина слова | - | 
| Xposition | Геометрическая позиция на странице относительно оси X от 0 до 1, где: 0 – слово находится слева, 1 – слово находится справа | - | 
| Yposition | Геометрическая позиция на странице относительно оси Y от 0 до 1, где: 0 – слово находится вверху, 1 – слово находится внизу | - | 
| © Компания Directum, 2025 |