Признаки для обучения моделей
<< Click to Display Table of Contents >> Интеллектуальные возможности > Сервисы Directum Ario > Описание API Ario > Отладка моделей извлечения фактов > Обучение модели извлечения фактов Признаки для обучения моделей |
При проверке распознанных слов по некоторым из признаков, которые можно указать в параметре Features, слово сверяется с записями специальных словарей. Если такая запись состоит из нескольких слов, учитывается совпадение с любым из них. Например, словарь названий стран на русском языке содержит запись «Российская Федерация». При проверке слов «Российская» и «Федерация» значение параметра CountriesRus для каждого из них будет равно 1.
Признаки |
Проверка распознанных слов (параметр Features) |
Проверка распознанных ячеек (параметр TableFeatures) |
---|---|---|
Addresses |
Совпадает с записью из словаря выражений, которые часто используются в адресах. Например: «улица», «ул.» |
Содержит запись из словаря выражений, которые часто используются в адресах. Например: «улица», «ул.» |
BankNames |
Совпадает с записью из словаря названий банков |
Содержит запись из словаря названий банков |
BOS |
Первое в предложении |
- |
BOSRus |
Первое в предложении (документ на русском языке) |
- |
BOSEng |
Первое в предложении (документ на английском языке) |
- |
EOS |
Последнее в предложении |
- |
EOSRus |
Последнее в предложении (документ на русском языке) |
|
EOSEng |
Последнее в предложении (документ на английском языке) |
|
CellLongestWord |
- |
Самое длинное слово в ячейке |
CellOverlapsCol |
- |
Ячейка занимает два и более столбцов |
CellOverlapsRow |
- |
Ячейка занимает две и более строк |
CellShortestWord |
- |
Самое короткое слово в ячейке |
CellValueLength |
- |
Размер значения ячейки. Возможные значения параметра: s – 1-4 символа; m – 5-10 символов; l – 11-25 символов; xl – 26-40 символов; xxl – более 40 символов |
ColCount |
- |
Ширина таблицы, к которой принадлежит ячейка. Возможные значения: s – 1-4 столбца; m – 5-8 столбцов; l – 9-16 столбцов; xl – более 16 столбцов |
ColFirst |
- |
Ячейка принадлежит к первому столбцу таблицы |
ColLast |
- |
Ячейка принадлежит к последнему столбцу таблицы |
ContainsCurrency |
Содержит символ валюты ($, €, £) |
|
ContainsDigits |
Содержит цифры |
|
ContainsAmount |
Содержит число в виде суммы. Например: 1,488,322.69 |
|
CountriesRus |
Совпадает с записью из словаря названий стран на русском языке |
Содержит запись из словаря названий стран на русском языке |
CurrencyCodeDigits |
Совпадает с записью из словаря кодов валют. Например: 643 – код российского рубля |
- |
CurrencyWords |
Совпадает с записью из словаря названий валют на русском языке. Например: «Российский рубль» |
- |
DocumentKinds |
Совпадает с записью из словаря наименований документов. Например: «договор» |
- |
Encode |
Закодированное слово, в котором заглавные буквы кодируются символом A, строчные - a, цифры - 0, все остальные символы остаются в исходном виде. Например, все даты вида 11.11.2019 будут представлены как 00.00.0000 |
|
EncodePrefix |
Закодированный префикс (первые три буквы). Если слово состоит меньше, чем из трех букв, проверяются все буквы слова |
|
EncodeSuffix |
Закодированный суффикс (последние три буквы) |
|
EndsWithColon |
Заканчивается двоеточием |
|
EndsWithComa |
Заканчивается запятой |
|
EndsWithDot |
Заканчивается точкой |
|
EndsWithExclamation |
Заканчивается восклицательным знаком |
|
EndsWithQuotes |
Заканчивается кавычками |
|
IsBankAccountRus |
Является расчетным счетом в Российском банке. Проверяется, что слово состоит из 20 цифр, первые три из которых соответствуют балансовому счету, а 6-8 цифры – коду валюты (например, «810», «634», «978», «840») |
- |
IsBIC |
Является БИК банка |
- |
IsDate |
Является датой |
|
IsDigit |
Состоит только из цифр |
|
IsInitials |
Состоит из инициалов |
- |
IsLower |
Содержит только строчные буквы |
|
IsMonth |
Является месяцем |
|
(Is)MostlyDigits |
MostlyDigits. Слово состоит из цифр более чем наполовину |
IsMostlyDigits. Значение ячейки состоит из цифр более чем наполовину |
IsSymbolNumber |
Является символом номера. Например: №, N, # |
- |
IsTIN |
Слово или значение ячейки похоже на ИНН. Проверяется, что слово состоит из: •10 или 12 цифр с корректной контрольной суммой; •слитно написанных текста «ИНН» и 10 или 12 цифр |
|
IsTINTRRC |
Слово или значение ячейки похоже на ИНН и КПП, записанные через символ «/». Проверяется, что слово совпадает с заданными шаблонами |
|
IsTitle |
Начинается с заглавной буквы |
- |
IsTRRC |
Слово или значение ячейки похоже на КПП. Проверяется, что слово состоит из 9 цифр. Также может включать в себя текст «КПП» |
|
IsUpper |
Содержит только заглавные буквы |
|
IsWordBy |
Слово «по» |
- |
IsWordFrom |
Слово «с» |
- |
IsWordYear |
Слово «год» или «г.» |
- |
LegalForms |
Совпадает с записью из словаря организационно-правовых форм |
Содержит запись из словаря организационно-правовых форм |
Lower |
Содержит строчные буквы |
- |
PagePosition |
Положение слова на странице относительно других слов. Распознанный текст разбивается на 10 частей. Значение параметра указывает на номер части, в которую попадает слово. Возможные значения: от 0 до 9 |
- |
PersonNames |
Совпадает с записью из словаря имен |
Содержит запись из словаря имен |
PostCodesRus |
Совпадает с записью из словаря почтовых индексов РФ |
- |
Prefix |
Содержит префикс (первые 3 буквы) |
|
PublicInstitutions |
Совпадает с записью из словаря государственных учреждений |
Содержит запись из словаря государственных учреждений |
RowCount |
- |
Высота таблицы, к которой принадлежит ячейка. Возможные значения: s – 1-5 строк; m – 6-15 строк; l – 16-30 строк; xl – более 30 строк |
RowDifferent |
- |
Количество столбцов в строке, которой принадлежит ячейка, отличается от количества столбцов в предыдущей строке |
RowFirst |
- |
Принадлежит к первой строке таблицы |
RowFull |
- |
Принадлежит к строке, в которой нет пустых ячеек |
RowLast |
- |
Принадлежит к последней строке таблицы |
RowOccupancy |
- |
Заполненность строки, которой принадлежит ячейка. Вычисляется делением количества заполненных ячеек на общее количество ячеек в строке. Принимает значение от 0 до 1 с шагом 0,01, где: 0 – строка пустая; 1 – все ячейки в строке заполнены |
SentencePosition |
Позиция в предложении от 0 до 1, где: 0 – начало предложения, 1 – конец предложения |
- |
SentencePositionRus |
Позиция в предложении от 0 до 1 (документ на русском языке), где: 0 – начало предложения, 1 – конец предложения |
- |
SentencePositionEng |
Позиция в предложении от 0 до 1 (документ на английском языке), где: 0 – начало предложения, 1 – конец предложения |
- |
StartsWithNumberSign |
Начинается с символа номера (#, №, No, N) |
- |
StartsWithQuotes |
Начинается с кавычек |
|
Suffix |
Содержит суффикс (последние 3 буквы) |
|
Surnames |
Совпадает с записью из словаря фамилий |
Содержит запись из словаря фамилий |
TextPosition |
Позиция в тексте от 0 до 1, где: 0 – начало текста, 1 – конец текста |
- |
TilePosition |
Геометрическая позиция слова на странице. Страница делится на 10 частей по горизонтали и вертикали. Возможные значения признака состоят из номера квадрата, в который попадает слово или ячейка, по горизонтали и по вертикали. При этом слово может входить сразу в несколько частей |
|
WordInQuotes |
Заключено в кавычки |
- |
WordLength |
Длина слова |
- |
Xposition |
Геометрическая позиция на странице относительно оси X от 0 до 1, где: 0 – слово находится слева, 1 – слово находится справа |
- |
Yposition |
Геометрическая позиция на странице относительно оси Y от 0 до 1, где: 0 – слово находится вверху, 1 – слово находится внизу |
- |
© Компания Directum, 2024 |