<< Click to Display Table of Contents >> Интеллектуальные возможности > Сервисы Directum Ario > Описание API Ario > Отладка моделей извлечения фактов Дообучение модели извлечения фактов |
В процессе работы с моделями извлечения фактов может потребоваться ее дообучение. Например, когда:
•нужно обучить модель извлекать из документов новые факты;
•нужно обучить модель извлекать существующие факты из документов того же класса, но на другом языке;
•нужно повысить точность и полноту извлечения фактов, добавив к исходной выборке документов новые документы того же класса;
•текущая модель обучена на менее чем 400 документах.
При дообучении учитывайте:
•системные требования к объему оперативной памяти. Подробнее о расчете памяти для дообучения см. в типовых требованиях к сервисам Ario в документе «Directum RX. Типовые требования к аппаратному и программному обеспечению»;;
•особенности дообучения для извлечения из документов новых фактов в зависимости от типа модели. Чтобы определить его, можно выполнить запрос на получение информации о модели и изучить ответ в параметре description.
ВАЖНО. С версии Ario 2023.1 структура моделей извлечения фактов изменилась с многофактовой на однофактовую. Структура базовых моделей изменяется автоматически при обновлении сервисов. Структура пользовательских моделей, обученных до версии 2023.1, при дообучении не меняется. Чтобы перейти с многофактовой модели на однофактовую, необходимо обучить ее заново.
Перед дообучением модели подготавливаются и размечаются документы в зависимости от ее типа:
•для однофактовой модели достаточно разметить только новые типы фактов;
•для многофактовой модели необходимо размечать все факты: текущие и новые.
В результате дообучения к данным текущей модели извлечения фактов в рамках указанной грамматики добавляются новые данные.
Для обучения или дообучения модели извлечения фактов есть разные методы:
•асинхронный. Используется разработчиками для управляемой классификации за счет распараллеливания потоков;
•синхронный. Используется администраторами для упрощенной классификации за счет минимального количества действий со стороны администратора.
Синтаксис
POST {service_url}/api/factextractor/grammar/{grammarSetname}/trainasync/{ИД модели извлечения фактов}
{
"file": "Путь до архива с выгруженной разметкой",
"Features": "["Список признаков для извлечения фактов из текста"]",
"Window": "[Область контекста]",
"TabbleFeatures": "["Список признаков для извлечения фактов из таблицы"]"
}
Параметры
Состав параметров аналогичен параметрам запроса на обучение модели извлечения фактов. Значение параметров Features и Window при дообучении оставьте по умолчанию.
Пример запроса
POST http://smart:61100/api/factextractor/grammar/IncomingInvoice/trainasync/6
{
"file": "D:\\IncomingInvoice_new_bio.zip",
"Features": ["Addresses", "BankNames", "BOS", "ContainsAmount", "ContainsCurrency", "ContainsDigits", "CountriesRus", "CurrencyCodeDigits", "CurrencyWords", "DocumentKinds", "Encode", "EndsWithColon", "EndsWithComa", "EndsWithDot", "EndsWithExclamation", "EndsWithQuotes", "EOS", "IsBankAccountRus", "IsBIC", "IsDate", "IsDigit", "IsInitials", "IsLower", "IsMonth", "IsSymbolNumber", "IsTIN", "IsTINTRRC", "IsTitle", "IsTRRC", "IsUpper", "IsWordBy", "IsWordFrom", "IsWordYear", "LegalForms", "MostlyDigits", "PagePosition", "PersonNames", "PostCodesRus", "Prefix", "PublicInstitutions", "SentencePosition", "StartsWithNumberSign", "StartsWithQuotes", "Suffix", "Surnames", "TextPosition", "WordInQuotes", "WordLength"]",
"Window": "[4,2]",
"TableFeatures": ["CellLongestWord", "CellOverlapsCol", "CellOverlapsRow", "CellShortestWord", "CellValueLength", "ColCount", "ColFirst", "ColLast", "ContainsAmount", "ContainsCurrency", "ContainsDigits", "EncodePrefix", "EncodeSuffix", "EndsWithColon", "EndsWithComa", "EndsWithDot", "EndsWithExclamation", "EndsWithQuotes", "IsDate", "IsDigit", "IsLower", "IsMonth", "IsMostlyDigits", "IsTIN", "IsTINTRRC", "IsTRRC", "IsUpper", "Prefix", "RowCount", "RowDifferent", "RowFirst", "RowFull", "RowLast", "RowOccupancy", "StartsWithQuotes", "Suffix", "Addresses", "BankNames", "CountriesRus", "LegalForms", "PersonNames", "PublicInstitutions", "Surnames", "TilePosition"]
}
Ответ
Состав параметров аналогичен параметрам ответа на запрос при обучении новой модели извлечения фактов.
СОВЕТ. Если дообучалась базовая модель извлечения фактов и по результатам обучения стало необходимо вернуться к использованию системной модели, выполните запрос на возврат к использованию системной модели.
Синтаксис и параметры при дообучении такие же, как в аналогичном асинхронном запросе.
В результате дообучения к данным текущей модели извлечения фактов в рамках указанной грамматики добавляются новые данные. В ответе возвращается основная информация о модели и ее метриках. Состав параметров аналогичен параметрам ответа на синхронный запрос при обучении модели извлечения фактов.
© Компания Directum, 2024 |