<< Click to Display Table of Contents >> Интеллектуальные возможности > Сервисы Directum Ario > Адаптация сервисов Ario под бизнес-задачи компании > Настройка извлечения фактов Общие сведения о механизмах извлечения фактов |
Для непосредственного извлечения могут использоваться следующие механизмы:
•извлечение из текста с помощью разработанных правил;
•извлечение из таблиц с помощью разработанных правил.
За извлечение фактов с помощью правил отвечает сервис Directum Fact Extractor Rules Service. Он извлекает факты из текста и/или таблиц с помощью специального программного кода. В коде описывается, как и какой тип информации искать в тексте, например слова или словосочетания, цифры или числа.
Механизмы извлечения правилами используется редко, так как требует трудоемкой разработки или доработки кода, который будет учитывать все возможные вариации текста для искомого факта;
•извлечение из текста и таблиц с помощью обучаемых моделей.
За извлечение фактов с помощью обучаемых моделей отвечает сервис Directum Fact Extractor Learn Service. На основе контекста и значимых признаков текста, например позиции слова в тексте или его графических признаков, алгоритм предсказывает факт, которому соответствует слово. Например, определяет, что оно является датой или номером договора. Обучение моделей выполняется на основании разметки, выполненной в визуальном редакторе AVIA.
Модели извлечения фактов бывают:
•однофактовыми, когда для каждого типа факта формируется отдельная модель. Например, модель для факта ИНН (атрибут TIN) или модель для факта Валюта (атрибут CURRENCY);
•многофактовыми, когда для всех типов фактов в документе формируется одна модель.
ВАЖНО. Такая структура характерна для моделей извлечения фактов до версии 2023.1. Созданные с версии 2023.1 модели по умолчанию однофактовые, а обучить многофактовую модель нельзя. Исключение составляют таблицы в любых видах документов – они продолжают извлекаться многофактовой моделью.
Чтобы определить тип модели, можно выполнить GET-запрос «Информация о модели» и изучить ответ в параметре description.
Подготовка моделей, на основании которых работает последний механизм, менее трудоемкая, чем подготовка правил, и не требует глубокого погружения в область разработки. Кроме того, факты, извлеченные моделями, показывают высокий процент точности и полноты извлечения. По этим причинам механизм извлечения фактов с помощью обучаемых моделей в перспективе полностью заменит механизмы, работающие на правилах.
Однако в некоторых грамматиках до сих пор могут использоваться все перечисленные механизмы. Например, базовая грамматика для счетов-фактур включает все три, так как отрабатывающий механизм зависит от образца счета-фактуры. Для форм старого образца используются обученные модели. Для форм нового образца модели еще не обучены на достаточном количестве документов, поэтому для них используются механизмы извлечения правилами.
© Компания Directum, 2024 |