Администрирование (Windows) > Общесистемные настройки > Настройка полнотекстового поиска > Индексирование отсканированных документов

В системе есть документы без текстового слоя – скан-копии. Зачастую их нужно найти по фрагменту текста. Для этого необходимо настроить индексирование отсканированных документов, чтобы на них распространялись возможности полнотекстового поиска также, как на документы с текстовым слоем.

За индексирование отсканированных документов отвечает фоновый процесс «Документооборот. Индексация скан-копий для полнотекстового поиска». Он запускается по расписанию, по умолчанию каждые 5 минут.

Чтобы включить или выключить фоновый процесс, а также настроить расписание его запуска, используйте список «Фоновые процессы». Подробнее см. раздел «Настройка и мониторинг выполнения фоновых процессов».

Принцип работы фонового процесса

1.Фоновый процесс отбирает созданные или измененные документы, которые соответствуют критериям:

•имеют расширения BMP, GIF, JPEG, JPG, PNG, TIF, TIFF, PDF;

•занесены в систему за период с предыдущего запуска;

•не зашифрованы;

•размер каждого файла не превышает 75 МБ.

2.По каждому из документов фоновый процесс создает элемент очереди и запускает асинхронные обработчики. Каждый документ – один асинхронный обработчик. Чтобы ускорить процесс индексирования, несколько обработчиков запускаются одновременно. Их количество администратор может регулировать в таблице Sungero_Docflow_Params в параметре IndexDocumentsQueueItemsLimit. Администратор может настраивать этот и другие параметры в зависимости от возможностей аппаратного обеспечения компании.

Примечание. Фоновый процесс работает, если приобретена лицензия на модуль Intelligence, настроено индексирование документов с помощью Elasticsearch, а также установлено подключение к сервисам Ario в справочнике «Настройки интеллектуальной обработки».

Принцип работы асинхронного обработчика

1.Асинхронный обработчик отправляет в сервисы Directum Ario запрос на извлечение текстового слоя.

2.После получения извлеченного текстового слоя асинхронный обработчик отправляет его на индексирование в поисковую систему Elasticsearch. В результате обработки индексы документов обновляются и документы становятся доступны для полнотекстового поиска.

3.После завершения всех операций асинхронный обработчик удаляет элемент очереди.

Чтобы индексирование отсканированных документов происходило корректно:

1.В базе данных откройте таблицу Sungero_Docflow_Params.

2.В таблице заполните параметры:

•IndexDocumentsRetriesLimit – количество повторов запуска. Значение по умолчанию – 50;

•IndexDocumentsQueueItemsLimit – количество одновременно запускаемых асинхронных обработчиков. Значение по умолчанию – 120;

•IndexDocumentsBulkBatchSize – количество документов, обрабатываемых за один раз при массовом индексировании исторических документов. Значение по умолчанию – 500;

•IndexDocumentsJobLastRunDate – дата последнего запуска фонового процесса. Параметр заполняется автоматически.

Для определения оптимальных значений воспользуйтесь рекомендацией:

1.Запустите фоновый процесс с настройками по умолчанию.

2.Проанализируйте информацию в лог-файлах. Сравните время завершения работы асинхронных обработчиков и время следующего запуска фонового процесса. Затем при необходимости скорректируйте настройки:

•если на момент нового запуска фонового процесса асинхронные обработчики еще не завершили работу, то уменьшите значение в параметре IndexDocumentsQueueItemsLimit;

•если между окончанием работы асинхронных обработчиков и запуском нового фонового процесса прошло значительное количество времени, то увеличьте значение.

Если время примерно совпадает, оставьте значения по умолчанию.

СМ. ТАКЖЕ