<p><b>Задача: </b>необходимо реализовать систему для распознавания многостраничных PDF с архивными отсканированными документами (метрические книги, дореволюционные записи и т.п.).</p><p></p><p><b>Требования:</b></p><p>Пакетная обработка PDF ? OCR ? текстовый результат.</p><p>Использование Yandex Vision API (или альтернативы).</p><p>Текст дореволюционный, почерк и шрифт часто плохо читаем.</p><p>Результаты должны быть индексируемыми: например, поиск по фамилиям с указанием страниц.</p><p>Возможность повторного запуска для новых файлов.</p><p></p><p>Желательно — интеграция через Telegram-бот: отправка PDF ? возврат таблицы/текста и списка страниц с совпадениями.</p><p></p><p><b>Результат:</b></p><p>Скрипт/утилита (Python предпочтительно).</p><p>Инструкция по запуску и использованию.</p><p>Возможность локального хранения результатов.</p><p>Пример файла во вложении.</p>