Поиск дубликатов PDF

Мощный инструмент для поиска и управления дубликатами PDF-файлов на вашем компьютере. PDF Duplicate Finder помогает находить и удалять дублирующиеся PDF-документы, экономя место на диске и упорядочивая файлы более эффективно.
✨ Возможности
- 🔍 Умное сравнение PDF: Поиск дубликатов PDF на основе содержимого, а не только имен или размеров файлов
- 📝 Текстовое сравнение: Обнаружение дубликатов даже при незначительных визуальных отличиях с использованием расширенного анализа текста
- 👁 Встроенный просмотрщик PDF: Предпросмотр PDF-файлов прямо в приложении
- 📋 Двухпанельный интерфейс: Просмотр как списка файлов, так и групп дубликатов в отдельных вкладках
- 🎯 Расширенная фильтрация: Фильтрация по размеру файла, дате изменения и шаблонам имен
- 🚀 Быстрое сканирование: Оптимизированные алгоритмы для быстрого сканирования больших коллекций PDF
- 🎨 Интуитивно понятный интерфейс: Чистый и удобный интерфейс с поддержкой светлой/темной темы
- 🔄 Пакетная обработка: Обработка нескольких файлов или целых папок за раз
- 📊 Детальный анализ: Просмотр сведений о файлах, предварительного просмотра и результатов сравнения
- 🛠 Расширенные инструменты: Несколько режимов выбора, фильтрация и параметры сортировки
- 🌍 Поддержка нескольких языков: Доступно на нескольких языках
- 📊 Отслеживание прогресса: Индикатор выполнения операций обработки файлов в реальном времени
- ⏱ Недавние файлы: Быстрый доступ к недавно открытым файлам с опциями контекстного меню
📦 Установка
Предварительные требования
- Python 3.8 или новее
- pip (менеджер пакетов Python)
- Опциональные бэкенды для рендеринга PDF (автоматический откат в случае недоступности):
- PyMuPDF (fitz) — по умолчанию, включен в требования
- Ghostscript (для Wand) — установите Ghostscript и укажите путь к исполняемому файлу в настройках
См. PREREQUISITES.md для настройки под конкретную платформу.
Установка из исходного кода
-
Клонируйте репозиторий:
git clone https://github.com/Nsfr750/PDF_finder.git
cd PDF_finder
-
Создайте и активируйте виртуальное окружение (рекомендуется):
python -m venv venv
.\venv\Scripts\activate # Windows
source venv/bin/activate # Linux/Mac
-
Установите необходимые зависимости:
pip install -r requirements.txt
Использование
-
Запустите приложение:
-
Нажмите “Сканировать папку”, чтобы выбрать каталог для поиска дубликатов PDF.
-
Просмотрите результаты в главном окне. После завершения сканирования список файлов автоматически заполнится отсканированными PDF-файлами и группами дубликатов.
-
Используйте инструменты для управления дубликатами:
- Отметьте файлы, которые нужно оставить
- Удалите ненужные дубликаты
- Просмотрите файлы перед выполнением действий
Ключевые особенности подробно
Умное сравнение PDF
- Сравнение содержимого PDF с использованием расширенных алгоритмов хеширования
- Обнаружение похожих документов даже с разными именами файлов или метаданными
- Настраиваемый порог сходства для точных результатов
Оптимизация производительности
- Многопоточное сканирование для ускорения обработки
- Эффективная работа с памятью при обработке больших PDF-файлов
- Отслеживание прогресса и поддержка отмены операций
Пользовательский опыт
- Современный, отзывчивый интерфейс
- Настраиваемые параметры отображения
- Комплексные сочетания клавиш
- Подробная информация о файлах и предварительный просмотр
- Панель инструментов с улучшенным интервалом и четкостью
- Диалог настроек включает кнопку “Проверить бэкенды” для проверки доступности PyMuPDF и Ghostscript
Бэкенды PDF и откат
- Выберите предпочитаемый бэкенд в Настройки → Рендеринг PDF
- Используйте “Проверить бэкенды”, чтобы убедиться, что Ghostscript настроен правильно
- Если выбранный бэкенд недоступен, приложение автоматически переключится на доступный бэкенд и отобразит предупреждение в строке состояния (локализовано)
История версий
См. CHANGELOG.md для полного списка изменений в каждой версии.
Участие в разработке
Вклад приветствуется! Пожалуйста, ознакомьтесь с нашими Руководством по участию для получения подробной информации о том, как внести свой вклад в этот проект.
📄 Лицензия
Этот проект распространяется под лицензией GNU General Public License v3.0 - см. файл LICENSE для получения подробной информации.
🙏 Благодарности
- Спасибо всем участникам, которые помогли улучшить PDF Duplicate Finder
- Создано с ❤️ с использованием Python и PyQt6
🐞 Известные ошибки
📅 Последнее обновление: Август 2025
🐍 Версия Python: 3.8+
📜 Лицензия: GPL-3.0