PDF 重复文件查找器

一个强大的工具，用于在计算机上查找和管理重复的PDF文件。PDF重复文件查找器帮助您识别和删除重复的PDF文档，节省磁盘空间并更有效地组织文件。

✨ 功能特点

🔍 智能PDF比较：基于内容而不仅仅是文件名或大小查找重复的PDF文件
📝 基于文本的比较：使用高级文本分析识别即使有轻微视觉差异的重复文件
👁 内置PDF查看器：直接在应用程序中预览PDF文件
📋 双视图界面：在单独的标签页中查看文件列表和重复组
🎯 高级筛选：按文件大小、修改日期和名称模式进行筛选
🚀 快速扫描：优化的算法可快速扫描大量PDF文件集合
🎨 直观的用户界面：简洁友好的界面，支持浅色/深色主题
🔄 批量处理：一次性处理多个文件或整个文件夹
📊 详细分析：查看文件详情、预览和比较结果
🛠 高级工具：多选模式、筛选和排序选项
🌍 多语言支持：支持多种语言
📊 进度跟踪：实时显示文件处理进度条
⏱ 最近文件：通过上下文菜单快速访问最近打开的文件

📦 安装

先决条件

Python 3.8 或更高版本
pip (Python包管理器)
可选的PDF渲染后端（自动安全回退）：
- PyMuPDF (fitz) — 默认并通过requirements安装
- Ghostscript (用于Wand) — 安装Ghostscript并在设置中设置其可执行路径

请参阅PREREQUISITES.md获取特定于平台的设置说明。

从源代码安装

克隆仓库：

git clone https://github.com/Nsfr750/PDF_finder.git
cd PDF_finder

创建并激活虚拟环境（推荐）：

python -m venv venv
.\venv\Scripts\activate  # Windows
source venv/bin/activate  # Linux/Mac

安装所需的依赖项：
```
pip install -r requirements.txt
```

使用方法

启动应用程序：
```
python main.py
```
点击”扫描文件夹”选择要扫描重复PDF文件的目录。
在主窗口中查看结果。扫描完成后，文件列表将自动填充扫描到的PDF文件和重复组。
使用工具管理重复文件：
- 标记要保留的文件
- 删除不需要的重复文件
- 在操作前预览文件

主要功能详情

智能PDF比较

使用高级哈希算法比较PDF内容
即使文件名或元数据不同也能检测到相似文档
可配置的相似度阈值，以获得更精确的结果

性能优化

多线程扫描，处理速度更快
高效处理大型PDF文件的内存使用
进度跟踪和取消支持

用户体验

直观的界面，清晰的视觉反馈
可自定义的视图和布局选项
详细的文件信息和元数据显示

高级功能

批量重命名和移动文件
导出扫描结果和报告
自定义扫描配置文件和预设

故障排除

常见问题

扫描速度慢：
- 尝试增加扫描线程数
- 排除大型或系统文件夹
- 确保有足够的可用内存
PDF渲染问题：
- 确保已安装所有必需的PDF渲染后端
- 检查文件权限和路径中的特殊字符
内存不足：
- 减少同时处理的文件数量
- 增加系统虚拟内存
- 关闭其他内存密集型应用程序

贡献

欢迎贡献代码、报告问题或提出功能请求。请访问我们的GitHub仓库。

许可证

本项目采用GNU通用公共许可证v3.0 - 详情请参阅LICENSE文件。

支持

如果您觉得这个项目有用，请考虑支持我的工作：

联系方式

邮箱: nsfr750@yandex.com
GitHub: Nsfr750
Discord: 加入