PDF 重複ファイル検出ツール

コンピュータ上の重複するPDFファイルを検出・管理する強力なツールです。PDF重複ファイル検出ツールは、重複するPDF文書を特定して削除することで、ディスク容量を節約し、ファイルを効率的に整理するのに役立ちます。
✨ 特徴
- 🔍 スマートなPDF比較: ファイル名やサイズだけでなく、内容に基づいて重複PDFを検出
- 📝 テキストベースの比較: 高度なテキスト分析により、視覚的な違いがわずかな場合でも重複を特定
- 👁 内蔵PDFビューアー: アプリケーション内で直接PDFをプレビュー可能
- 📋 デュアルビューインターフェース: ファイルリストと重複グループを別々のタブで表示
- 🎯 高度なフィルタリング: ファイルサイズ、更新日、名前パターンでフィルタリング可能
- 🚀 高速スキャン: 大規模なPDFコレクションも最適化されたアルゴリズムで素早くスキャン
- 🎨 直感的なUI: ライト/ダークテーマ対応のクリーンで使いやすいインターフェース
- 🔄 バッチ処理: 複数ファイルやフォルダ全体を一括処理
- 📊 詳細な分析: ファイルの詳細、プレビュー、比較結果を表示
- 🛠 高度なツール: 複数選択モード、フィルタリング、並べ替えオプション
- 🌍 多言語サポート: 複数の言語で利用可能
- 📊 進捗状況の追跡: ファイル処理操作のリアルタイム進捗バー
- ⏱ 最近使用したファイル: コンテキストメニュー付きで最近開いたファイルに素早くアクセス
📦 インストール
前提条件
- Python 3.8 以上
- pip(Pythonパッケージマネージャー)
- PDFレンダリングのためのオプションバックエンド(安全に自動フォールバック):
- PyMuPDF (fitz) — デフォルトでrequirementsに含まれる
- Ghostscript (Wand用) — Ghostscriptをインストールし、設定で実行可能ファイルのパスを設定
プラットフォーム固有のセットアップについては、PREREQUISITES.mdを参照してください。
ソースからのインストール
-
リポジトリをクローン:
git clone https://github.com/Nsfr750/PDF_finder.git
cd PDF_finder
-
仮想環境を作成して有効化(推奨):
python -m venv venv
.\venv\Scripts\activate # Windows
source venv/bin/activate # Linux/Mac
-
必要な依存関係をインストール:
pip install -r requirements.txt
使い方
-
アプリケーションを起動:
-
「フォルダをスキャン」をクリックして、重複PDFを検索するディレクトリを選択します。
-
メインウィンドウで結果を確認します。スキャンが完了すると、ファイルリストにスキャンされたPDFと重複グループが自動的に表示されます。
-
重複を管理するためのツールを使用します:
- 保持するファイルをマーク
- 不要な重複を削除
- アクション前にファイルをプレビュー
主な機能の詳細
スマートなPDF比較
- 高度なハッシュアルゴリズムを使用してPDFの内容を比較
- ファイル名やメタデータが異なる場合でも類似文書を検出
- 微調整可能な類似しきい値
パフォーマンス最適化
- マルチスレッドによる高速なスキャン処理
- 大容量PDFファイルのメモリ効率の良い処理
- 進捗状況の追跡とキャンセルサポート
ユーザーエクスペリエンス
- モダンで応答性の高いインターフェース
- カスタマイズ可能な表示オプション
- 包括的なキーボードショートカット
- 詳細なファイル情報とプレビュー
- ツールバーのスペースと視認性の向上
- 設定ダイアログにPyMuPDFとGhostscriptの可用性を検証する「バックエンドをテスト」ボタンを追加
PDFバックエンドとフォールバック
- 設定→PDFレンダリングで希望のバックエンドを選択
- 「バックエンドをテスト」でGhostscriptが正しく設定されているか確認
- 選択したバックエンドが失敗した場合、アプリは利用可能なバックエンドにフォールバックし、ステータスバーに警告を表示(ローカライズ済み)
バージョン履歴
各バージョンの変更点の完全なリストは、CHANGELOG.mdを参照してください。
貢献
貢献は大歓迎です!このプロジェクトに貢献する方法の詳細については、貢献ガイドラインをお読みください。
📄 ライセンス
このプロジェクトはGNU General Public License v3.0でライセンスされています。詳細はLICENSEファイルを参照してください。
🙏 謝辞
- PDF重複ファイル検出ツールの改善に協力してくれたすべての貢献者に感謝します
- PythonとPyQt6を使用して❤️を込めて構築されました
🐞 既知のバグ
📅 最終更新: 2025年8月
🐍 Python バージョン: 3.8+
📜 ライセンス: GPL-3.0