📄 파이썬으로 PDF 파일 다루기 🔍 PyPDF2와 pdfplumber 활용법 총정리
파이썬(Python)을 사용하면 PDF 파일을 쉽게 읽고 분석할 수 있습니다.
특히 PyPDF2
와 pdfplumber
는 텍스트 추출, 페이지 수 확인, 특정 페이지 접근 등에 유용한 라이브러리입니다.
이 글에서는 두 라이브러리를 활용한
PDF 처리 예제
를 코드와 함께 정리해드립니다.
📌 PyPDF2 설치 및 사용법
1. 설치 방법
pip install PyPDF2
2. PDF 파일 열기 및 정보 확인
import PyPDF2
with open('sample.pdf', 'rb') as file:
reader = PyPDF2.PdfReader(file)
print(f'페이지 수: {len(reader.pages)}')
print('첫 페이지 내용:')
print(reader.pages[0].extract_text())
- ✔️ 페이지 수 확인:
len(reader.pages)
- ✔️ 텍스트 추출:
page.extract_text()
📌 pdfplumber로 PDF 텍스트 정밀 추출
1. 설치 방법
pip install pdfplumber
2. 예제 코드
import pdfplumber
with pdfplumber.open("sample.pdf") as pdf:
first_page = pdf.pages[0]
text = first_page.extract_text()
print(text)
- 💡 pdfplumber는 PyPDF2보다 텍스트 추출 정확도가 높습니다.
- 💡 특히 표 형태나 레이아웃을 유지한 텍스트가 필요할 때 유리합니다.
⚖️ PyPDF2 vs pdfplumber
기능 | PyPDF2 | pdfplumber |
---|---|---|
페이지 수 확인 | ✔️ | ✔️ |
기본 텍스트 추출 | 보통 | 우수 |
표(table) 추출 | ❌ | ✔️ |
PDF 구조 분석 | 기본 | 정밀 |
🛠️ 실전 팁
- 🔍 단순 텍스트 추출이면
PyPDF2
만으로 충분 - 📊 표나 구조화된 내용이 필요하다면
pdfplumber
사용 추천 - 📁 여러 페이지를 순회할 때는 반복문과 함께 사용
✅ 마무리 정리
- 📚 PyPDF2: 가볍고 기본적인 PDF 처리에 적합
- 📚 pdfplumber: 정밀한 텍스트 추출에 강점
- 🧠 필요에 따라 두 라이브러리를 병행하여 사용하면 더 강력
반응형
'프로그래밍 > Python' 카테고리의 다른 글
파이썬으로 네이버 주식 데이터 스크래핑하는 방법 (BeautifulSoup 사용) (0) | 2025.03.19 |
---|---|
[Python] Pillow 라이브러리로 이미지 처리하는 5가지 방법 (0) | 2025.03.19 |
파이썬 리스트 vs 딕셔너리 차이점 정리: 언제 어떤 자료형을 써야 할까? (0) | 2025.03.18 |
🏆 Python 개발자라면 꼭 알아야 할 PyCharm 꿀기능 4가지 (2) | 2025.03.14 |
[python] 파이썬으로 간단한 웹 스크래퍼 만들기 🕸️ (0) | 2025.03.13 |