개요
PDF → TXT는 PDF 안의 텍스트를 .txt 파일로 추출하는 도구입니다. 보고서·논문·계약서에서 본문만 가져와 다른 문서에 옮기거나, 검색·정리를 위해 텍스트화할 때 사용합니다. 중요: 스캔 이미지로 만든 PDF에서는 텍스트가 추출되지 않으며, 이 경우 별도의 OCR(이미지 → 텍스트) 도구가 필요합니다.
실무 활용 팁
- 추출된 텍스트는 페이지 단위로 "=== Page 1 ===" 표식과 함께 구분되어 보기 쉽습니다.
- "클립보드에 복사" 버튼으로 즉시 다른 곳에 붙여넣을 수 있고, ".txt 다운로드"로 파일로 저장할 수도 있습니다.
- 추출 결과가 비어 있으면 스캔 PDF일 가능성이 큽니다. 페이지를 PDF 뷰어에서 직접 텍스트 선택해 보세요 — 선택이 안 되면 OCR이 필요합니다.
- 대용량 PDF(수백 페이지)는 처리에 30초 이상 걸릴 수 있습니다 — 페이지별 진행 상태가 표시됩니다.
자주 묻는 질문
Q. 왜 일부 글자가 깨지나요?
PDF 안에 폰트 정보가 비표준이거나 글자 인코딩이 손상된 경우 일부 글자가 □·?로 보일 수 있습니다. PDF 제작자가 설정한 폰트 매핑이 원인입니다.
Q. 표·도표의 데이터도 추출되나요?
표 안의 텍스트는 추출되지만 행·열 구조는 평면 텍스트로 펼쳐집니다. 정확한 표 추출은 별도 전문 도구가 필요합니다.
Q. 스캔 PDF는 어떻게 텍스트로 만드나요?
OCR(광학 문자 인식) 도구가 필요합니다. 본 도구는 OCR을 지원하지 않습니다 — 추후 별도 도구로 검토 중입니다.