본문 바로가기

IT 인터넷 이야기

알PDF OCR 문자 인식

by 나꽁이 2020. 5. 16.

알PDF OCR 문자 인식

목차

PDF 파일은 특정 프로그램 없이도 활용이 가능하기 때문에 아주 광범위하게 사용되는 파일포맷입니다. 하지만 PDF 파일을 열어보면 텍스트를 선택할 수 없는 경우가 많은데요.

알PDF의 OCR 기능을 이용하면 파일의 텍스트를 수정할 수는 없어도 드래그를 활용해서 선택이 가능해집니다.

1. OCR의 정의

OCR(optical character reader/recognition)의 약자로, 빛을 이용해 문자를 읽거나 인식하는 것을 말합니다.

한 마디로 이미지로 되어있는 문자를 빛을 이용해서 편집할 수 있는 문자로 변경 할 수 있는 기술입니다.

아래의 사진처럼 PDF를 스캔하여 텍스트로 인식되는 부분을 구분하고 문자로 보여주게 됩니다.

따라서 정확하지 않을 수 있고, 간격이나 문자가 다르게 나올 수도 있습니다.

가끔 문서 자체를 변경하는 것이라고 오해하시는 분들이 계시지만 위의 설명처럼 단순히 이미지에서 문자를 찾아내서 보여주는 것이지 문서 자체는 변하지 않습니다. 문서 자체를 수정하기 위해서는 별도의 프로그램이 필요합니다.

2. 알PDF 다운로드 및 설치

PDF의 텍스트를 뽑고 싶을 때 아크로뱃 프로그램이 있다면 편하겠지만 가격이 부담스러울 수 있기 때문에 간단히 실행할 수 있는 프로그램이 바로 알PDF의 OCR기능을 활용하는 방법입니다.

알PDF 프로그램의 경우 다음과 같은 기능들이 있습니다.

알PDF 기능들

알PDF 기능들

OCR기능을 사용하기 위해서는 알PDF를 설치하고 추가로 OCR 프로그램을 설치해야 사용이 가능합니다. 아래와 같은 경로로 들어가서 직접 다운로드받아 설치할 수도 있지만 알PDF 실행 후에도 자동으로 다운로드 받을 수 있고, 주의사항에 쓰여 있듯이 버전을 확인해야 하기 때문에 저는 실행후에 다운로드 받는 방법으로 진행하도록 하겠습니다.

우선 알PDF를 검색 또는 아래 링크를 이용해서 다운로드해주시기 바랍니다.

알PDF 뷰어 다운로드- PDF 변환/편집, PDF합치기/용량 줄이기

알PDF 뷰어는 PDF를 다양한 포맷으로 변환할 수 있고, PDF 합치기, PDF 용량 줄이기, 수정 등 PDF를 자유롭게 편집할 수 있는 PDF 변환/편집 프로그램입니다.

www.altools.co.kr

알툴즈에서 나오는 프로그램의 경우 무료이기 때문에 아래와 같이 제휴서비스를 통해 수익을 얻고 있습니다.

불편하시겠지만 알툴즈 입장에서는 어쩔 수 없는 것이기에 너그럽게 이해해주시고 필요하신 분은 체크하시고 설치하시면 될 것 같습니다. 알툴즈 직원은 아닙니다.

설치완료하면 바탕화면에 알PDF 바로가기가 생성되고, 실행해보도록 하겠습니다.

3. 알PDF 이용하여 텍스트 추출

첫 화면에서 열기 버튼을 눌러 예시로 PDF 파일을 하나 열어보겠습니다.

영어도 시험해 볼 겸 한국어와 영어가 동시에 존재하는 문서를 열어보았습니다.

OCR을 실행하기 위해 문자인식(OCR)을 클릭하면 다음과 같이 다운로드 화면이 나옵니다.

파일의 크기는 약390MB이며, 파일을 다운로드하고 실행해주시기 바랍니다.

설치가 완료되었다면 다시 파일을 불러오고 이전에 눌렀던 OCR 버튼을 클릭해줍니다.

언어를 선택하고 확인을 눌러주면 자동으로 분석이 들어갑니다.

분석은 파일의 크기에 따라 시간이 늘어날 수 있으며, 저는 26p 짜리 문서로 진행했고, 약 1분 30초 정도 걸렸습니다.

분석이 완료되면 다음과 같이 OCR파일이 생기며 원본은 그대로 보존됩니다.

OCR 분석된 파일을 확인해보면 다음과 같이 제목의 숫자나 띄어쓰기 등이 원본과 달라진 것을 확인할 수 있습니다.

그래도 무료프로그램이 이 정도면 굉장히 좋은 것 같습니다.

드래그를 하기 위해 선택도구 툴을 선택하고 드래그해보면 다음과 같이 텍스트가 선택됩니다.

이제 선택된 텍스트를 다음과 같이 메모장에 붙여넣을 수도 있게 됩니다.

구글 또한 OCR 기술을 활용하고 있으며 구글 번역기에서 사진을 찍어 사진에 들어있는 문자를 번역해주는 기능이 그것입니다. 이것을 이용하면 외국에 여행을 갔을 때 간판이나 표지판 등을 사진으로 찍어 바로 번역도 가능합니다.

OCR 기술이 아직은 좀 불편한 감이 있지만 앞으로의 발전이 더 기대되는 분야인 건 확실한 것 같습니다.

그럼 다음에 뵙도록 하겠습니다.

저작자표시 비영리 변경금지

댓글

티스토리툴바