본문 바로가기
IT 인터넷 이야기

OCR 문서 이미지 텍스트 변환하는 방법(구글드라이브, PDF프로그램, Powertoys)

by 나꽁이 2023. 2. 6.

 

OCR(Optical Character Reader)은 빛을 이용해서 종이나 사진 등에 있는 글자를 읽는 기술을 말합니다. 또한 주차장에서 자동차 번호판을 인식하는 것 또한 OCR을 활용한 예시라고 할 수 있습니다.

 

그런데 보통 우리가 사용하는 OCR은 기계 장치를 이용하는 것보다는 수정이 안되는 PDF 파일에서 글자를 추출하거나 사진(image)에 있는 글자를 추출하는 용도로 사용되는 것이 일반적입니다.

 

그래서 오늘 포스팅은 문서나 이미지에서 OCR을 활용해 텍스트를 추출할 수 있는 프로그램 또는 유틸에는 어떤 것이 있고 어떤 특징을 가지고 있는지 알아보도록 하겠습니다.

 

 


목차

1. 구글 드라이브를 이용한 OCR

2. Adobe Acrobat, Abbyy, 알PDF 등 PDF 프로그램을 이용한 OCR

3. Powertoys의 텍스트 추출을 이용한 OCR

  1. Powertoys의 텍스트 추출기 사용방법
  2. 언어팩 추가

1. 구글 드라이브를 이용한 OCR

가장 먼저 우리가 익히 알고있는 구글 드라이브를 이용한 방법입니다.

이미지나 PDF 등 텍스트가 있는 파일을 구글 드라이브에 업로드를 하고 그 파일 위에서 [마우스 우클릭 - 연결 앱 - Google 문서]를 차례대로 클릭합니다.

 

저는 위의 사진처럼 pdf와 png파일(사진)로 테스트 했으며 결과는 다음과 같습니다.

모두 텍스트 복사가 가능한 문서로 변경되었습니다. png 파일의 글색상은 왜 저렇게 나온것인지 모르겠지만 텍스트 추출은 나름 만족스러운 결과를 얻을 수 있었습니다.

 

제가 아는 한도내에서는 다른 어떤 프로그램이나 사이트를 이용해도 구글 드라이브 정도의 정확도보다 높은 곳은 없었습니다. 그래서 저는 아직까지 대용량으로 OCR을 이용해야할 경우에는 구글 드라이브를 이용하고 있습니다.

 


2. Adobe Acrobat, Abbyy, 알PDF 등 PDF 프로그램을 이용한 OCR

Adobe Acrobat, Abbyy, 알PDF 등 대표적인 PDF 프로그램을 이용하면 OCR을 실행할 수 있습니다.

하지만 단점이 있습니다.

  1. 별도로 프로그램을 설치해야 합니다.
  2. 알PDF는 무료로 사용이 가능하지만 유료 프로그램도 있습니다.
  3. 개인적으로 정확도가 구글 드라이브보다 떨어집니다.

 

OCR을 이용하기 위해서 프로그램을 설치하는 것만으로도 이미 탈락이라고 생각합니다. 또한 무료 프로그램도 있지만 나름 유명하다 싶은 프로그램은 유료 결제가 필요할 수 있습니다.

 

더구나 가장 큰 이유는 제가 예전에 테스트해본 결과 정확도에서 구글 드라이브에 밀린다는 느낌을 받았습니다.

따라서 PDF 전용 프로그램은 PDF 관련 작업이 필요할 경우에 사용하시는 것을 추천드리고, OCR을 하려고 PDF 프로그램을 설치하시는 것은 비추천 드립니다.

 


3. Powertoys의 텍스트 추출을 이용한 OCR

사실 이걸 이야기 하려고 빌드업을 했습니다.

 

Powertoys라는 프로그램이 있습니다.

Microsoft에서 만든 프로그램으로 윈도우를 사용하신다면 아주 유용한 프로그램으로 반드시 설치해보셨으면 하는 프로그램 중 하나입니다.

 

마이크로소프트 스토어에서 프로그램 설치하는 방법은 아래 글을 참고해주시기 바랍니다.

 

Microsoft Store에서 프로그램 설치하는 방법(Powertoys 설치)

Microsoft Store에는 유용한 프로그램들이 많습니다. 원래 개인 홈페이지에서 배포하던 프로그램도 마이크로소프트 스토어에 출시해서 배포하는 경우도 많다보니 점점 좋은 프로그램이 많아지는

naggong.tistory.com

 

 

설치가 완료되면 Powertoys프로그램 설정으로 이동합니다.

아래에서 2번째에 보시면 텍스트 추출이라는 기능이 있습니다.(혹시 안보이시면 Powertoys 업데이트가 안되어있는 것이니 업데이트를 진행해주세요.) 이 기능이 OCR 기능인데 이걸 이용해서 간단하게 문서나 이미지에서 텍스트를 추출할 수 있습니다.

 

 

미리 말씀드리지만 테스트해본 결과 구글 드라이브의 OCR 보다 정확도는 떨어집니다.

하지만 이것의 가장 큰 장점은 정확도가 아니라 단축키만 누르면 바로 실행된다는 것입니다.

보통 이미지의 경우 구글렌즈가 제일 간편하다고 생각하시는데 이건 더 간편합니다.

 

Powertoys의 텍스트 추출기 사용방법

Powertoys 프로그램을 실행시키고 텍스트 추출기를 켜주시고 원하시는 단축키를 지정하시면 사용준비가 완료됩니다.

 

실제로 단축키를 누르면 아래처럼 마우스 드래그로 텍스트를 추출할 수 있습니다.

 

이렇게 추출한 텍스트는 바로 클립보드에 저장됩니다.

메모장 같은 곳에 Ctrl+V(붙여넣기)를 해보면 다음과 같이 추출된 텍스트가 나타납니다.

 

미리 말씀드렸듯이 영어를 기준으로 만들어진 프로그램이라서 그런지 정확도가 다소 떨어집니다.

하지만 이 프로그램을 추천하는 건 정확도 때문이 아니라 간편하고 편리하기 때문입니다. 이보다 더 쉽고 빠르게 텍스트를 추출할 수 있는 방법은 없을 것 같습니다.

 

따라서 장문의 글이나 문서는 구글 드라이브를 사용하시고 간단하게 텍스트를 추출해야 할 것이 있다면 Powertoys의 텍스트 추출기를 사용하시는 것을 추천드립니다.

 

언어팩 추가

텍스트 추출기 사진 중간정도에 ‘텍스트 추출기는 OCR 팩이 설치된 언어만 인식할 수 있습니다.’라는 문구가 있듯이 한글이나 영어가 아닌 다른 외국어를 추출하려면 언어팩 설치가 필요합니다.

 

위의 링크를 클릭해보시면 Powershell을 이용한 언어팩 설치방법이 안내되어 있는데 컴퓨터를 잘 다루신다면 문제가 없겠지만 위 내용이 어려우시다면 설정을 통해 언어팩을 설치할 수 있는 방법이 있습니다. 자세한 내용이 궁금하시다면 아래 링크를 참조해주시기 바랍니다.

 

윈도우 언어팩 추가 방법

윈도우에서 한글이나 영어가 아닌 외국어를 사용하기 위해서는 언어팩을 추가해야합니다. 이번 포스팅에서는 언어팩을 설치하는 이유와 설치하는 방법에 대해서 알아보도록 하겠습니다. 목차

naggong.tistory.com

 

 


🔰 같이 읽어보면 좋은 글 🔰

 


반응형

댓글