본문 바로가기
잡담/자막 잡담

하드섭(HardSub) 영상 / 싱크포함 자막 추출하기

by 아무나레이 2022. 10. 6.
반응형

일단 시작하기에 앞서

1. 충분히 읽어본 후, 완전히 이해한 뒤에 따라해보자.

띄엄띄엄 읽어보면서 따라하다가 '이거 안되는데요? 저거 안되는데요? 에이 주작~' ....???? 이런 댓글 다 무시하겠다.

2. 끔찍한 오타가 숨어있을지 모른다.. 이런거 꼭 짚고 넘어가야 직성이 풀리는 사람들은 절대 보지 말기 바란다.

 

그럼 시작

일단 유료프로그램들 사자니 편하기는 할것 같은데 몇번 쓰고 말 것 같아서 구입이 망설여지는 사람 <- 주인장

이런 사람들이 나 혼자일거라 생각 않기 때문에

그런 사람들을 위해 유료프로그램은 사용하지 않는다. 다 무설치버전이거나 오픈소스인 무료 프로그램들이다.

 

우선 준비물은

가장 중요한 비디오섭파인더(VideoSubFinder) 자막 이미지 추출에 꼭 필요하다.

이걸로 자막 싱크파일도 만들어 줌

글 작성 당시 5.60이었던 버전이 5.80으로 업그레이드 되었다.

VideoSubFinder 5.80 Free Download - VideoHelp

Download VideoSubFinder 5.80 Windows 64-bit 를 클릭해 다운받아 압축만 풀면 된다.

두번째로 비디오섭파인더로 자막 이미지를 추출한 것을 하나의 그림 이미지로 이어붙여줄 PhotoScape X

세번째로 그림 이미지를 편집 가능한 글자로 바꾸어 줄 OCR프로그램

마지막으로 SubtitleEdit

txt파일을 자막으로 바꿔줄 프로그램

 

옴션 1. Notepad++ 이번 자막 추출 작업상, 자막 줄 수를 확인하기 편해서 사용

옵션 2. BatchNamer 이름 일괄변환 프로그램

우선 비디오섭파인더를 실행하면

이런 윈도우가..

특별히 손대야 할 옵션은 없다. 그냥 세팅된 그대로 해도 문제가 없다.

아래 보이는 세개의 탭 중 가운데 탭, 세팅에 들어가보면 하드웨어 가속을 쓸것인지 CPU를 사용할것인지 GPU를 사용할 것인지 하는 항목이 있는데, 체크를 하나 안하나 주인장 경우에는 50초~1분 언저리 차이밖에 안나서 사용안한다.

참고로 주인장은 i5 3세대 아이비브릿지다. 거진 10년이 다 되어가는 컴퓨터다.

글픽카드만 거의 최근에 바꿨는데 GTX 1660. 이것도 몇년전에 바꾼거다.. 몇년전에 바꾼게 최근이라고.. -_-

..............

암턴! 가끔 하드웨어 가속을 사용하면 에러나는 영상이 있어서 그냥 꺼버린다. (일단 지금 테스트한 영상이 30여분 짜리라서 금방금방 끝난건지도 모르지만) 아무튼 사용할지 안할지는 본인선택.

아무튼 파일메뉴에서 자막을 추출하고자하는 하드섭 영상을 불러온다

OpenCV던지 FFMPEG던지 큰 차이는 없다
아래에 선이 있는데 이 부분이 자막을 커버할 수 있으면 된다

영상 자막이 나오는 부분으로 이동해 선 위치를 정해주고 

이처럼 영상 처음으로 돌려준다

그런후에

Search탭에서 Run Search 클릭

그럼 프로그레스 퍼센트가 올라가는데 24~5 분 영상에 대략 5분 남짓 걸렸다.

이제 OCR탭에서 Create Cleared TXT Images 를 눌러주면 아까 Run Search한 것처럼 다시 프로그레스 퍼센트가 올라가며 작업이 시작되는데 이번에는 그리 오래 걸리지 않는다.

다음으로 Cleate Empty Sub From Cleared TXT Images를 눌러주면

자막파일을 저장하는데 이걸 열어서 보면

자막싱크를 가지고 오고 자막의 지속시간을 내용으로 하는 Sub Duration: xx 파일이 만들어진다.

이제 비디오섭파인더 내에 TXTImages라는 폴더를 보면 안에 파일들이 생겼는데 이게 클리어 텍스트 파일이다.

지금 이 작업의 경우에는 315개의 파일이 생겼다. 다른 말로 자막 갯수가 315개라는 말. 이 파일을 적당한 곳에 카피한다. 그냥해도 상관은 없지만, 항상백업을 만들어두는 습관을 가지자.. 잘못된 후에 후회해봤자 소용없다. 

반응형

00_xxxxxx 라 이름도 길고 어지러워서 BatchNamer라는 파일 이름 일괄 변경 프로그램으로 정리해주었다.

한가지 팁이라면 이 프로그램에는 좋은 기능이 있다. 프리셋이라고 하는건데. '정해진 틀 안에서' 명령들을 짜놓고 매크로와 비슷하게  F1~F5에 할당하는 기능이다.

이 사용법은 지금 작업과는 상관이 없으니 나중에 따로 포스팅하도록 한다.. 아무튼

이름을 산쯧하게(!) 바꾼 후

글자로 인식시켜줘야 하는데 315개의 파일을 일일히 하나하나 인식시켜줘도 상관없다. 하지만 줄일 수 있는건 줄여야 한다. 줄일 수 있는데도 안줄이면.. 

아무튼 옆으로만 기~다란 이 이미지들을 A4 사이즈처럼 만들어줄 툴이 필요하다.

포토샵등으로 하나하나 붙여줘도 되겠지만..

이 경우에는 PhotoScape X의 이어붙이기 기능을 쓰면 좋을듯 하다.

이어붙이기

여기서 주의할 점

위쪽 수직, 수평, 바둑판 탭은 사진을 이어붙이는 방식이고

주목해야 할 곳은 다음에 맞추기 옵션.

OCR글자를 인식시켜야 하므로 용량이 커지더라도 원본크기로 맞추는게 좋다.

가로폭 500에 맞춰도 얼추 인식이 되나 정확도가 크게, 아주 크게 떨어진다.

게다가.. 용량이 커져봤자.. 15MB 하드디스크 쓰는 사람들 요즘 없잖습니까? / 아무튼 주인장의 경우에는 55kb짜리 50개 붙여서 5메가 정도 나왔다. TB하드가 주로 쓰이는 요즘 신경쓸 부분이 아니다.

아무튼 50개씩 붙여서 315개였던 파일들을 7개로 줄였다. OCR 인식을 위해 조금 파일 갯수가 늘어나더라도 조금 적은 양의 이미지를 이어붙이는것도 현명한 방법이다.

주인장 생각에는 12~5개가 미니멈이고, 20여개정도가 적정수준인듯. 여기서는 50개로 대폭..

이건 빠르게 작업하느냐 안전하게 작업하느냐의 문제

아무튼 저장을 해주면 

이미지 품질은 역시 OCR 인식을 위해서 100!!

파일이름이 자동으로 예쁘고 / 알아보기 쉽게 / 아주 군더더기 없이 / 깔끔하게 저장된다. 기부니가 좋다.. 헤헤

이제 OCR 인식을 위해 BubbleReader라는 프로그램을 쓴다.

버블리더의 사용법은 생략한다. 이유는 너~무 쉬우니까 -_-

아무튼간에 글자로 인식시킨 후에, 줄 수를 알아보기 편한 notepad++등으로 이미지 갯수인 315줄로 후편집 & 저장하고

여기서 조금 시간이 걸리고 지루하다.

subtitleEdit에서 마무리해준다.

비디오섭파인더에서 Empty Sub를 만들어준 것을 SubtitleEdit로 열고

파일 메뉴의 가져오기에서 일반 텍스트를 선택해, 버블리더로 OCR 인식시켜 txt로 저장한 파일을 불러온다.

위쪽의 텍스트 파일 열기를 클릭하고 / Notepad++등으로 저장한 txt파일을 불러온 후에

를 클릭해주고 확인을 누르면 / Empty Sub 싱크 그대로 텍스트 파일만 줄에 맞추어 삽입된다.

이제 입맛에 맞게 수정해주고 오탈자등을 검수하거나 / 번역을 해주면 끝이다.

아주아주 길고 복잡한 작업도 아니지만, 그렇다고 쉽고 간편한 작업도 아니다.

마지막으로 이건 나 개인의 작업 방식일 뿐 절대방식이 아니다.  비디오섭파인더로 자막 이미지 추출&싱크 자막 추출해서 지금까지 소개한 방법을 다 건너뛰고 바로 섭타이틀에디터로 가 OCR 인식시켜서 한줄한줄 입력해주는 방법도 있고

그건 시간 무진장 걸린다. 인식도 잘 안되고

어쨌든 여러가지다..

 

참고로 지금 소개한 방법으로 25분 비디오에

손 / 동체시력 / 머리회전이 빠른 사람은 최소 2~30분이면 하나 만든다.

반응형

'잡담 > 자막 잡담' 카테고리의 다른 글

경이롭다  (0) 2023.01.16
그만 좀 해라, 이것들아  (0) 2022.10.10
대단하세요 정말~  (0) 2022.09.14
제국.. 제국..  (0) 2022.09.03
자막관련 포스팅 올 스톱합니다  (0) 2022.04.05

댓글