Как вытащить субтитры из dvd. Грабим субтитры

Как вытащить субтитры из dvd. Грабим субтитры

02.04.2019

Если у вас есть DVD-диск с фильмом на иностранном языке, содержащий субтитры (особенно на языке оригинала), к тому же этой версии субтитров еще нет ни на одном из сайтов с субтитрами , то есть довольно быстрый способ извлечь эти субтитры из DVD-диска и сохранить их на жестком диске в виде 2-х компактных файлов: один - с расширением idx (размером 50-100 килобайт), другой - с расширением sub (размером от 1 до 20 мегабайт). Пара этих файлов - это и есть субтитры в графическом формате vobsub. Бесплатная программа, которая позволяет это сделать, называется , объем ее около 400 килобайт. Эта программа работает очень быстро - на извлечение субтитров из одного DVD-диска уходит около 10 минут (если все файлы DVD-диска у вас находятся на жестком диске, то еще меньше - около 5 минут).

Как работать с программой VSRip ? Запускаем программу. Нажимаем на кнопку "Load IFO...". Выбираем диск с DVD (или папку на жестком диске, куда скопирован DVD-диск), заходим в папку "VIDEO_TS", выбираем файл с расширением "IFO", содержащий в названии цифры. Причем начало названия этого файла должно совпадать с началом названия файлов с расширением "VOB", которые и являются фильмом (обычно эти VOB-файлы самые большие). Чаще всего этот IFO-файл называется "VTS_01_0.IFO" (в таблице ниже он выделен жирным шрифтом).

название файла размер файла
VIDEO_TS.BUP 12 288 DVD-меню
VIDEO_TS.IFO 12 288
VIDEO_TS.VOB 12 171 264
VTS_01_0.BUP 55 296 Глава 01
VTS_01_0.IFO 55 296
VTS_01_0.VOB 226 873 344
VTS_01_1.VOB 1 073 739 776
VTS_01_2.VOB 1 073 739 776
VTS_01_3.VOB 1 073 739 776
VTS_01_4.VOB 1 073 739 776
VTS_01_5.VOB 495 568 896
VTS_02_0.BUP 24 576 Глава 02
VTS_02_0.IFO 24 576
VTS_02_1.VOB 1 073 739 776
VTS_02_2.VOB 817 969 152

Нажимаем на кнопку "Save To...", и затем выбираем место на жестком диске, куда будут сохранены 2 файла (idx и sub), и как они будут называться. Нажимаем внизу кнопку "Next". Появляется меню "Extraction settings". В разделе "Languages" выбираем те языки, которые мы хотим сохранить (лучше выбирать все языки - кто знает, может быть ваши субтитры потом пригодятся кому-то, владеющему этим языком). Нажимаем на кнопку "Next" и терпеливо ждем, пока программа извлечет субтитры из DVD-диска, о чем она вам сообщит надписью "Done!".

В некоторых DVD-дисках (особенно это относится к сериалам и многосерийным мультфильмам) в меню "Extraction settings" вам нужно выбирать слева (раздел "Program Chains") разные части одной главы - PGC1, PGC2 и т.д. - иначе не возможно извлечь все субтитры. За один "проход" программа извлекает субтитры только из одной части (например, PGC1).

2. Извлечение субтитров, встроенных в видеопоток ("closed captioning", "closed captions")

Программа VSRip хоть и имеет опцию извлечения данного вида субтитров (галочка "Extract closed caption" в окне "Extraction setting"), но извлекает их с ошибками - очень часто многие строчки пропускает, к тому же всегда портит кодировку (буквы с диакритическими знаками превращаются в вопросительные знаки и т.п.). Есть другая программа, которая отлично справляется с этой задачей - . Как с ней работать? Скачиваем , инсталлируем ее и запускаем. В отдельном окне открываем проводник Windows, а в нем находим свой DVD-диск (или папку на жестком диске, куда скопированы все файлы DVD-диска). В проводнике же заходим в директорию VIDEO_TS, и находим там файлы с расширением "VOB", которые занимают больше всего места (в таблице выше с примером директории VIDEO_TS эти файлы выделены наклонным шрифтом). По одному файлу перетаскиваем их в окно программы CCextractor "input files" (по очереди файлы "VTS_01_1.VOB", "VTS_01_2.VOB", "VTS_01_3.VOB", "VTS_01_4.VOB", "VTS_01_5.VOB"). В строчке "Output file" вводим желаемое имя файла, например "matrix.srt". Нажимаем внизу кнопку "Start". Процесс пошел!

Если вы извлекли субтитры в графическом формате из DVD-диска, которых еще ни у кого нет, пожалуйста, поделитесь ими!!!

Субтитры на DVD представлены в графическом формате, т.е. в виде картинок. Нам же нужно получить субтитры в виде текста с таймингом - SRT. Процесс конвертации напоминает распознавание отсканированного текста в программе Finereader .

Запускаем SubRip и выбераем меню File > Open VOB(s) . В открывшемся окне нажимаем кнопку

Open IFO:

Выбераем IFO-файл, соответствующий первому сегменту основного фильма на DVD.

Подгружаются все соответствующие VOB-файлы, рядом с ними появляются галочки отметки (только эти файлы будут обрабатываться), а в выпадающем списке Language Stream можно посмотреть, какие субтитры есть в этом сегменте. В данном случае, как видим, у нас всего один поток субтитров (русский):

Имеем в виду, что иногда языки указаны неверно (например, указан французский, а на самом деле это китайский). Особенно это характерно для так называемых «пираток» и китайской видеопродукции.

Скрытые субтитры.

Скрытые субтитры (Closed Captions, или CC) представляют собой субтитры, внедренные в видеопоток. Изначально они были изобретены для титрования телевизионных видематериалов для глухонемых и для их просмотра нужна была специальная схема в телевизоре. Сейчас, конечно, скрытые субтитры уже не так актуальны, как 15–20 лет назад, но диски с ними до сих пор выпускают.

Раньше рип скрытых субтитров представлял собой некоторую проблему, но теперь, к счастью, с ними научился работать SubRip . При открытии IFO-файла он радостно сообщает: «Closed captions detected» и включает скрытые субтитры в общий список:

Рип субтитров.

Итак, нужные файлы отмечены, поток субтитров выбран. Теперь осталось нажать кнопку Start , после чего начинается собственно процесс, который и называется «рип субтитров».

Поскольку субтитры бывают выполнены самыми разными шрифтами, распознаватель текста

в SubRip реализован как самообучаемый. То есть встретив очередной незнакомый символ, про- грамма предложит ввести соответствующий ему символ с клавиатуры.

Вводим символ и нажмите ОК (или клавишу Enter ), и так далее, до самого конца фильма.

Пожалуйста, без ошибок! Неправильно введённый символ потом придётся исправлять по всему тексту.

Вообще говоря, если вы ошиблись, проще начать всё с самого начала, и в следующий раз будьте внимательнее.

Трудно будет только первые пять минут, затем SubRip очень быстро распознает практически весь текст, лишь изредка спрашивая незнакомые символы.

Рассмотрим некоторые проблемы и ситуации, которые могут возникнуть в процессе рипа:

1. Английские «L» и «i».

При распознавании английских субтитров обычно возникает проблема с буквами «L» (строчной) и «i» (прописной), поскольку начертание этих символов в большинстве шриф- тов практически идентично. Проблема эта решается только последующим прогоном через спелл-чекер с английским словарём.

2. Слипание букв.

Некоторые символы при распознавании «слипаются» по два-три-четыре. Это, собственно говоря, проблемой не является, просто вводим в текстовом поле все эти символы.

3. Буква «Ы».

При распознавании русских субтитров возникает проблема с буквой «ы» (как прописной, так и строчной), - SubRip распознаёт её, как два отдельных символа. При распознавании первого символа введите «мягкий знак», при распознавании второго, латинскую букву «i». Потом последовательность из этих двух символов можно будет по всему тексту заменить на «ы». Позже мы ещё вернёмся к этому вопросу.

4. Нераспознаваемые субтитры.

Иногда SubRip затрудняется с распознаванием символов в субтитрах и выдает следующее окно, предлагая ввести их полный текст:

В 99% случаев это происходит в многострочных субтитрах, когда межстрочный интервал невелик, а во второй строке присутствует заглавная буква «Й».

Просто вводим в поле полный текст субтитра и нажимаем кнопку Done .

5. Слипание строк.

Изредка SubRip «склеивает» символы, находящиеся в разных строках. В этом случае можно попробовать кнопками в блоке Best guess выбрать подходящую комбинацию, но на мой взгляд, значительно быстрее и, главное, надёжнее будет нажать кнопку Enter Manually и ввести текст субтитров целиком.

6. Теги и форматирование.

Для форматирования текста предназначены три флажка справа от кнопки OK : Bold , Italic и Underline . Тут, в принципе, ничего сложного нет - после ввода символа в текстовом поле нужно установить флажки, которые во внешних субтитрах превращаются в теги , , (точно такие же, как в HTML). Флажки эти сохраняются между репликами, то есть потом их нужно не забыть отключить.

Хотя SubRip поддерживает оформление текста курсивом, полужирным и подчеркиванием, на практике из всего этого великолепия используется разве что курсив (им в субтитрах при- нято выделять реплики, когда говорящего не видно в кадре). Да и то необходимость этого многими подвергается сомнению. Пользоваться или нет - решайте сами, но не забывайте, что теги не воспримаются некоторыми «железными» плеерами.

Сохранение субтитров.

Как только движок в верхней части окна доехал до конца и показал 100%, процесс закончен. Субтитры осталось только сохранить в файле.

В окне текста (снизу) нажмите кнопку с дискеткой (или выберите меню File > Save As ).

Если субтитры на русском языке, то скорее всего появится вот такой вопрос:

Это означает, что субтитры содержат какие-то символы помимо латинских букв и цифр (а точнее говоря, русские буквы в нашем случае), и сохранить их можно либо в какой-либо из нацио- нальных кодировок, либо в кодировке Unicode. Можно, конечно, выбрать и Unicode, но тогда субтитры перед подгонкой через Subtitle Workshop кому-то придется конвертировать обратно

в кодировку Windows 1251, так что лучше всего сделать это сразу. Выберите No .

Теперь в выпадающем списке CodePage выберите 1251: ANSI – Cyrillic и нажмите кнопку Save . Остаётся только ввести имя файла и сохранить субтитры.

Сохранение матриц.

Если вам часто приходится извлекаете субтитры с DVD или вы планируете сделать целую серию дисков (например, сериал), имеет смысл сохранить матрицу (это набор соответствий между графическими образами и текстовыми символами).

1. После сохранения субтитров выбираем меню Character Matrix > Save Character Matrix File As .

2. Вводим имя файла (произвольное, ну например «001») и сохраняем матрицу в каталоге ChMatrix (расширение по умолчанию - *.sum).

Во время рипа следующего диска достаточно нажать кнопку Search for match , и SubRip , про- смотрев все SUM-файлы в каталоге ChMatrix, подберет наиболее подходящую матрицу для текущего шрифта. Если матрица подобралсь удачно, рип субтитров будет сделан значительно быстрее, поскольку SubRip уже знает большинство из распознаваемых символов, и будет спрашивать вас только про новые.

После окончания рипа сохраняем матрицу (с добавленными новыми символами) под тем же именем (или под новым). Так можно собрать целую библиотеку матриц, которая позволит зна- чительно сократить трудозатраты на рип субтитров, если, конечно, вам приходится достаточно часто этим заниматься.

Постпроцессинг.

Полученные в результате рипа внешние субтитры можно рассматривать как почти готовый полу- фабрикат. Чтобы довести его до ума, необходимо выполнить ещё несколько несложных действий.

Замена символов.

Этот этап обработки субтитров выполняется в программе Notepad/Блокнот (хотя в принципе вы можете воспользоваться любым текстовым редактором, который работает с текстовыми файлами). Загрузите субтитры в редактор как обычный текстовый файл.

Наша задача - произвести в тексте некоторые замены (помните, мягкий знак и «i» заменить на букву «Ы» и некоторые другие). Делается это (в Блокноте ) - по Ctrl-H (или меню Edit > Replace ):

Введите заменяемый и заменяющий текст и нажмите кнопку Replace All .

Обычно бывает необходимо произвести следующие замены:

Сохраняем и закрываем файл.

Spell-check.

Загружаем субтитры в текстовый редактор и производим проверку орфографии. Если есть воз- можность, неплохо также вычитать текст и подправить неточности перевода.

Коррекция в Subtitle Workshop.

Загружаем субтитры в Subtitle Workshop и производим их проверку (Ctrl-I ). Зачастую SubRip накладывает субтитры друг на друга, оставляет слишком длинные строки, лишние пробелы, несколько реже субтитры со слишком короткой длительностью. Subtitle Workshop поможет исправить все эти мелкие дефекты.

Примечание: Чтобы подключить субтитры, как внешние в плеере Media Player Classic, нужно чтобы файл субти- тро назывался так же как фильм. Тогда плеер подгрузит их автоматически.

Включить их можно в меню Navigate > Subtitle Language. Например:

00001.ts - фильм 00001.srt - субтитры

Не нашли нужных субтитров в Сети? Не беда: их можно «вытащить» с диска DVD Video или Blu-ray. Но задействовать такие подстрочники в медиаконтейнерах невозможно. Поговорим сегодня о том, как сделать их совместимыми с большинством видеоформатов.

Сначала опишу задачу. Многие синефилы предпочитают смотреть фильмы на языке оригинала с субтитрами, даже если есть перевод. Причин тому несколько, но их обсуждение выходит за рамки статьи (скажу лишь, что я сам часто так делаю). Также для наших читателей не является секретом, что оптические носители постепенно уходят в прошлое. Те, у кого есть домашний медиасервер, или уже переводят свою киноколлекцию в бездисковый формат, или, по крайней мере, начали задумываться об этом. Чаще всего для домашнего хранилища используются файлы MKV.

Извлечение субтитров при помощи HD-DVD/Blu-Ray Stream Extractor. Можно вытащить из контейнера все потоки

Для их создания есть много инструментов – например, HandBrake (handbrake.fr), который я недавно описывал в статье «Всеядный универсал» (см. UPgrade #15-16 (570-571)). Единственная действительно серьезная проблема, с которой сталкиваются те, кто самостоятельно делает рипы, – это добывание субтитров. Дело в том, что в DVD Video и Blu-ray обычно применяются т. н. пререндеренные субтитры – они представляют собой уже готовую картинку, которая просто накладывается на кадр (подробнее о типах подстрочников: ru.wikipedia.org/wiki/Субтитры).

А вот в контейнеры Matroska можно «вшить» только текстовые (вообще-то есть способ поместить в файлы MKV и субтитры, «выдранные» с оптического диска, но делать это крайне не рекомендуется из-за проблем совместимости – многие плееры их просто не увидят). С другой стороны, поиск в интернете субтитров в текстовом виде (SRT / SMI) далеко не всегда дает нужный результат, особенно для изданий вроде «расширенная режиссерская версия» или, скажем так, не слишком популярных у обычного потребителя кинопродукции фильмов. Так что надо каким-то образом вытащить подстрочник с диска, перевести его в нужный формат, а потом скормить конвертеру.

На неискушенный взгляд задача сводится к обычному распознаванию текста. И действительно, если вы забьете в строку поиска Google фразу «FineReader Blu-ray», в первой же пятерке результатов обнаружится ссылка на достаточно подробную инструкцию на русском о том, как это сделать. Но, во-первых, придется привлекать коммерческое ПО, а во-вторых, процесс получается достаточно трудоемким. В общем, не наш выбор: минимизируем телодвижения и обойдемся бесплатным софтом.

Сначала эти самые пререндеренные субтитры надо как-то получить. Конкретный способ зависит от исходного формата. Скажу лишь, что в любом случае потребуется копия диска с фильмом на винчестере. Но поскольку взлом защиты – противоправное действие, то от описания оного придется воздержаться. Думаю, любой желающий без труда найдет мануал в Сети.

В случае с Blu-ray берем консольную утилиту eac3to (madshi.net/eac3to.zip). Можно, кстати, «прикрутить» к ней какую-нибудь графическую оболочку, коих существует довольно много. Лично мне приглянулась HD-DVD/Blu-Ray Stream Extractor (code.google.com/p/hdbrstreamextractor), которую я и рекомендую. Всего-то и нужно распаковать полученный архив в ту же директорию, где проживает eac3to, а затем запустить HdBrStreamExtractor.exe. Теперь следует нажать кнопку правее поля Input (всплывающая подсказка Select Input File(s)), выбрать самый объемный в папке STREAM файл с расширением *.m2ts, а затем указать директорию назначения в поле Output.

Осталось кликнуть по надписи Feature(s) и дождаться момента, когда программа завершит считывание контейнера. После этого в разделе Stream(s) появится список обнаруженных потоков. Хотите – вытаскивайте все, хотите – только субтитры: просто отметьте галкой то, что нужно извлечь, а потом запустите процесс кнопкой Extract.

Через некоторое время (которое зависит главным образом от быстродействия ПК; на современных машинах экстракция субтитров с дисков Blu-Ray обычно занимает чуть больше часа) в папке с результатами работы окажутся файлы с расширением *.sup и малоинформативными названиями вида 1_7_subtitle (второй номер, в данном случае – 7, означает номер потока). Это и есть наши субтитры «в картинках», которые теперь надо распознать.

Если речь идет о DVD Video, надо взять утилиту под названием VobSub Ripper Wizard от небезызвестного Gabest. Она входит в состав Gordian Knot и других пакетов аналогичного назначения. Впрочем, засорять винчестер ненужным софтом вовсе необязательно: VSRip проживает по адресу: sourceforge.net/projects/guliverkli/files/VSRip. Там находится архив ZIP, внутри которого – единственный экзешник. Интерфейс проги (которая, кстати, была выпущена в далеком 2003 году, но превосходно работает и в Windows 7 x64) примитивен.

Первым делом надо открыть файл со служебной информацией (кнопка Load IFO…), который соответствует контейнерам, в которых хранится сам фильм. Определить, какой именно, достаточно легко: нужно зайти в папку VIDEO_TS и найти в ней любой файл VOB объемом 1 Гбайт.

Предположим, он называется VTS_01_1 – тогда рипперу надо «скормить» VTS_01_1.IFO (другими словами, цифры в именах после набора символов «VTS_» должны совпадать). Что указывать в поле Save to… – догадайтесь сами (смайл). Далее жмем Next и на следующем этапе мастера отмечаем в списке Languages субтитры на нужных языках. Здесь важно, чтобы в колонке Vob/Cell IDs были выбраны все позиции – в противном случае субтитры будут извлечены с пропусками. Опять жмем Next и получаем на выходе два файла с одинаковыми именами и расширениями *.idx и *.sub. Они-то нам и нужны.

Внутренняя структура субтитров, вытащенных из DVD Video и Blu-ray, различается. Для последних можно взять распознавалку SupRip (exar.ch/suprip), которая в целом со своей задачей справляется – хотя
и не могу сказать, что идеально. «Расшифровка» английского ей дается намного лучше, чем русского (но хотите – попробуйте, никто не запрещает). С «дивидишными» субтитрами она незнакома. Народ советует для них софтину SubRip (zuggy.wz.cz) – обратите, кстати, внимание: названия различаются всего на одну букву, но это разные программы.

Со второй у меня как-то не сложилось: я так и не смог подружить ее с 64-битной «семеркой». На кривизну рук ваш покорный слуга раньше не жаловался – хотя, конечно, всякое случается. Может, истина – как в известном телесериале – где-то рядом, но я ее обнаружить не сумел. Потом я перепробовал еще несколько похожих утилит, но ни с одной не нашел понимания. Пишу об этом только для того, чтобы вы не повторяли моих ошибок.

Решение, причем универсальное, есть, и зовут его Subtitle Edit (www.nikse.dk/SubtitleEdit). Чем мне приглянулся этот редактор, так это тем, что он обучен распознавать пререндеренные субтитры обоих типов и не только. Распространяется как в виде архива, не требующего установки, так и в виде инсталлятора, по сути они ничем не отличаются. Интерфейс прекрасно русифицирован (Options > Choose Language), в наличии также имеется довольно подробная онлайновая справка на языке – уж простите за банальность – Пушкина и Достоевского. Для распознавания применяется оупенсорсный движок Tesseract OCR (code.google.com/p/tesseract-ocr).

Однако, прежде чем программа станет способна работать с русскими сабами, надо кое-что сделать. Для начала идем на интернет-страничку указанного выше движка, в разделе загрузок ищем файл rus.traineddata.gz, скачиваем и кладем в папку Tesseract\tessdata в программной директории Subtitle Edit. Потом перезапускаем редактор, открываем меню «Орфография» > «Получение словарей…» и в выпадающем списке выбираем пункт с названием Russian Spelling, Hyphenation, Thesaurus, а потом жмем «Загрузить» (думаю, особых пояснений здесь не требуется). Вот теперь все готово.

Для распознавания субтитров, полученных из DVD Video, используется пункт «Импорт/OCR VonSub (sub/idx) субтитров…» в меню «Файл», для аналогичной операции с сабами c оптических дисков, где хранится HD-видео, – «Импорт/OCR файла Blu-ray sup…».

В первом случае вас попросят еще выбрать поток с требуемым языком (если их там несколько), во втором – будет сразу запущен мастер. Далее порядок действий не различается. В поле «Метод OCR» надо оставить пункт «OCR с помощью Tesseract», в поле «Язык» выбрать тот, который соответствует языку субтитров, а в списке «Коррекция OCR/Орфография» умная прога сама подберет подходящий вариант, если установлены соответствующие словари. Еще советую включить опцию «Запрос при неизвестных словах» – тогда вас будут просить вручную подкорректировать неизвестное модулю проверки орфографии слово.

При некоторой тренировке на обработку русских сабов фильма длительностью 2 ч требуется минут 30-40. С английскими дело идет еще быстрее. Когда процесс будет завершен, текстовые субтитры надо записать на диск («Файл» > «Сохранить», в поле «Тип файла» следует оставить SubRip). Еще в Subtitle Edit есть очень полезная функция «Синхронизация», которая поможет вам пересчитать тайм-коды с одной частоты кадров на другую (пригодится, если вы хотите прикрутить сабы, полученные из DVD Video, к BD-рипу).

По идее, после получения субтитров SRT их можно сразу инкапсулировать в контейнер. Но поскольку автоматическое распознавание весьма частенько ошибается, лучше подрихтовать их в каком-нибудь редакторе. Мне лично понравился бесплатный Srt Corrector. Но поскольку места, отведенного под статью, как всегда, не хватило, ищите его подробное описание в «Маленьких программах» в этом же номере UPgrade. UP

Не нашли нужных субтитров в Сети? Не беда: их можно «вытащить» с диска DVD Video или Blu-ray. Но задействовать такие подстрочники в медиаконтейнерах невозможно. Поговорим сегодня о том, как сделать их совместимыми с большинством видеоформатов.

Сначала опишу задачу. Многие синефилы предпочитают смотреть фильмы на языке оригинала с субтитрами, даже если есть перевод. Причин тому несколько, но их обсуждение выходит за рамки статьи (скажу лишь, что я сам часто так делаю). Также для наших читателей не является секретом, что оптические носители постепенно уходят в прошлое. Те, у кого есть домашний медиасервер, или уже переводят свою киноколлекцию в бездисковый формат, или, по крайней мере, начали задумываться об этом. Чаще всего для домашнего хранилища используются файлы MKV.

Извлечение субтитров при помощи HD-DVD/Blu-Ray Stream Extractor. Можно вытащить из контейнера все потоки

Для их создания есть много инструментов – например, HandBrake (handbrake.fr), который я недавно описывал в статье «Всеядный универсал» (см. UPgrade #15-16 (570-571)). Единственная действительно серьезная проблема, с которой сталкиваются те, кто самостоятельно делает рипы, – это добывание субтитров. Дело в том, что в DVD Video и Blu-ray обычно применяются т. н. пререндеренные субтитры – они представляют собой уже готовую картинку, которая просто накладывается на кадр (подробнее о типах подстрочников: ru.wikipedia.org/wiki/Субтитры).

А вот в контейнеры Matroska можно «вшить» только текстовые (вообще-то есть способ поместить в файлы MKV и субтитры, «выдранные» с оптического диска, но делать это крайне не рекомендуется из-за проблем совместимости – многие плееры их просто не увидят). С другой стороны, поиск в интернете субтитров в текстовом виде (SRT / SMI) далеко не всегда дает нужный результат, особенно для изданий вроде «расширенная режиссерская версия» или, скажем так, не слишком популярных у обычного потребителя кинопродукции фильмов. Так что надо каким-то образом вытащить подстрочник с диска, перевести его в нужный формат, а потом скормить конвертеру.

На неискушенный взгляд задача сводится к обычному распознаванию текста. И действительно, если вы забьете в строку поиска Google фразу «FineReader Blu-ray», в первой же пятерке результатов обнаружится ссылка на достаточно подробную инструкцию на русском о том, как это сделать. Но, во-первых, придется привлекать коммерческое ПО, а во-вторых, процесс получается достаточно трудоемким. В общем, не наш выбор: минимизируем телодвижения и обойдемся бесплатным софтом.

Сначала эти самые пререндеренные субтитры надо как-то получить. Конкретный способ зависит от исходного формата. Скажу лишь, что в любом случае потребуется копия диска с фильмом на винчестере. Но поскольку взлом защиты – противоправное действие, то от описания оного придется воздержаться. Думаю, любой желающий без труда найдет мануал в Сети.

В случае с Blu-ray берем консольную утилиту eac3to (madshi.net/eac3to.zip). Можно, кстати, «прикрутить» к ней какую-нибудь графическую оболочку, коих существует довольно много. Лично мне приглянулась HD-DVD/Blu-Ray Stream Extractor (code.google.com/p/hdbrstreamextractor), которую я и рекомендую. Всего-то и нужно распаковать полученный архив в ту же директорию, где проживает eac3to, а затем запустить HdBrStreamExtractor.exe. Теперь следует нажать кнопку правее поля Input (всплывающая подсказка Select Input File(s)), выбрать самый объемный в папке STREAM файл с расширением *.m2ts, а затем указать директорию назначения в поле Output.

Осталось кликнуть по надписи Feature(s) и дождаться момента, когда программа завершит считывание контейнера. После этого в разделе Stream(s) появится список обнаруженных потоков. Хотите – вытаскивайте все, хотите – только субтитры: просто отметьте галкой то, что нужно извлечь, а потом запустите процесс кнопкой Extract.

Через некоторое время (которое зависит главным образом от быстродействия ПК; на современных машинах экстракция субтитров с дисков Blu-Ray обычно занимает чуть больше часа) в папке с результатами работы окажутся файлы с расширением *.sup и малоинформативными названиями вида 1_7_subtitle (второй номер, в данном случае – 7, означает номер потока). Это и есть наши субтитры «в картинках», которые теперь надо распознать.

Если речь идет о DVD Video, надо взять утилиту под названием VobSub Ripper Wizard от небезызвестного Gabest. Она входит в состав Gordian Knot и других пакетов аналогичного назначения. Впрочем, засорять винчестер ненужным софтом вовсе необязательно: VSRip проживает по адресу: sourceforge.net/projects/guliverkli/files/VSRip. Там находится архив ZIP, внутри которого – единственный экзешник. Интерфейс проги (которая, кстати, была выпущена в далеком 2003 году, но превосходно работает и в Windows 7 x64) примитивен.

Первым делом надо открыть файл со служебной информацией (кнопка Load IFO…), который соответствует контейнерам, в которых хранится сам фильм. Определить, какой именно, достаточно легко: нужно зайти в папку VIDEO_TS и найти в ней любой файл VOB объемом 1 Гбайт.

Предположим, он называется VTS_01_1 – тогда рипперу надо «скормить» VTS_01_1.IFO (другими словами, цифры в именах после набора символов «VTS_» должны совпадать). Что указывать в поле Save to… – догадайтесь сами (смайл). Далее жмем Next и на следующем этапе мастера отмечаем в списке Languages субтитры на нужных языках. Здесь важно, чтобы в колонке Vob/Cell IDs были выбраны все позиции – в противном случае субтитры будут извлечены с пропусками. Опять жмем Next и получаем на выходе два файла с одинаковыми именами и расширениями *.idx и *.sub. Они-то нам и нужны.

Внутренняя структура субтитров, вытащенных из DVD Video и Blu-ray, различается. Для последних можно взять распознавалку SupRip (exar.ch/suprip), которая в целом со своей задачей справляется – хотя
и не могу сказать, что идеально. «Расшифровка» английского ей дается намного лучше, чем русского (но хотите – попробуйте, никто не запрещает). С «дивидишными» субтитрами она незнакома. Народ советует для них софтину SubRip (zuggy.wz.cz) – обратите, кстати, внимание: названия различаются всего на одну букву, но это разные программы.

Со второй у меня как-то не сложилось: я так и не смог подружить ее с 64-битной «семеркой». На кривизну рук ваш покорный слуга раньше не жаловался – хотя, конечно, всякое случается. Может, истина – как в известном телесериале – где-то рядом, но я ее обнаружить не сумел. Потом я перепробовал еще несколько похожих утилит, но ни с одной не нашел понимания. Пишу об этом только для того, чтобы вы не повторяли моих ошибок.

Решение, причем универсальное, есть, и зовут его Subtitle Edit (www.nikse.dk/SubtitleEdit). Чем мне приглянулся этот редактор, так это тем, что он обучен распознавать пререндеренные субтитры обоих типов и не только. Распространяется как в виде архива, не требующего установки, так и в виде инсталлятора, по сути они ничем не отличаются. Интерфейс прекрасно русифицирован (Options > Choose Language), в наличии также имеется довольно подробная онлайновая справка на языке – уж простите за банальность – Пушкина и Достоевского. Для распознавания применяется оупенсорсный движок Tesseract OCR (code.google.com/p/tesseract-ocr).

Однако, прежде чем программа станет способна работать с русскими сабами, надо кое-что сделать. Для начала идем на интернет-страничку указанного выше движка, в разделе загрузок ищем файл rus.traineddata.gz, скачиваем и кладем в папку Tesseract\tessdata в программной директории Subtitle Edit. Потом перезапускаем редактор, открываем меню «Орфография» > «Получение словарей…» и в выпадающем списке выбираем пункт с названием Russian Spelling, Hyphenation, Thesaurus, а потом жмем «Загрузить» (думаю, особых пояснений здесь не требуется). Вот теперь все готово.

Для распознавания субтитров, полученных из DVD Video, используется пункт «Импорт/OCR VonSub (sub/idx) субтитров…» в меню «Файл», для аналогичной операции с сабами c оптических дисков, где хранится HD-видео, – «Импорт/OCR файла Blu-ray sup…».

В первом случае вас попросят еще выбрать поток с требуемым языком (если их там несколько), во втором – будет сразу запущен мастер. Далее порядок действий не различается. В поле «Метод OCR» надо оставить пункт «OCR с помощью Tesseract», в поле «Язык» выбрать тот, который соответствует языку субтитров, а в списке «Коррекция OCR/Орфография» умная прога сама подберет подходящий вариант, если установлены соответствующие словари. Еще советую включить опцию «Запрос при неизвестных словах» – тогда вас будут просить вручную подкорректировать неизвестное модулю проверки орфографии слово.

При некоторой тренировке на обработку русских сабов фильма длительностью 2 ч требуется минут 30-40. С английскими дело идет еще быстрее. Когда процесс будет завершен, текстовые субтитры надо записать на диск («Файл» > «Сохранить», в поле «Тип файла» следует оставить SubRip). Еще в Subtitle Edit есть очень полезная функция «Синхронизация», которая поможет вам пересчитать тайм-коды с одной частоты кадров на другую (пригодится, если вы хотите прикрутить сабы, полученные из DVD Video, к BD-рипу).

По идее, после получения субтитров SRT их можно сразу инкапсулировать в контейнер. Но поскольку автоматическое распознавание весьма частенько ошибается, лучше подрихтовать их в каком-нибудь редакторе. Мне лично понравился бесплатный Srt Corrector. Но поскольку места, отведенного под статью, как всегда, не хватило, ищите его подробное описание в «Маленьких программах» в этом же номере UPgrade. UP



© 2024 beasthackerz.ru - Браузеры. Аудио. Жесткий диск. Программы. Локальная сеть. Windows