сегодня я увидел кое что действительно впечатляющее.
жена моя прислала мне видео. вот это вот:
на видео видео проектор на стене в музее показывает обучающее видео про экономику. видео записано на телефон. поскольку дело происходит в публичном музее микрофон телефона услышал только группу студентов которая рядом орала и шаркала ногами. звук из видео телефон не записал почти (его еле слышно где-то 3-5 секунд ближе к середине видео и всё)
задача такая: написать текстовый файл того что сказано в субтитрах, которые есть на видео. т.е. это не вшитые в видео файл субтитры. это прям пиксели буковок в самом видео. причем изза особенностей видео-стены субтитры на голландском получились под 45 градусов и на английском гдето под 30. на видео есть момент где перед камерой проходит человек, закрывая экран.
я уже думал о том чтоб нарезать видео на скриншоты каждую секунду и эти кадры как то скормить в OCR сервис, типа гугл vision, и потом как то пытаться склеить это все.
gemini-2.5-pro-experimental-03-25) умеет понимать видео с ютуба. и я подумал, была не была. промпт на скриншотебарабанная дробь!

на этом у меня все. спасибо за внимание