сегодня я увидел кое что действительно впечатляющее.

жена моя прислала мне видео. вот это вот:

на видео видео проектор на стене в музее показывает обучающее видео про экономику. видео записано на телефон. поскольку дело происходит в публичном музее микрофон телефона услышал только группу студентов которая рядом орала и шаркала ногами. звук из видео телефон не записал почти (его еле слышно где-то 3-5 секунд ближе к середине видео и всё)

задача такая: написать текстовый файл того что сказано в субтитрах, которые есть на видео. т.е. это не вшитые в видео файл субтитры. это прям пиксели буковок в самом видео. причем изза особенностей видео-стены субтитры на голландском получились под 45 градусов и на английском гдето под 30. на видео есть момент где перед камерой проходит человек, закрывая экран.

если отправить звуковую дорожку в сервис разпознавания речи, получим вот такое. т.е. имен…
если отправить звуковую дорожку в сервис разпознавания речи, получим вот такое. т.е. именно то что орала школьная группа и шум всякий

я уже думал о том чтоб нарезать видео на скриншоты каждую секунду и эти кадры как то скормить в OCR сервис, типа гугл vision, и потом как то пытаться склеить это все.

и тут я услышал что новая модель от гугл (gemini-2.5-pro-experimental-03-25) умеет понима…
и тут я услышал что новая модель от гугл (gemini-2.5-pro-experimental-03-25) умеет понимать видео с ютуба. и я подумал, была не была. промпт на скриншоте

барабанная дробь!

Thread image 3

на этом у меня все. спасибо за внимание

мне только что ютуб порекомендовал видео у которого 5(!) просмотров на канале с 78(!) подписчиками.

мне только что ютуб порекомендовал видео у которого 5(!) просмотров на канале с 78(!) подписчиками.

мне только что ютуб порекомендовал видео у которого 5(!) просмотров на канале с 78(!) подписчиками. причем видео неплохое https://www.youtube.com/watch?v=…

Смотри что я нашел.

Смотри что я нашел. Вот есть сегодня 2 музыкальных клипа в trending: https://www.youtube.com/watch?v=bYIODnKGNdg и https://www.youtube.com/watch?v=gz9BRl7…

вот что gpt-4v позволяет стоить)

вот что gpt-4v позволяет стоить)