Допустим, есть у нас картинка, на который изображены три кубика с буквами Т, О, К.

Предложим, есть у нас вот такой простенький, ясный, однозначный промпт для создания видео.
Кубик с буквой Т перемещается в левый нижний угол. Кубик с буквой О раскрашивается в красный цвет. Кубик с буквой К превращается в шар.
Казалось бы, тут ошибиться невозможно.
Но нейронки могут всё!
В том числе делать странные ошибки при выполнении простейших заданий.
Результат выполнения вот такой.

На меня результат произвёл шокирующее впечатление.
Странные передвижения, а в итоге появился кубик с буквой Б, и три шара без букв, два из которых золотистого цвета.
Не просто мелкие ошибки, а вообще всё не так.
Как такое может быть? Задание ведь максимально простое. Я же не требую каких-то сложных визуальных эффектов. Простейшие движения. Кубиков всего три, буквы чётко прорисованы. Фон чистый. Ничто не должно помешать правильно выполнить задание.
После этого ещё говорят, что делать видео с помощью нейронок - простейшее занятие. Ага! Блажен, кто верует. И где тут знаменитое "компьютерное зрение"?
Попробуйте сами выполнить это и подобные упражнения и публикуйте результаты. Будем обсуждать. Хорошо, если тут выступит эксперт по нейронкам и прокомментирует этот тест.