Большой проблемой является нехватка обучающего материала для нейросетей. Вот, допустим, у нас сейчас используется "переобученная" с MobileNetV2 сетка. Чтобы её "доучить" до вида с высоты (под углами от 10 до 80 град., ну, то есть, примерно как будет видеть камера дрона), необходимо либо постоянно летать, причем над характерными объектами и снимать это все дело для формирования данных к обучению, либо "дергать" с нета картинки и видео. Постоянно летать и снимать - не вариант, - можно месяцами только этим заниматься, да и то - без гарантии приемлемой ошибочности. Поэтому - пока второй вариант. Но тоже - сильно "не быстрый"
Кстати, вот как выглядят RPi3 и RPi4 с подключенными ускорителями:
У 4-ой малины пришлось ставить радиатор раз в 8 более того, что на 3-ей, все равно разогревается нехило до 70-75 град. при 100% загрузке, но хоть в троттлинг не впадает и ладно..
Возвращаясь к обучению - есть спец. ПО, которое трансформирует 1 фото в десятки (а то и сотни) "искаженных" именно для обучения НС.
Интересная ситуация получилась - если один объект перекрывает другой по классификации объект, то задний - не распознается (чего нет в случае перекрытия однотипными объектами).
Это видно, например, на одном из предыдущих фото на автовыставке, где "person" перекрывает "vehicle".
А на этом - наоборот - авто перекрыл человека, и он не распознался (в нижней части фото):
Отправлено спустя 57 минут 45 секунд:Рассуждая о нейросетях, можно сказать, что никакого "чуда", как многим хотелось бы в это верить, в них нет

.
Сильно упрощенно, можно представить нейросети некими фильтрами по определенным условиям.
Ну, такое маленькое "полу- чудо", это то, что эти самые условия современные нейросети формируют сами автоматически в процессе обучения (и в этом -то и заключается основная заслуга разработчиков - в создании такой программной конструкции "автоматической методики обучения"). То есть, нам надо только нагружать данными и говорить, что на всех снимках условные "котики". Сеть сама разгребет на признаки, выявит между ними корреляции и запомнит их в виде ядер и параметров для каждого уровня абстракции. Качество этой проработки будет зависеть от количства и разнотипности обучающих данных, характера самой задачи, топологии сети, количества ядер (фильтров) и параметров и проч. Настолько многомерные данные, что задача является нетривиальной, как минимум.
Надо сказать, что до настоящего момента нет никакой общей мат. модели нейронных сетей. Какие-то частности, безусловно, описаны, но вот в общем - даже спорят на уровне маститых специалиство - возможно ли это в принципе.
Вот и получается, что сети строятся в основном методом "научного тыка" под более-менее конкретную задачу - "а давай-ка тут свяжем эти слои обратной связью, - вдруг лучше будет?.." Связали - лучше не стало (или стало

)
Поэтому, в настоящее время все скатилось к тому, что мировые соревнования, скажем, по распознаванию изображений, выигрывают те группы и коллективы, у которых тупо больше ресурсов для такого вот своеобразного "перебора вариантов".
По сути, сети изначально абсолютно все равно с какими задачами, и, соответственно, типами данных работать. Ту же мобайлнет, что будем использовать для object detection, мы могли бы, к примеру, использовать и для распознавания речи, для игры в те же игры и проч. Все дело в обучении..
