HaGRIDv2-1M: 1 миллион изображений для распознавания статичных и динамических жестов
Датасет HaGRID , о котором мы писали в одном из постов , — это самый полный набор данных для построения системы распознавания жестов. Он стал очень популярным внутри комьюнити и нашел применение в таких задачах, как обучение и оценка нейронных сетей для распознавания жестов (о чем писали, например, тут и тут ), а также в таких неочевидных приложениях, как генерация анатомически корректных рук с помощью диффузионных моделей (об этом можно почитать тут , тут и тут ). Данная статья посвящена расширенной версии датасета — HaGRIDv2-1M . Тут мы подробно расскажем о её отличиях от первой версии, поделимся результатами экспериментов и обсудим новые возможности. Кроме того, мы представляем новый real-time алгоритм для детекции динамических жестов, полностью обученный на HaGRIDv2-1M . Данные, код и предобученные модели можно найти в репозиториях HaGRID , dynamic gestures , а более подробно ознакомиться с работой можно в статьях HaGRIDv2-1M , HaGRID .