Трёхмерное отслеживание движений человека с использованием визуального скелетирования и стереоскопического зрения.
Измерение человеческого движения представляет собой одну из самых интересных и сложных тем метрологии. Решения для оптического отслеживания движения можно разделить на системы с маркерами и безмаркерные. В основном представленные первой группой, современные технологические нормы основываются на устоявшихся принципах и методиках измерения: положение суставов и ориентация сегментов тела получаются за счёт трёхмерной локализации пассивных (реже активных) маркеров, фиксируемых на участках тела и конечностях, будучи захваченными откалиброванной многокамерной стереофотограмметрической видеосистемой.
Человеческое тело представляет собой сложную самозакрывающуюся и лишь частично жёсткую физическую сущность. Таким образом, вместо того, чтобы напрямую отслеживать положение человеческого тела, эти системы работают, идентифицируя общие черты объекта на последовательных изображениях (фиксируя с привязкой по времени репетерные точки или ориентиры), которые используются для отслеживания движения ряда твёрдых тел, соединённых вращательными соединениями. Это решение обеспечивает наилучшие метрологические характеристики с точки зрения точности локализации маркеров (обычно точность составляет порядка десятых долей миллиметра), воспроизводимости и частоты измерений. Из-за высокой стоимости оптических систем, сложности в установке и потребности в персонале для проведения записи и размещения маркеров на определённых анатомических ориентирах системы на основе маркеров в основном используются в специализированных лабораториях для клинических / реабилитационных приложений, либо в студиях, занимающихся разработкой компьютерных игр/симуляторов, а также в цифровой анимации.
Разработка безмаркерных именно оптических систем для своевременной, ненавязчивой и внешне достоверной реконструкции движений человека по-прежнему остаётся открытой задачей, так как в мире технологии захвата движения (Motion Capture) посредством использования объёмных IMU-датчиков произошёл прорывной прогресс ещё несколько лет назад. Алгоритмы искусственного интеллекта, основанные на автоматическом распознавании ориентиров на видеоизображениях, открыли новый подход, потенциально реализуемый при использовании достаточно недорогого оборудования. OpenPose — это библиотека, которая с помощью свёрточной нейронной сети с двумя ветвями позволяет распознавать скелеты в сцене. Хотя, надо признать, что решения на этой основе не так быстро распространяются среди специалистов MoCap, так как их метрологические характеристики по отношению к другим оптическим системам захвата движения, всё ещё в значительной степени не изучены.
Давайте понаблюдаем как прошла проверку безмаркерная система на основе OpenPose с двумя камерами для анализа походки с учётом её точности относительно трёх факторов: относительного расстояния камер, направления походки и разрешения видео. Два добровольца выполнили тест ходьбы в лаборатории анализа походки. В качестве эталона была взята система оптического захвата движения на основе маркеров. Задействованные процедуры были следующими:
- калибровка стереоскопической системы;
- получение видеозаписей одновременно с эталонно-маркерной системой;
- обработка видео в OpenPose для извлечения скелета субъекта;
- синхронизация видео;
- триангуляция скелетов в двух видеороликах для получения 3D-координат суставов.
Для оценки точности рассматривались два набора параметров: ошибки в реконструкции траектории и ошибки в выбранных пространственно-временных параметрах походки (длина шага, время размаха рук и ног). Наименьшая ошибка в траекториях (∼20 мм) была получена с камерами установленными на расстоянии 1,8 м друг от друга, с самым высоким разрешением и прямой походкой, а самая высокая амплитуда расхождений (∼60 мм) была получена при расстановке камер на расстоянии 1,0 метра друг от друга, низким разрешением и диагональной конфигурацией походки.
Система на основе OpenPose, как правило, недооценивала длину шага примерно на 1,5 см, в то время как не было обнаружено никаких систематических отклонений для времени поворота/стойки. Длина шага значительно менялась в зависимости от направления походки (p = 0,008), расстояния до камеры (p = 0,020) и разрешения (p < 0,001). Среди времени установки на землю опоры (ноги) и маха наименьшие ошибки (0,02 и 0,05 с для опоры и маха соответственно) были получены при установке камер с периодичностью расстояния в 1 метр, при самом высоком разрешении и прямолинейной конфигурации походки. Эти результаты подтверждают возможность отслеживания кинематики и параметров походки одного субъекта в трёхмерном пространстве с использованием двух недорогих веб-камер и механизма OpenPose. В частности, максимизация расстояния между камерами и разрешения видео позволили добиться высочайших метрологических характеристик.
С целью избавления от недостатков, выражающихся в огромной стоимости оптических систем захвата движения, в последние десятилетия быстро вырос интерес к безмаркерным решениям. Это вызвано попытками либо удешевить технологию, либо упростить процесс. Безмаркерные системы основаны на четырёх основных компонентах, а именно на системе из нескольких недорогих камер, цифровой модели тела, используемых функциях изображения и алгоритмах, определяющих форму, позу и местоположение самой модели. Можно использовать два семейства систем камер, отличающихся тем, создают ли они так называемую «карту глубины», то есть изображение, в котором каждый пиксель описывает расстояние точки сцены от камеры.
Вероятно, самыми известными системами камер с датчиками глубины (их часто называют камерами RGB-D, поскольку они захватывают как цвет, так и глубину) являются «Microsoft Kinect», «Intel Realsense» и «StereoLabs Zed». Эти решения особенно эффективны для оценки позы всего тела в режиме реального времени в интерактивных системах и видеоиграх, но они также имеют ограничения, препятствующие их широкому применению в клинических или биомеханических условиях: малый радиус действия, неработоспособность при ярком солнечном свете и потенциальная интерференция между несколькими датчиками. Кроме того, точность отслеживания движения у них по-прежнему ниже, чем у систем на основе маркеров, которые фактически остаются пока золотым стандартом (ключевое слово «пока», так как новейшие разработки и развитие технологии захвата движения на основе IMU-датчиков уже приблизилось по точности и скорости частоты считывания сигнала к дорогим оптическим системам).
Недавно новые алгоритмы искусственного интеллекта, основанные на автоматической идентификации ориентиров на видеоизображениях (компьютерное зрение), открыли новый подход к безмаркерному захвату движения, который стал потенциально возможным с помощью недорогого оборудования. При этом методы машинного обучения использовались для идентификации узлов скелетной структуры, описывающей позу человека в заданном кадре изображения. Поскольку связанная с этим процессом вычислительная нагрузка делала этот метод практически нежизнеспособным, процесс был оптимизирован исследовательской группой из Университета Карнеги-Меллона, которая выпустила платформу обработки под названием OpenPose.
Это программное обеспечение принимает в качестве входных данных цветные изображения с простых веб-камер и с помощью свёрточной нейронной сети создаёт в качестве выходных данных карты достоверности ключевых точек и сходства для каждой пары ключевых точек (то есть принадлежности к одному и тому же скелету). Таким образом, OpenPose позволяет распознавать скелеты нескольких человек в одной и той же сцене. Некоторые учёные уже приняли эти решения, на основе данной платформы, в качестве функционального блока для своих исследований.
Хотя были получены многообещающие результаты, разработка безмаркерных систем, способных надежно реконструировать движения человека своевременным, ненавязчивым и внешне достоверным образом, все ещё остаётся открытой задачей. Среди быстрорастущих исследований по применению к различным конкретным случаям, лишь несколько были сосредоточены на точности трёхмерной реконструкции субъектов: производительность OpenPose при вычислении углов нижних конечностей была проанализирована с помощью одной камеры и сравнивалась с результатами от многокамерной системы на основе маркеров. Однако, насколько сейчас известно, целевая метрологическая характеристика обработки данных с несколькими точками зрения все ещё отсутствует в случае автоматизированного анализа ходьбы.
В настоящее время примеры подобных приложений, служащих для оцифровки и извлечения параметров походки, довольно скудны. Можно предположить, что разрешение и расположение камер, а также направление ходьбы (т. е. угол по отношению к камерам) могут повлиять на точность - следовательно, применимость таких систем в клинических условиях может быть не вполне обоснована. Но можно надеяться на то, что с развитием технологий (в основном пока надежда на усовершенствование недорогих веб-камер) точность данных скоро приблизится к необходимым параметрам для изучения движений моторики человека.