«Яндекс» открыл набор данных беспилотных автомобилей

[post-views]

«Яндекс» опубликовал набор данных беспилотных автомобилей для исследований в области машинного обучения и автономного транспорта. Это самый большой в мире массив данных такого типа в открытом доступе: он содержит более 1600 часов движения, разбитых на 600 000 размеченных фрагментов поездок на дорогах России, Израиля и США в хорошую погоду, в снег и в дождь.

Датасет опубликовали для конкурса Shifts Challenge, который «Яндекс» проведёт в рамках международной конференции NeurIPS 2021 совместно с учёными из Оксфорда и Кембриджа. Задача конкурса — привлечь внимание к проблеме «сдвига данных» в машинном обучении.

«Если вы привыкли водить машину в небольшом городе, то в Москве вы не сразу адаптируетесь к трафику и, скорее всего, поначалу будете более осторожны на дороге. Это и есть сдвиг данных. Вы можете оценить его масштаб и скорректировать свои действия. Машинно обученные модели должны уметь делать то же самое — оценивать величину сдвига и эффективно действовать в новых условиях. От того, насколько хорошо алгоритм может работать при сдвиге данных, будет зависеть широта его применения», — говорит старший исследователь Yandex Research Андрей Малинин.

Сдвиг данных возможен везде, где модели машинного обучения сталкиваются с неопределённостью — незнакомыми ситуациями и неизвестными данными. Для Shifts Challenge «Яндекс» выбрал три области: предсказание траектории движения транспорта и пешеходов на дороге, прогнозирование погоды и машинный перевод текстов. Участники конкурса должны будут создать устойчивые к сдвигу модели. Например, такую модель машинного перевода, которая обучалась на художественной литературе, но может качественно переводить и твиты, и ролики на YouTube.

Конкурс позволит не только привлечь внимание к проблеме сдвига, но и даст учёным доступ к уникальным данным, позволяющим оценить качество работы моделей машинного обучения в реальном мире. Для конкурса исследователи «Яндекса» вместе с командами «Яндекс.Погоды», «Яндекс.Переводчика» и беспилотных технологий предоставили данные сервисов, решающих практические задачи и часто сталкивающихся со сдвигом. Такие разнородные данные помогут ускорить разработку алгоритмов, способных адаптироваться к новым условиям быстрее и лучше сегодняшних.

Все данные обезличены. Так, датасет по беспилотным автомобилям содержит высокоточные карты маршрутов и треки всех окружающих машин и пешеходов (их положение, скорость, ускорение и пр.), но не использует видео, где были бы видны номера машин или лица прохожих. Исследователи должны будут обучить алгоритмы на предоставленных данных, а затем проверить качество их работы в условиях сдвига.

Владимир Бахур

Короткая ссылка

Сохранить себе?
Сохраните себе

Сейчас читают

Рекомендации для Вас

Электронная Москва

Copyright © 2018-2024 , Электронная Москва