Уже четыре системы хранения данных в составе суперкомпьютеров производства РСК, ведущего отечественного разработчика и интегратора инновационных высокоплотных и энергоэффективных решений для высокопроизводительных вычислений (HPC, high-performance computing), центров обработки данных (ЦОД), облачных платформ и систем хранения данных «по требованию» (storage-on-demand), стали единственными представителями России в новой редакции мирового рейтинга IO500 самых высокопроизводительных системам хранения данных HPC-класса (объявлена на крупнейшей европейской суперкомпьютерной выставке ISC 2021). Доля РСК в этом престижном списке выросла на 33% (в предыдущей редакции рейтинга у компании было три системы).
В текущий список IO500 вошел новый сегмент на базе решения RSC Storage on-Demand с поддержкой новой системы хранения с открытым кодом DAOS корпорации Intel, реализованный в суперкомпьютере «Говорун», установленном в Объединенном институте ядерных исследований (ОИЯИ, Дубна) – он лидирует среди российских систем и занимает 26-ю позицию. Этот пилотный проект с поддержкой DAOS реализован для обработки данных в рамках реализации мега-проекта NICA. Сегмент хранения на базе файловой системы Lustre в ОИЯИ теперь размещается в IO500 на 31-м месте. Система хранения данных в составе суперкомпьютера МВС-10П ОП2 (Межведомственный суперкомпьютерный центр Российской академии наук, МСЦ РАН) находится в рейтинге на 27-й позиции, а на 36-й строке размещается система хранения суперкомпьютера «Политехник – РСК Торнадо» (Санкт-Петербургский политехнический университет Петра Великого, СПбПУ).
Столь хороших результатов удалось достичь благодаря применению во всех проектах уникальной технологии создания масштабируемых распределённых и компонуемых «по требованию» систем хранения данных RSC Storage on-Demand с поддержкой файловых систем DAOS и Lustre на основе модулей энергонезависимой памяти Intel Optane DC persistent memory, твердотельных дисков Intel SSD и Intel Optane SSD с интерфейсами NVMe. Кроме того, в суперкомпьютере МСЦ РАН установлены новые узлы для хранения данных на базе высокоскоростных твердотельных дисков Intel SSD в форм-факторе E1.S (так называемые «рулеры»).
Суперкомпьютер «Говорун» еще в июне 2018 г., сразу после установки и запуска в эксплуатацию в ОИЯИ, занял высокое 9-е место в мировом рейтинге IO500.
Решения RSC Storage on-Demand теперь поддерживают, в дополнение к файловым системам NFS и Lustre, и новую распределенную объектную систему хранения с открытым кодом DAOS (Distributed Asynchronous Object Storage) корпорации Intel. Это позволяет обеспечить высочайший уровень скорости работы с данными различных типов при организации распределенной системы хранения. Такое решение ориентировано на применение в области «искусственного интеллекта» (машинного и глубокого обучения).
Теперь стало возможным построение не только многоуровневых распределенных систем хранения данных на базе файловой системы Lustre в рамках архитектуры Composable Disaggregated Infrastructure и гибкое управление пулами дисков с интерфейсом NVMe, но и построение СХД на основе DAOS с распределенным внешним пулом дисков NVMe. Такой подход к реализации DAOS позволяет создавать высокопроизводительные системы хранения с гибким соотношением количества объема Intel Optane DC Persistent Memory к объему подключаемых к DAOS-серверу дисков NVMe. Это обеспечивает возможность создания гибких конфигураций «по запросу» для решения конкретной задачи пользователя. Специалисты РСК перенесли свой опыт в построении компонуемых дезагрегированных решений и на управление DAOS. Теперь стало возможным использование удобного пользовательского интерфейса платформы оркестрации «РСК БазИС» для систем на основе DAOS.
Существенный рост производительности в случае поддержки DAOS стал возможным благодаря нескольким принципам, заложенным в ее архитектуре: максимально возможному уменьшению использования ресурсов центрального процессора, ядра операционной системы, прерываний, переключения контекста в ходе перемещения данных от устройства хранения к месту обработки; хранению данных, к которым требуется произвольный доступ (мета-данные и кэши данных) на устройствах с эффективной поддержкой побайтного доступа (Byte Level Access) – устройствах класса Storage Class Memory; максимально прозрачной трансляции потоковых и блочных операций чтения/записи в устройствах с интерфейсом NVMe.
Специалисты РСК разработали новый пользовательский интерфейс для RSC Storage on-Demand, который позволяет в считанные минуты создать сложную многоуровневую компонуемую систему хранения «по требованию». Этот интерфейс поддерживает создание параллельных файловых систем NFS, Lustre, распределенных объектных систем хранения DAOS и их комбинаций.
Эти подходы были раскрыты в ходе доклада ОИЯИ, РСК и Intel, который состоялся 29 июня в рамках программы конференции ISC 2021.
Суперкомпьютер «Говорун» Объединенного института ядерных исследований – совместный проект Лаборатории теоретической физики (ЛТФ) им. Н.Н. Боголюбова и Лаборатории информационных технологий, поддержанный дирекцией ОИЯИ. Он был реализован в 2018 году при участи специалистов группы компаний РСК и корпорации Intel.
Эксплуатация первой очереди суперкомпьютера имени Н.Н. Говоруна позволила провести целый ряд сложнейших ресурсоемких вычислений в области квантовой хромодинамики на решетках для исследования свойств адронной материи при высокой плотности энергии и барионного заряда и в присутствии сверхсильных электромагнитных полей, качественно повысить оперативность моделирования динамики столкновений релятивистских тяжелых ионов, позволил ускорить процесс генерации и реконструкции событий для экспериментов мегасайенс-проектов NICA, провести расчеты радиационной безопасности экспериментальных установок ОИЯИ, существенно ускорить исследования в области радиационной биологии и других научно-прикладных задач решаемых в ОИЯИ, участвуя в международных научных коллаборациях. Результаты данных научных исследований были опубликованы в более чем 50-ти ведущих мировых научных изданиях.
В 2019 году суперкомпьютер ОИЯИ был модернизирован. Обновленная система обладает совокупной теоретической пиковой производительностью 860 ТФЛОПС двойной точности, являясь при этом гиперконвергентной программно-определяемой системой. Данный подход представляется новым для индустрии высокопроизводительных систем, а реализованный с его использованием проект обладает уникальными свойствами по гибкости настройки системы под конкретную задачу пользователя и, тем самым, максимизации эффективности использования ресурсов суперкомпьютера.
Применение гиперконвергентного подхода позволило создать для суперкомпьютера «Говорун» уникальную высокоскоростную систему хранения данных, обладающую лидерскими характеристиками — скорость параллельной файловой системы на чтение/запись информации превышает 300 ГБ/с. Достижение таких показателей стало возможным только благодаря внедрению комплексных программно-аппаратных решений РСК, поскольку применение стандартных технологий построения отдельно стоящих СХД потребовало бы в десятки раз более дорогого решения.
Уникальное внедренное решение системы хранения «по требованию» позволяет на суперкомпьютере «Говорун» формировать специфическую систему хранения для каждой запускаемой на суперкомпьютере задачи с требуемыми свойствами, такими как (объем и скорость, тип файловой системы, время существования, уровень надежности и безопасности), что было бы также невозможно в случае стандартного подхода к построению СХД для НРС-систем.
Межведомственный суперкомпьютерный центр Российской академии наук (МСЦ РАН) является одним из самых мощных российских суперкомпьютерных центров коллективного пользования в сфере науки и образования. Ресурсами Центра пользуются более 150 групп исследователей, решающих задачи фундаментальной и прикладной направленности.
Суммарная пиковая производительность вычислительных систем МСЦ РАН, разработанных и установленных специалистами РСК на базе своих высокоплотных и энергоэффективных решений «РСК Торнадо» и RSC PetaStream со 100% жидкостным охлаждением на «горячей воде», составляет уже 1,7 ПФЛОПС (петафлопс – квадриллион операций с плавающей запятой в секунду, или 1000 терафлопс).
Очередная плановая модернизация суперкомпьютера МВС-10П ОП2 в МСЦ РАН была проведена специалистами РСК в течение 2020 года. В результате пиковая производительность этой вычислительной системы выросла почти в два раза – на 93%, достигнув 823,91 ТФЛОПС (терафлопс — триллион операций с плавающей запятой в секунду, равен 1000 гигафлопс).
Создание в Санкт-Петербургском политехническом университете Петра Великого одного из самых мощных и наиболее инновационных в России суперкомпьютерных центров с пиковой производительностью более 1,1 ПФЛОПС была начата в 2014 году, а в 2015 г. СКЦ «Политехнический» был введен в эксплуатацию. Суперкомпьютерный центр СПбПУ ориентирован на решение междисциплинарных естественно-научных задач и поддержку проектирования сложных технических систем для высокотехнологичных наукоемких секторов науки и промышленности.
После плановой модернизации суперкомпьютера «Политехник – РСК Торнадо», проведенной специалистами РСК в течение 2020 года, суммарная пиковая производительность вычислительных ресурсов СКЦ «Политехнический» в 2020 году выросла на 23% и теперь составляет 1,6 ПФЛОПС.