Nvidia mới đây đã tiết lộ quá trình lắp ráp của siêu máy tính Selene - siêu máy tính được chứng nhận là nhanh thứ 7 trên thế giới hồi tháng 6 vừa qua. Toàn bộ siêu máy tính này được lắp ráp giữa đại dịch, trong quãng thời gian vỏn vẹn 3 tuần rưỡi, với đội ngũ nhân công chỉ 6 người tuân thủ quy định về giãn cách xã hội và một con robot phụ tá tên Trip,
Selene trên thực tế là một siêu máy tính độc nhất vô nhị. Nó sử dụng kiến trúc SuperPOD DGX tăng tốc GPU đang được Nvidia bán trên thị trường, thay vì những thiết kế phụ thuộc vào CPU tuỳ biến trên hầu hết các siêu máy tính trong danh sách Top500. Selene xếp thứ 2 trong danh sách Green500 gồm những siêu máy tính tiết kiệm điện nhất.
Về cấu hình, Selene sử dụng 560 CPU AMD Epyc 7742 (mỗi CPU gồm 64 nhân) và 2240 GPU Nvidia A100. Hiệu năng cao nhất về lý thuyết của nó là 35.000 teraflops.
Các siêu máy tính trước đây của Nvidia mất vài tháng mới lắp ráp xong, và để bảo trì hay nâng cấp chúng cũng là điều cực kỳ khó khăn. Khi thiết kế Selene, Nvidia đã cố gắng làm nó trở nên đơn giản và đi theo hướng mô-đun hoá càng nhiều càng tốt. Mỗi node trong tổng số 280 node của Selene là một pod DGX chuẩn hoá chứa 8 GPU Nvidia A100 và 2 CPU AMD Epyc. Hàng loạt các pod được xếp gọn gàng trong các cabin trông chẳng khác gì những hộc tủ chứa hồ sơ, và các cabin này được nối với nhau thành những nhóm gồm 16 cabin để hình thành nên một SuperPOD.
Tính đồng đều của Selene là thứ giúp quá trình lắp ráp nó diễn ra rất nhanh gọn. Việc của Nvidia hầu hết chỉ là di chuyển từng pod DGX vào vị trí thích hợp, nối dây chúng vào hệ thống, và kiểm tra xem mọi thứ có hoạt động hay không. Nối dây một siêu máy tính tất nhiên chẳng phải điều dễ dàng, nhưng Nvidia sử dụng các mạch chuyển InfinitiBand của Mellanox để giảm số lượng cáp cần thiết, trong khi vẫn giúp tăng băng thông hệ thống.
Selene được làm mát theo từng cụm SuperPOD. Tất cả các SuperPOD được lưu giữ trong một nhà kho khổng lồ có điều hoà không khí. Chúng nằm cách sàn nhà một khoảng trống, với hệ thống quạt nằm bên dưới để đẩy không khí mát vào các pod DGX. Nhóm lắp ráp gồm 6 người của Nvidia chỉ cần cài đặt bộ khung sàn và khoá kín các SuperPOD lại để kiểm soát dòng không khí lưu thông.
Thăm trung tâm dữ liệu của Nvidia
Nvidia khá sáng tạo trong việc sử dụng trang thiết bị để giám sát Selene. Họ mua một con robot nhỏ tên Trip, có thể được điều khiển từ xa và di chuyển bằng bánh xe xung quanh khu vực để quan sát những hoạt động đang diễn ra bên trong Selene. Họ còn phát triển một con bot dùng trong ứng dụng Slack để gửi thông báo khi phần cứng gặp vấn đề, hoặc khi có một sợi cáp nào đó bị lỏng.
Selene hiện đang chạy khoảng 1.000 tác vụ, hầu hết tập trung vào việc phát triển AI và huấn luyện các mạng thần kinh. Và nếu bạn đang thắc mắc không biết mục đích của Selene là gì, thì xin tiết lộ luôn: dùng để nghiên cứu về virus corona.
Nguồn: Genk.vn
Kỹ sư Phát triển AI - AI Engineer - Khối Công nghệ thông tin (HO24.287)
Địa điểm: Hà Nội
Lương: Cạnh Tranh
Kỹ sư Phát triển AI - Khối Công nghệ thông tin (HO24.231)
Địa điểm: Hà Nội
Lương: Cạnh Tranh