→ハロプロ!ちゃんねる。
* リスト:リスト::ハロプロ関連キーワード//固有名詞
High Performance Computingの略.高速数値計算・科学技術計算のこと. 大量の計算をコンピュータ(スーパーコンピュータや、並列化したワークステーションクラスタやパーソナルコンピュータークラスタ)に行わせること. 自然現象 (気象・流体・生命)のシミュレーションやそれらの観測されたデータの解析などを計算機を使用して行うこと.
EETimes Japan様から頂いておりますコラム「デバイス通信」を更新しました。 シリーズ「TSMCが解説する最新のパッケージング技術」の第7回となります。eetimes.itmedia.co.jp ハイエンドAI/HPCシステムの主記憶であるHBMの位置付けと、開発の歴史を説明しております。メモリ/ストレージ階層では、最上位(最も高速)がSRAM、その次がHBMです。 HBMはDRAMベースの超広帯域メモリモジュールであり、GPUやAIプロセッサなどと直接、データをやり取りします。機械学習(ML)の学習作業と推論作業ではいずれも、ほぼ同時に大量のデータを扱います。 大量のデータをアクセス…
皆さん、こんにちは! HPCクラスターの運用において、「ジョブ状況を外部システムと連携したい」「可視化ダッシュボードを作成したい」「CLI(コマンドラインインターフェース)に縛られず自動化したい」といった高度なニーズが出てくることもあります。 今回は、これらの課題を解決し、Slurmクラスターをより柔軟かつ効率的に運用するために非常に強力なツールとなる、SlurmのREST API(slurmrestd)の活用方法とメリットについて、実際の運用目線でご紹介します。 Slurm REST API を使うメリット Slurm REST API(slurmrestd)を活用することで、従来のCLIベ…
皆さん、こんにちは! 高性能計算(HPC)クラスタの運用は年々複雑化しています。 大規模クラスタの効率運用やマルチユーザー環境での公平なリソース配分、GPUやクラウドの統合など、現場には多くの課題があります。 そんな中、Slurmは世界で最も広く使われるオープンソースジョブスケジューラとして、TOP500スーパーコンピュータの約半数以上で採用されており、HPC運用のデファクトスタンダードです。 そこで、弊社ではSlurmの導入・運用技術者向けに、現場で役立つ知見を整理したホワイトペーパー 「Slurm 実践的運用マニュアル:基本実装からトラブルシュート、最新動向まで」を公開しました。 まずは「…
皆さん、こんにちは! HPC環境において、Slurmは計算資源の管理に不可欠なツールですが、ジョブの投入が無制限に行われると、システムの安定性や利用者間の公平性が損なわれることがあります。 今回は、このような問題を未然に防ぎ、Slurmクラスターを効率的かつ安定的に運用するために非常に重要なAssociation Limit、特にMaxJobsとMaxSubmitの設定についてご紹介します。 SlurmのAssociation Limitを設定しないと起こる問題点 MaxJobsやMaxSubmitを設定しない場合、以下のような問題が発生する可能性があります。 無制限なジョブ投入による負荷増大…
皆さん、こんにちは! 高性能計算(HPC)環境において、Slurmクラスタは多くの研究機関や企業で利用されています。 しかし、使用率が高いクラスタでは、ご自身のジョブがいつ実行開始されるか、また長時間かかるプログラムがいつ終了するのか、気になったことはありませんか? 通常、ジョブの状況を確認するにはsqueueやsacctといったコマンドを定期的に実行したり、Job Scriptの出力ファイルをチェックしたりする方法があります。 しかし、これでは常に監視する手間がかかり、特に複数のジョブや長時間ジョブを扱う場合には煩雑になりがちです。 そこで今回は、Slurmの便利なメール通知機能をご紹介しま…
皆さん、こんにちは! HPC環境で計算を行う際、「環境構築が大変」「依存関係の衝突に悩まされる」といった経験はありませんか? そんな悩みを解決してくれる強力なツールがコンテナです。 今回は、Slurm環境でコンテナ(ApptainerとDocker)をどのように活用し、より効率的な計算環境を構築できるかをご紹介します! Slurmでコンテナを使うメリット Slurmとコンテナを組み合わせることで、以下のような多くのメリットが得られます。 環境の一貫性(ポータビリティ) 必要なソフトウェアやライブラリをコンテナ内にまとめてパッケージングできるため、ユーザー間やクラスター間で同じ環境を簡単に再現で…
皆さん、こんにちは! 前回は最新バージョンのSlurm 25.05のの環境構築をご紹介しました。 Slurm 25.05をソースからインストール(Rocky Linux 9.6 マルチノード構成) 今回は、Slurm 25 をRocky9のマルチノード環境にインストールした際のリソース制限の動作、特にメモリ制限に焦点を当ててご紹介します。 HPC環境において、計算リソースの効率的な管理は非常に重要です。 特に、ジョブが利用するメモリ量を適切に制御することは、システムの安定性と利用効率を高める上で欠かせません。 具体的には、DefMemPerCPU の設定と cgroup.conf を使ったリソ…
皆さん、こんにちは! 今回は、最新バージョンのSlurm 25.05をRocky Linux 9.6環境にソースコードからインストールする手順をご紹介します。 コントローラー(Slurm Controller+DBD、以下CONTROLLER+DBD)と計算ノード(Slurm Computer、以下COMPUTER)からなる2ノード構成で、Slurm認証を使用し、計算ノードをConfiglessとして設定することで、運用負荷を軽減する構成に焦点を当てます。 「ソースからのインストールは複雑そう…」と感じる方もいらっしゃるかもしれませんが、このガイドが皆さんのSlurm環境構築の一助となれば幸い…
皆さん、こんにちは! HPC環境の運用において、ジョブ管理システムであるSlurmは不可欠な存在です。 しかし、「コマンドライン操作が難しい」「ジョブの状況が分かりにくい」と感じる方もいらっしゃるかもしれませんね。 そこで今回ご紹介したいのが、OpenOnDemandとSlurmを組み合わせることで得られる、圧倒的な使いやすさと効率性です! この強力なコンビネーションが、どのように皆様の研究や開発を加速させるのか、その主なメリットをステップバイステップでご紹介します。 OpenOnDemand × Slurm の主なメリット OpenOnDemandとSlurmの連携は、HPC環境の利用を劇的…
こんにちは! 科学技術計算の現場で、日々の計算処理を手動で管理していらっしゃる皆さん、もしかしたら「もっと効率的に、もっとスムーズに計算を進められたら…」と感じているのではないでしょうか?今回は、まさにそんな皆さんのために、「ジョブ管理ツール」がなぜ科学技術計算に不可欠なのかを、現在の状況と、ツールを導入した場合を比較しながらご紹介します。 ジョブ管理ツールがない場合:手動による「非効率」と「隠れたコスト」 もし、今皆さんがジョブ管理ツールを使わずに計算を行っている場合、高性能計算(HPC)環境における計算資源(CPUやGPUなど)の確保や、実行するジョブの順序調整は、すべて手動で行われている…