AI Engine を用いた修正コレスキー分解のマルチコア実装
Xilinx (現在は AMD に統合) 開発の AI Engine (AIE) という演算プロセッサを用いて修正コレスキー分解のマルチコア並列処理の実装および評価を行いました。現時点で実用化の例があまり多くない AIE を用いた開発に関して知見を共有いたします。
このブログは、株式会社フィックスターズのエンジニアが、あらゆるテーマについて自由に書いているブログです。
Xilinx (現在は AMD に統合) 開発の AI Engine (AIE) という演算プロセッサを用いて修正コレスキー分解のマルチコア並列処理の実装および評価を行いました。現時点で実用化の例があまり多くない AIE を用いた開発に関して知見を共有いたします。
本記事では、Cerebras Wafer Scale Engine (WSE)にSimulated Annealing(SA)をパラレルテンパリングで実装する方法を紹介します。
近似最近傍探索ライブラリFaissをArm SVE環境向けに高速化したため、その実行速度向上の度合いについて報告する。また、Arm SVEを用いたプログラミングに関して実装知見を共有する。
Cerebras Wafer Scale EngineにSimulated Annealingを複数のタイルを用意して並列分散で実装する方法を紹介します。
AWSのセミナーにSVEをテーマとして登壇した際にケーススタディとして扱ったFaissのSVEサポートについて公式リポジトリへPRを送り、無事マージされました。
ウエハースケールエンジンにSimulated Annealingを分散並列実装しCS-2実機で動作確認しました。CS-2実機で出来る最大サイズの問題を試したり、ブレイクダウンの確認を行いました。
ウエハースケール計算エンジンにSimulated annealingを実装しました。コーディング方法と解説をしています。また、そのソースコードを公開しています。
Intel Developer Cloudを使用すると、Intel製CPUの評価を簡単に行うことができます。
物体認識モデルであるYOLOv8の評価を題材に、性能評価を行う方法を紹介します。
「安全に」プログラムを実行できる TEE は、DRM など様々な用途で利用されています。
TEE は実現方式・実装が複数存在しますが、本記事では ARM TrustZone を用いる商用 TEE “Kinibi” の基本動作を紹介します。
モンゴメリ乗算のプログラムを Intel AVX-512IFMA52 命令セットを用いて実装し、他の実装と比較しつつ、パフォーマンス分析を行い、効果を確かめます。結果的には AVX-512IFMA52 命令セットを用いない SIMD 実装に対して 85% の高速化を達成しました。
生産計画未経験者がFixstars Amplify Scheduling Engineを使って、半導体製造工程における仮想のテスト計画のスケジューリング最適化を試みました。
Fixstars Amplify Scheduling Engineは、Fixstars Amplify SDKから利用することができます。以下はSDKを用いたプログラム例です。
SfMなどで用いられる、2値特徴記述アルゴリズムであるHashSIFTの概要とCUDAによる高速化手法について紹介します。
今回はVisual SLAMやSfM(Structure from Motion)で行われる局所特徴量計算について、CUDAによる高速化に取り組んだ話を紹介します。
また、そのソースコードをcuda-efficient-featuresという名前でGitHubに公開しています。
2020年記事「シミュレーテッド分岐マシン(SBM)で巡回セールスマン問題を解く」 を題材にして、アップグレードした量子インスパイアード最適化ソリューション「Toshiba SQBM+」の新機能である、AUTOISINGソルバについてご紹介します。
東芝デジタルソリューションズ提供のシミュレーテッド分岐マシン(SBM)は、それを核とする量子インスパイアード最適化ソリューション「Toshiba SQBM+」と名称を改めて現在提供されています。
これから2回に分けて、この新しい SQBM+の機能をご紹介します。
フィックスターズでは、耐量子の公開鍵暗号である CRYSTALS-KYBER の高速な実装に取り組んでいます。今回は導入編として、CRYSTALS-KYBERの数理的な背景と公開鍵暗号の安全性の考え方について簡単に説明します。
teb_local_planner のアルゴリズムの概要を理解し、パラメータ調整ができるようになることを目的として解説します。
2022年12月に開催された Kaggle コンテスト「 Santa 2022 – The Christmas Card Conundrum 」の概要と解法について紹介します。
単一ソースで計算をGPU上で実行できる規格SYCLの実装のうち、活発に開発されているものを実際にインストールし、同じ計算コードで得られる性能を比較しました。
2022年7月から10月にかけて開催されたKaggleコンペティション DFL – Bundesliga Data Shootout に弊社エンジニア3名のチームで参加し、530チーム中6位の成績を収めました。
この結果弊社チームに金メダルが与えられ、2名がKaggle Competitions Masterの称号を獲得しました。
本投稿ではコンペの概要と解法について紹介します。
keisuke.kimura in Livox Mid-360をROS1/ROS2で動かしてみた
Sorry for the delay in replying. I have done SLAM (FAST_LIO) with Livox MID360, but for various reasons I have not be...
Miya in ウエハースケールエンジン向けSimulated Annealingを複数タイルによる並列化で実装しました
作成されたプロファイラがとても良さそうです :) ぜひ詳細を書いていただきたいです!...
Deivaprakash in Livox Mid-360をROS1/ROS2で動かしてみた
Hey guys myself deiva from India currently i am working in this Livox MID360 and eager to knwo whether you have done the...
岩崎システム設計 岩崎 満 in Alveo U50で10G Ethernetを試してみる
仕事の都合で、検索を行い、御社サイトにたどりつきました。 内容は大変参考になりま...
Prabuddhi Wariyapperuma in Livox Mid-360をROS1/ROS2で動かしてみた
This issue was sorted....