3D Gaussian Splatting の紹介と高速化

3D Gaussian Splatting の紹介と、インターンシップの課題として取り組んだ高速化について説明します。
このブログは、株式会社フィックスターズのエンジニアが、あらゆるテーマについて自由に書いているブログです。
3D Gaussian Splatting の紹介と、インターンシップの課題として取り組んだ高速化について説明します。
高価なH100 GPUの代替として比較的安価なRTX 6000 Adaを採用し、llama.cppを用いてLlama 4 Scoutを動かす方法を解説。GPUオフロード設定による性能向上とベンチマーク比較も行いました。
LLaMA-FactoryとDeepSpeedを使ってLlama 4 Scoutをファインチューニングし、バッチサイズ調整による高速化やGPU最適化を実践。手順を詳しく解説します。
Meta社が発表したLlama 4 ScoutのINT4量子化による軽量化を公式実装を用いて検証。H100 1枚での実行と入力トークン数の限界について詳細に報告します。
Llama 4 は最大1,000万トークンの長文コンテキストに対応していますが、実際のデプロイではライブラリやハードウェアの制約に注意が必要です。本記事では、vLLM を用いた実験を通じて、量子化方式・GPU枚数ごとの最適なコンテキスト長を検証しました。
2025年4月6日、Llama 4 が公開されました。Llama 4 は画像、動画の入力が可能なマルチモーダルモデルで、109B パラメータの Llama 4 Scout、400B パラメータの Llama 4 Maverick、 2000B パラメータの Llama 4 Behemoth というラインナップとなっています。今回は、Llama 4 Scout をオンプレミスで動作させることを想定して、動作確認とプロファイリングを行います。
はじめに ARグラスや自律移動ロボット、ドローンのように、現実世界をカメラで認識しながら動作する技術が進化する中で、カメラの位置や空間中の点群を同時に推定する技術 ー vSLAM (Visual Simultaneous […]
SYCL について概要の説明から最低限理解必要な基本機能と用語、簡単なプログラムの作成と実行についてを説明します。
本記事では、話題の『Gemma 3 27Bモデル』をollamaとvllmで実際に導入し、コード理解やWebアプリケーション開発などの具体的な業務タスクで性能検証を実施しました。果たして、ChatGPTなどのクラウド型LLMに匹敵するパフォーマンスを出せるのでしょうか?
Xilinx (現在は AMD に統合) 開発の AI Engine (AIE) という演算プロセッサを用いて修正コレスキー分解のマルチコア並列処理の実装および評価を行いました。現時点で実用化の例があまり多くない AIE を用いた開発に関して知見を共有いたします。
本記事では、Cerebras Wafer Scale Engine (WSE)にSimulated Annealing(SA)をパラレルテンパリングで実装する方法を紹介します。
近似最近傍探索ライブラリFaissをArm SVE環境向けに高速化したため、その実行速度向上の度合いについて報告する。また、Arm SVEを用いたプログラミングに関して実装知見を共有する。
Cerebras Wafer Scale EngineにSimulated Annealingを複数のタイルを用意して並列分散で実装する方法を紹介します。
AWSのセミナーにSVEをテーマとして登壇した際にケーススタディとして扱ったFaissのSVEサポートについて公式リポジトリへPRを送り、無事マージされました。
ウエハースケールエンジンにSimulated Annealingを分散並列実装しCS-2実機で動作確認しました。CS-2実機で出来る最大サイズの問題を試したり、ブレイクダウンの確認を行いました。
ウエハースケール計算エンジンにSimulated annealingを実装しました。コーディング方法と解説をしています。また、そのソースコードを公開しています。
Intel Developer Cloudを使用すると、Intel製CPUの評価を簡単に行うことができます。
物体認識モデルであるYOLOv8の評価を題材に、性能評価を行う方法を紹介します。
「安全に」プログラムを実行できる TEE は、DRM など様々な用途で利用されています。
TEE は実現方式・実装が複数存在しますが、本記事では ARM TrustZone を用いる商用 TEE “Kinibi” の基本動作を紹介します。
モンゴメリ乗算のプログラムを Intel AVX-512IFMA52 命令セットを用いて実装し、他の実装と比較しつつ、パフォーマンス分析を行い、効果を確かめます。結果的には AVX-512IFMA52 命令セットを用いない SIMD 実装に対して 85% の高速化を達成しました。
生産計画未経験者がFixstars Amplify Scheduling Engineを使って、半導体製造工程における仮想のテスト計画のスケジューリング最適化を試みました。
Fixstars Amplify Scheduling Engineは、Fixstars Amplify SDKから利用することができます。以下はSDKを用いたプログラム例です。
keisuke.kimura in Livox Mid-360をROS1/ROS2で動かしてみた
Sorry for the delay in replying. I have done SLAM (FAST_LIO) with Livox MID360, but for various reasons I have not be...
Miya in ウエハースケールエンジン向けSimulated Annealingを複数タイルによる並列化で実装しました
作成されたプロファイラがとても良さそうです :) ぜひ詳細を書いていただきたいです!...
Deivaprakash in Livox Mid-360をROS1/ROS2で動かしてみた
Hey guys myself deiva from India currently i am working in this Livox MID360 and eager to knwo whether you have done the...
岩崎システム設計 岩崎 満 in Alveo U50で10G Ethernetを試してみる
仕事の都合で、検索を行い、御社サイトにたどりつきました。 内容は大変参考になりま...
Prabuddhi Wariyapperuma in Livox Mid-360をROS1/ROS2で動かしてみた
This issue was sorted....