Fixstars Tech Blog /proc/cpuinfo

NVIDIA RTX PRO 6000 Blackwell Max-Q 上での LLM fine-tuning の実行速度・メモリ効率調査

投稿者より本記事はインターンシップで勤務された前田優希さんによる寄稿となります。最新 GPU の NVIDIA RTX PRO 6000 Blackwell Max-Q を用いて、LLM の fine-tuning […]

2025年12月26日 takanori.saiki Tech記事.

Intel AMX (Advanced Matrix Extension) 解説：最適化編

TL;DR はじめに前回の記事では、AMX (Advanced Matrix Extension) の基礎について解説しました。今回は、AMX を活用したコードのさらなる高速化について検証します。特に、大規模行列積演算 […]

2025年12月1日 OmoriYu Tech記事.

LiDARを用いた3D Gaussian Splatting向けのデータセット作成について

LiDARを用いた3D Gaussian Splatting向けのデータセット作成システムについて紹介します。ROS2上でカメラの画像やSLAMの一種であるLiDAR Inertial Odometryで推定した自己位置といったデータを同期し、座標を合わせてデータを作成しました。ループ閉じ込みやIMUの精度など、今後の改善案についても考察しました。

2025年11月28日 takeru.kimura Tech記事.

NVIDIA Blackwell 上での LoRA チューニングに向けたプロファイリングと最適化

はじめに Fixstars でアルバイトをしています若林大起です。近年 AI モデルを個人の好みや特定の用途に合わせて改変する「パーソナライゼーション」の需要が高まってきています。このため、クラウドの潤沢な計算資源だけ […]

2025年11月26日 daiki.wakabayashi Tech記事.

3D Gaussian Splatting を約 40 % 高速化した話

3D Gaussian Splatting を約 40 % 高速化．CUDA カーネルの atomicAdd 命令を削減．

2025年11月21日 tomohito.hoshii Tech記事.

NVIDIA RTX PRO 6000 Blackwell Max-Q 上でBLASベンチマークを動かしてみる

はじめに強力なワークステーション向けGPUであるNVIDIA RTX PRO 6000 Blackwell Max-Q（以下 6000 Blackwell Max-Q）が発売されました。前回の記事では、NVIDIAの […]

2025年9月19日 ryoga.hosojima Tech記事.

Intel AMX (Advanced Matrix Extension) 解説（基礎編）

TL;DR はじめに AI の爆発的な普及に伴い、高性能な計算環境の需要は高まっています。計算の性質から GPU が広く用いられていますが、同様の計算は CPU でも可能です。消費電力・発熱等の制約で GPU を利用 […]

2025年8月21日 OmoriYu Tech記事.

NVIDIA RTX PRO 6000 Blackwell Max-Q はどのようなGPUなのか？

NVIDIA RTX PRO 6000 Blackwell Max-QはどのようなGPUなのかについて、NVIDIAが出しているデータシートをもとにNVIDIA RTX H100 PCIeと比較する。

2025年8月18日 satoshi.hirooka Tech記事.

社内LLMサービス展開から1か月をデータで振り返る

社内ネットワークで安全に運用できるLLM APIを導入して1か月。コード補完を中心に38万回超のアクセスを記録し、新入社員教育やコミュニティ形成により社内での利用が大きく促進されました。この記事では運用データを基にオンプレミスと外部APIのメリット・デメリットを比較し、実際の運用から見えた課題や効果を詳しく解説します。

2025年5月9日 kota.iizuka Tech記事.

3D Gaussian Splatting を用いた異常検知手法：Splat Pose & Detect の高速化

最新技術『3D Gaussian Splatting』を活用した異常検知手法『Splat Pose & Detect』の処理速度を約6倍に高速化しました。初期位置推定や位置姿勢更新におけるボトルネックを解消し、実用的な速度を実現。本記事ではその具体的なアプローチと改善ポイントを詳しく解説します。

2025年5月7日 tomohito.hoshii Tech記事.

3D Gaussian Splatting の紹介と高速化

3D Gaussian Splatting の紹介と、インターンシップの課題として取り組んだ高速化について説明します。

2025年4月21日 tomohito.hoshii Tech記事.

llama.cpp を使って RTX 6000 Ada で Llama 4 Scout を動かす

高価なH100 GPUの代替として比較的安価なRTX 6000 Adaを採用し、llama.cppを用いてLlama 4 Scoutを動かす方法を解説。GPUオフロード設定による性能向上とベンチマーク比較も行いました。

2025年4月14日 kota.iizuka Tech記事.

Llama 4 Scout のファインチューニングとパフォーマンスエンジニアリング

LLaMA-FactoryとDeepSpeedを使ってLlama 4 Scoutをファインチューニングし、バッチサイズ調整による高速化やGPU最適化を実践。手順を詳しく解説します。

2025年4月10日 kota.iizuka Tech記事.

INT4 量子化を使って Llama 4 Scout を NVIDIA H100 1 枚で動かす

Meta社が発表したLlama 4 ScoutのINT4量子化による軽量化を公式実装を用いて検証。H100 1枚での実行と入力トークン数の限界について詳細に報告します。

kota.iizuka Tech記事.

vLLM で Llama 4 をデプロイする際の最適なコンテキスト長を検証する

Llama 4 は最大1,000万トークンの長文コンテキストに対応していますが、実際のデプロイではライブラリやハードウェアの制約に注意が必要です。本記事では、vLLM を用いた実験を通じて、量子化方式・GPU枚数ごとの最適なコンテキスト長を検証しました。

2025年4月8日 kota.iizuka Tech記事.

2025年4月6日、Llama 4 が公開されました。Llama 4 は画像、動画の入力が可能なマルチモーダルモデルで、109B パラメータの Llama 4 Scout、400B パラメータの Llama 4 Maverick、 2000B パラメータの Llama 4 Behemoth というラインナップとなっています。今回は、Llama 4 Scout をオンプレミスで動作させることを想定して、動作確認とプロファイリングを行います。

2025年4月6日 kota.iizuka Tech記事.

CoLi-BA: 高速なバンドル調整アルゴリズムの解説（vSLAM, SfM向け高速化手法）

はじめに ARグラスや自律移動ロボット、ドローンのように、現実世界をカメラで認識しながら動作する技術が進化する中で、カメラの位置や空間中の点群を同時に推定する技術ー vSLAM (Visual Simultaneous […]

2025年4月4日 atsuyuki.miyashita Tech記事.

SYCL プログラミング入門：初心者向けガイド

SYCL について概要の説明から最低限理解必要な基本機能と用語、簡単なプログラムの作成と実行についてを説明します。

2025年4月3日 shinnosuke.takemoto Tech記事.

新LLM『Gemma 3 (27B)』をローカル環境で徹底検証: 業務タスクでの実力はいかに？

本記事では、話題の『Gemma 3 27Bモデル』をollamaとvllmで実際に導入し、コード理解やWebアプリケーション開発などの具体的な業務タスクで性能検証を実施しました。果たして、ChatGPTなどのクラウド型LLMに匹敵するパフォーマンスを出せるのでしょうか？

2025年4月1日 kota.iizuka Tech記事.

AI Engine を用いた修正コレスキー分解のマルチコア実装

Xilinx (現在は AMD に統合) 開発の AI Engine (AIE) という演算プロセッサを用いて修正コレスキー分解のマルチコア並列処理の実装および評価を行いました。現時点で実用化の例があまり多くない AIE を用いた開発に関して知見を共有いたします。

2024年11月21日 ayato.inukai Tech記事.

Home

NVIDIA RTX PRO 6000 Blackwell Max-Q 上での LLM fine-tuning の実行速度・メモリ効率調査

Intel AMX (Advanced Matrix Extension) 解説：最適化編

LiDARを用いた3D Gaussian Splatting向けのデータセット作成について

NVIDIA Blackwell 上での LoRA チューニングに向けたプロファイリングと最適化

3D Gaussian Splatting を約 40 % 高速化した話

NVIDIA RTX PRO 6000 Blackwell Max-Q 上でBLASベンチマークを動かしてみる

Intel AMX (Advanced Matrix Extension) 解説（基礎編）

NVIDIA RTX PRO 6000 Blackwell Max-Q はどのようなGPUなのか？

社内LLMサービス展開から1か月をデータで振り返る

3D Gaussian Splatting を用いた異常検知手法：Splat Pose & Detect の高速化

3D Gaussian Splatting の紹介と高速化

llama.cpp を使って RTX 6000 Ada で Llama 4 Scout を動かす

Llama 4 Scout のファインチューニングとパフォーマンスエンジニアリング

INT4 量子化を使って Llama 4 Scout を NVIDIA H100 1 枚で動かす

vLLM で Llama 4 をデプロイする際の最適なコンテキスト長を検証する

Llama 4 をオンプレミス環境で動かしてみた

CoLi-BA: 高速なバンドル調整アルゴリズムの解説（vSLAM, SfM向け高速化手法）

SYCL プログラミング入門：初心者向けガイド

新LLM『Gemma 3 (27B)』をローカル環境で徹底検証: 業務タスクでの実力はいかに？

AI Engine を用いた修正コレスキー分解のマルチコア実装

Tags

Favorite Post

Archives

Categories

keisuke.kimura in Livox Mid-360をROS1/ROS2で動かしてみた

Miya in ウエハースケールエンジン向けSimulated Annealingを複数タイルによる並列化で実装しました

Deivaprakash in Livox Mid-360をROS1/ROS2で動かしてみた

岩崎システム設計　岩崎満 in Alveo U50で10G Ethernetを試してみる

Prabuddhi Wariyapperuma in Livox Mid-360をROS1/ROS2で動かしてみた

Social Media

Tags

Favorite Post

Archives

Categories

keisuke.kimura in Livox Mid-360をROS1/ROS2で動かしてみた

Miya in ウエハースケールエンジン向けSimulated Annealingを複数タイルによる並列化で実装しました

Deivaprakash in Livox Mid-360をROS1/ROS2で動かしてみた

岩崎システム設計 岩崎 満 in Alveo U50で10G Ethernetを試してみる

Prabuddhi Wariyapperuma in Livox Mid-360をROS1/ROS2で動かしてみた

Social Media

岩崎システム設計　岩崎満 in Alveo U50で10G Ethernetを試してみる