Fixstars Tech Blog /proc/cpuinfo

このブログは、株式会社フィックスターズのエンジニアが、あらゆるテーマについて自由に書いているブログです。

Tag: GPU

社内LLMサービス展開から1か月をデータで振り返る

社内ネットワークで安全に運用できるLLM APIを導入して1か月。コード補完を中心に38万回超のアクセスを記録し、新入社員教育やコミュニティ形成により社内での利用が大きく促進されました。この記事では運用データを基にオンプレミスと外部APIのメリット・デメリットを比較し、実際の運用から見えた課題や効果を詳しく解説します。

2025年5月9日 kota.iizuka Tech記事.

Read More »

3D Gaussian Splatting の紹介と高速化

3D Gaussian Splatting の紹介と、インターンシップの課題として取り組んだ高速化について説明します。

2025年4月21日 tomohito.hoshii Tech記事.

Read More »

llama.cpp を使って RTX 6000 Ada で Llama 4 Scout を動かす

高価なH100 GPUの代替として比較的安価なRTX 6000 Adaを採用し、llama.cppを用いてLlama 4 Scoutを動かす方法を解説。GPUオフロード設定による性能向上とベンチマーク比較も行いました。

2025年4月14日 kota.iizuka Tech記事.

Read More »

Llama 4 Scout のファインチューニングとパフォーマンスエンジニアリング

LLaMA-FactoryとDeepSpeedを使ってLlama 4 Scoutをファインチューニングし、バッチサイズ調整による高速化やGPU最適化を実践。手順を詳しく解説します。

2025年4月10日 kota.iizuka Tech記事.

Read More »

INT4 量子化を使って Llama 4 Scout を NVIDIA H100 1 枚で動かす

Meta社が発表したLlama 4 ScoutのINT4量子化による軽量化を公式実装を用いて検証。H100 1枚での実行と入力トークン数の限界について詳細に報告します。

kota.iizuka Tech記事.

Read More »

vLLM で Llama 4 をデプロイする際の最適なコンテキスト長を検証する

Llama 4 は最大1,000万トークンの長文コンテキストに対応していますが、実際のデプロイではライブラリやハードウェアの制約に注意が必要です。本記事では、vLLM を用いた実験を通じて、量子化方式・GPU枚数ごとの最適なコンテキスト長を検証しました。

2025年4月8日 kota.iizuka Tech記事.

Read More »

Llama 4 をオンプレミス環境で動かしてみた

2025年4月6日、Llama 4 が公開されました。Llama 4 は画像、動画の入力が可能なマルチモーダルモデルで、109B パラメータの Llama 4 Scout、400B パラメータの Llama 4 Maverick、 2000B パラメータの Llama 4 Behemoth というラインナップとなっています。今回は、Llama 4 Scout をオンプレミスで動作させることを想定して、動作確認とプロファイリングを行います。

2025年4月6日 kota.iizuka Tech記事.

Read More »

SYCL プログラミング入門：初心者向けガイド

SYCL ソースコードの一部

SYCL について概要の説明から最低限理解必要な基本機能と用語、簡単なプログラムの作成と実行についてを説明します。

2025年4月3日 shinnosuke.takemoto Tech記事.

Read More »

新LLM『Gemma 3 (27B)』をローカル環境で徹底検証: 業務タスクでの実力はいかに？

本記事では、話題の『Gemma 3 27Bモデル』をollamaとvllmで実際に導入し、コード理解やWebアプリケーション開発などの具体的な業務タスクで性能検証を実施しました。果たして、ChatGPTなどのクラウド型LLMに匹敵するパフォーマンスを出せるのでしょうか？

2025年4月1日 kota.iizuka Tech記事.

Read More »

特徴記述アルゴリズムHashSIFTのCUDA高速化

SfMなどで用いられる、2値特徴記述アルゴリズムであるHashSIFTの概要とCUDAによる高速化手法について紹介します。

2023年12月21日 yuta.fujimoto Tech記事.

Read More »

SYCL 実装の性能を比較してみた

単一ソースで計算をGPU上で実行できる規格SYCLの実装のうち、活発に開発されているものを実際にインストールし、同じ計算コードで得られる性能を比較しました。

2023年2月20日 naoya.sakabe Tech記事.

Read More »

Intel GPU専用言語C for Metalの解説

アルバイトの西田です。IntelのC for Metal（以前はC for Mediaという名前だったもの、略してC4MまたはCM）を、7月中はインターンとして、8月からはアルバイトとしてその使い方や性能を調べていました

2020年2月18日 takeshi.nishida Tech記事.

Read More »

CUDAデバイスメモリもスマートポインタで管理したい

みなさん、今日は。今日も元気にCUDAやってますか？ソフトウェア高速化の技術者ならCUDAぐらいできて当然になって久しい世の中（フィックスターズ社内）（※個人の感想です）ですが、「より高品質で効率的な開発を」という要求

2019年2月26日 YOSHIFUJI Naoki Tech記事.

Read More »

Tensorコアを使ってみた

アルバイトの大友です。 TensorコアのWMMA APIを使っている人があまりいなかったため、6月中はインターンとして、7月からはアルバイトとしてその使い方や性能を調べていました。この記事はその成果をまとめたものです

2018年10月10日 OtomoHiroyuki Tech記事.

Read More »

GPUの温度と性能低下

先日、GeForce GTX 1080 Tiを2枚積んだマシンを計算サーバとして追加導入しました。新しいマシンで意気揚々と学習を回していたのですが、時間がたつにつれて学習速度が低下していったり、マルチGPU化しても性能

2017年10月17日 hiragushi Tech記事.

Read More »

SYCLを使ってOpenCLを単一ソースで書いてみる

OpenCLを書いている時、ホストとデバイスのコードが完全に分離していて連携しづらくてツライ・・・といった経験ありませんか？AMDのGPUに限るならHIPといった選択肢もあるのですが、OpenCLであってほしい場面はたく

2017年8月17日 yuki.ito Tech記事.

Read More »

GpuMatの内部を探検してみる

はじめに OpenCVにはGpuMatというCUDA実装を行うためのデータ構造が用意されており、CUDAを使って実装された各種アルゴリズムもcudaモジュールという形で提供されています（※詳細は公式ドキュメントを参照くだ

2016年8月8日 yoshimura Tech記事.

Read More »

CUDAをRadeonで動かす（導入編）

みなさん、今日も元気にGPGPUしていますか？去年(SC15)の話ですが、「RadeonでCUDAが使えるようにするよ！」とAMDが発表したニュースを覚えている方いらっしゃいますでしょうか。Boltzmann Init

2016年8月2日 YOSHIFUJI Naoki Tech記事.

Read More »

AMD Radeon R9 Fury Xの性能をViennaCLで試す

みなさん、AMD Radeon R9 Fury Xをご存知ですか？ AMD Radeon R9 Fury X (Fiji)は、この6月に発売されたばかりのAMDの新しいGPUで、GDDR5ではなくHBMを搭載したことが最

2015年8月28日 YOSHIFUJI Naoki Tech記事.

Read More »

OpenCL 2.0勉強会#1：Shared Virtual MemoryなどのOpenCLのバッファー関連まとめ

Fixstarsでは半年ごとに2つの社内勉強会を開催しているのですが、今は、もうすぐ確定するはずのOpenCL 2.1に向けてOpenCL 2.0の勉強会を開催しています。先週の発表者は私で、タイトルに書いたようなこと

2015年6月18日 YOSHIFUJI Naoki Tech記事, 社内勉強会.

Read More »

01
02

Favorite Post

「OpenFOAMスレッド並列化のための基礎検討」を投稿＆発表してきました
2018年2月6日
Livox Mid-360をROS1/ROS2で動かしてみた
2023年1月27日
FFmpeg API の使い方(1): デコードしてみる
2017年8月22日

Archives

Categories

Recent Comments

keisuke.kimura in Livox Mid-360をROS1/ROS2で動かしてみた

Sorry for the delay in replying. I have done SLAM (FAST_LIO) with Livox MID360, but for various reasons I have not be...
Miya in ウエハースケールエンジン向けSimulated Annealingを複数タイルによる並列化で実装しました

作成されたプロファイラがとても良さそうです :) ぜひ詳細を書いていただきたいです！...
Deivaprakash in Livox Mid-360をROS1/ROS2で動かしてみた

Hey guys myself deiva from India currently i am working in this Livox MID360 and eager to knwo whether you have done the...
岩崎システム設計　岩崎満 in Alveo U50で10G Ethernetを試してみる

仕事の都合で、検索を行い、御社サイトにたどりつきました。内容は大変参考になりま�...
Prabuddhi Wariyapperuma in Livox Mid-360をROS1/ROS2で動かしてみた

This issue was sorted....

Social Media