parallella触ろう #01

気付いたら前回から何か月たってんのよみたいになるけど、第一回はーじまーるよー(遅 前回のおさらい Hello worldのサンプルを読みました しかしこれ気になるところが数点あるので、まずは気になるところをどうにかしてい […]

Denver の最適化機能を調べる

NVIDIA 社の開発した Denver という 64bit ARM CPU は、ARM 機械語を最適化する機能を持っています。これをいくらか見てみようと思います コード https://bitbucket.org/fi […]

動き予測(おまけ)

さすがに20倍にはならないので、と書きましたが、よく考えたら、最近のx86 では サイクルあたりで 16byte の sad が一個取れるので、20倍ぐらい出そうな気がしたので試してみました。 https://bitbu […]

GPU の動き予測ハードウェアをOpenCLから使う

最近のGPUは、動画エンコーダを実装しているものが多いです。 Intel社のGPUは、この動画エンコーダで使われる、ブロック単位での動き予測ハードウェアを、OpenCLから使うことができます。 公式の解説 : https […]

ソフトウェアパイプラインの手書きをDRYで行う

ソフトウェアパイプライン (SWPL) を、Don’t Repeat Yourself で書くというお話です。 サンプルとして次のプログラムを考えます。

無線LAN付きSDカードをマイコンのように使う

東芝のFlashAirというSDメモリーカードがあります。 フラッシュメモリに加えて無線LAN基地局機能とマイコンを内蔵していて、電源さえ供給すればこのカードだけでWebサーバーとして使えます。あるいは、Webインターフ […]

(小ネタ)比較してインクリメント/デクリメント

SSE, AVXの比較結果は真の場合、全ビットが立ちますが、これは -1 とも解釈できるので、 [crayon-5d5e19cb7f972507323826/] は、それぞれ、 [crayon-5d5e19cb7f978 […]

命令単位の時間を計測する (準備)

命令単位の時間をはかってみましょう。この場合は、命令のクロック単位で知りたいことが多いので、CPU_CLK_UNHALTEDの値を使ってみます。 http://proc-cpuinfo.fixstars.com/2014 […]

その他の時間計測方法

rdtscp や CPU_CLK_UNHALTED は、細かい性能を計測する場合には便利ですが、大きな粒度で計測したい場合、単位の変換などが面倒です。状況に応じて、色々な方法を使い分けると良いでしょう。 以下、思い付く範 […]

Parallellaの新SDKリリース

Parallellaの新SDK&Linuxカーネルがリリースされました! http://forums.parallella.org/viewtopic.php?f=13&t=1883 第1回の記事を書いている間に […]