動き予測(おまけ)

さすがに20倍にはならないので、と書きましたが、よく考えたら、最近のx86 では サイクルあたりで 16byte の sad が一個取れるので、20倍ぐらい出そうな気がしたので試してみました。

https://bitbucket.org/fixstars/blog/commits/ee5b03c2e280691ee85ddd3c91ac086875865ab5

普通に書いたCが、65[msec] ぐらいで、_mm_sad_epu8(psadbw) を使うと、10~13[msec]ぐらいになるようです。(i7-4700MQ)

残念ながら20倍にはなりませんね…(真面目にやるなら16倍にならない原因調べないといけないですが…)

コメントを残す

メールアドレスが公開されることはありません。 * が付いている欄は必須項目です