Cellでがんばってみたログ

2010-03-29 他のシステムのインストールがなくなる?

こちらよると「他のシステムのインストール」がなくなる?

http://japanese.engadget.com/2010/03/29/ps3-v3-21/

最近PS3DVDプレーヤーと化しているものの、「他のシステムのインストール」があるから旧型を残しているのに。旧型からこの機能を削除するのだけはやめてくれ。

2008-09-02 コメント

コメントどうもです。

最近すっかりがんばっていません。x264の場合は規模が大きいのでどの処理ブロックをSPEにさせるか難しいです。

当初はとにかくSPEのLSに押し込んで、これを7つのSPEで並列に走らせるつもりでしたが、8段のパイプラインのように処理させた方がよいかもしれないと考えはじめ、そうするとx264のオリジナルコードをそのままとはいかずちょっとめげています。

CUDA対応のTMPGEncも苦労しているようですが、難しいですね。あちらは自前のコードですし、仕事ですからだんだんこなれてくるんでしょうね。

LarrabeeCellに似てますが、メモリ管理はCPUがやってくれるのが羨ましい。SPEはDMAでまいどまいど転送するのが面倒くさい。

最近我が家のPS3もすっかりDVDプレーヤーと化しているです。もちべーしょんがあがったらまたがんばります。

とおりすがりとおりすがり 2008/09/08 20:58 よくがんばっていらっしゃったと思います。たまにここを拝見させていただいて、楽しかったです。
ところで、最近次世代のCellの情報が出始めています。ここまでがんばられたことを踏まえて、次世代のCellのアーキテクチャや開発環境に期待することなどありますか?よろしかったら教えてください。

ご存知かもしれませんが、次世代Cellは、PPEが4つとSPEが32個だそうです。PPEは強化され、SPEはちょっと強化、LSの容量増の可能性もあるそうです。

私的には、第一にLSの容量が増えたらなあと思います。別に256KBでも十分なことは多いのですが、1MBになったら、テーブルをおっきくとったり、フィルタのサイズを大きくしたり、できることの幅がひろがるなと感じているからです。

ちなみに、私はSとかIとかTの会社の人間ではないです。ただ趣味でやってる人間です。

hagecellhagecell 2008/10/11 21:38 コメントどもです。一ヶ月放置ですいません。
LSの容量は増やしてほしいです。HD画像が数枚置けるぐらいは欲しいですね。SPEはSIMD化しなくてもそこそこ速くなって欲しい。コードのサイズも小さくなって欲しいですね。

でも、それよりなによりソースレベルでの共通化ぐらいは進んで欲しいですね。使いまわしができないのは趣味でやるにはつらいです。

2008-01-04 pixel_satd_wxhのSIMD化

あけましておめでとうです。

さてなんとかpixel_satd_wxhもSIMD化して、さらに速くなりましたが、元通りとまではいかず。

とりあえず現状をまとめて、上の階層をSPUに持ってくることになりそう。

今回の速度は、

  • SPU(SIMD化)
    • 477秒
  • PPU(前回の測定値)
    • 320秒

前回PPUのrefine_subpelの処理時間は98秒で、それ以外の処理時間は222秒。ということはSIMD化したSPUでは255秒かかったことになる。前回SPU側の処理を呼び出して、LSへメモリを転送するだけの処理が219秒かかったことになっているので、SPUの実処理時間は36秒。ちょっと嘘がある。今回はDMA転送を関数の最初でスタートして処理する直前で転送完了を待つようにしたのでメモリ転送しながら少し処理している。が、それでもかなり速度アップしたことになる。ええこっちゃ。

とはいえ、結局メモリ転送に時間がかかってプラスマイナスのマイナスになっている。次は上の階層としてx264_me_search_refのSPUに移動するか。その前にSDK3.0もインストールしたほうがいいし、オリジナルコードもだいぶリビジョンが上がっているだろうし、マージせねば。

パッチはいつもの場所に置きました。

通りすがり通りすがり 2008/08/28 11:02 まだがんばってますか?
高速化に役に立ちそうな新しい記事がありました。
http://www.ibm.com/developerworks/jp/power/library/j_pa-asmvis/

がんばってがんばって 2008/08/29 21:02 IBMの論文にこんな記事がありました。
http://www.ibm.com/developerworks/jp/power/library/pa-tacklecell3/index.html

SPEはスカラ命令がないので、スカラがあるととっても遅くなると。
なので分岐をして不要な計算を省くより、
とりあえず全部計算してしまって、あとから値を捨てたほうが早い場合があるそうです。

コードを交えた解説もあるのでご参考までに。

2007-12-17 motion_compensation_chromaのSIMD化

先週に引き続きmotion_compensation_chromaをSIMD化しさらにちょびっと速くなった。次はpixel_satd_wxhのSIMD化だ。

2007-12-09 pixel_avgのSIMD化

がっくりしていてもしょうがないのでSIMD化してみる。まずはpixel_avgをSIMD化し、ちょびっと速くなった。次はmotion_compensation_chromaか。少しずつ進めましょう。