GotoBLAS続き

マルチスレッド化の方法は判明。MakefileコメントアウトされたSMP=1のコメントを外せばいい。ただ、どうにも性能が出ない。倍精度で25G Flopsくらい、単精度でも45G Flopsまでしか出ていない。
理由として考えられることの一つは、やはりキャッシュサイズ。使っているのがQ6600なのだけども、これはL2が4M * 2になっている。だけども、見た感じだと4Mに設定されている。ここをうまく変更すると、もうちょっと速くなるかもしれない。
一応の目標性能、というか予想性能的には、倍精度で40GFlops弱。もう少し早くなってもおかしくはない。