命令が遅い?

レイトレのステップ数は、確か普通に関数のインライン展開を行えば10億くらいになり、そこから最適化を施して2億くらいになるという話を聞いたのだが、間違っているのだろうか。
例えば200MHzで動かすとして、FPUやらメモリアクセスやら全て合わせて大体一命令は5クロックは見ておいた方がいいわけで、そうすると40M命令/秒となるので、10億ステップで25秒となる。そんなもんじゃないのかなあと普通に考えていたのだが、どうか。