ну дык тогда просто - скомпилил один вариант - посмотрел как оно на асм легло, потом другой вариант. ну и параллелить вычисления из разных адресов, чтобы данные из 8-и разных областей кэша сосались. ну и поднапрячь какой арм что рядом, или PRU, чтобы данные в кэш ложил заранее.