КМК неплохо было бы массив разместить с выравниванием на 256 и ещё
помочь в оптимизации доступа и сравнение с нулем часто дешевле, потому декремент индекса тоже может чуток ускорить
max = Arr[len];
while(len){
tmp = Arr[len--];
if(max < tmp) max = tmp;
}