Вставлю свои 5 копеек, если вам через плечо любопытно посмотреть.
Нейросеть можно воспринимать как набор функций (полиномов) для
вычисления/прогнозирования значений для произвольного аргумента.
Обучение - поиск коэффициентов этих полиномов. В простейшем случае
- имеем две точки (два набора для обучения), по которым можно
построить прямую, а также фрагменты параболы и др. полиномов, но с
% ошибки. Чем больше точек (датасетов) - тем точнее
полином/апроксимация. Но если мы строим полином на плоскости, т.е. учитываем только 2 измерения (х, у), то мы на этапе проектирования и "обучения" не учитываем 3-е, 4-е, n-ые и другие измерения. 1) Поэтому, модель (нейросеть) может прекрасно работать для одних данных и быть непригодна для данных, в которых не учитывается значимый параметр (не обучена). 2) Мой пример с двумя точками описывает прямую, а фактически там может быть парабола. В окрестностях этих точек (наборов данных) прямая будет чудесно работать. Но в месте изгиба параболы выбранная модель-прямая работать не будет. Т.е. я хочу сказать, что нелинейности и точки экстремумов могут сильно портить нейросети.