Две главные проблемы, с которыми сталкивается машинный интеллект в процессе обучения, кардинально противоположны друг другу. Ими является недообучение и переобучение. Случается это из-за неправильного выбора алгоритма или недостаточном количестве исходных данных. Как же ученые пытаются справиться с этими казусами?
Что такое машинный интеллект и его обучение
Обучение умных машин чаще всего проводится по алгоритмам под названием прецедент. В нем присутствует модель (параметрическое семейство функций). Обучающая выборка представляет собой некие точки. Они характеризуются парой данных: Х и Y. Одна из них соответствует объекту, вторая ответу.
Цель машинного обучения – научиться предсказывать ответ на тот или иной параметр объекта или его действие. Для этого из семейства параметрических функций выбирается та, которая лучше всего описывает данные.
Что такое недообучение
Недообучением называется ситуация, когда не удается среди параметрических функций подобрать наиболее подходящую. Это происходит потому, что данные могут быть гораздо сложнее устроены, чем, придуманная исследователями схема. Это когда человек в силу того, что он чего-то не учел и не додумал, пытается решить слишком сложную задачу. В этом случае ничего не получится. Как бы ученый не пытался подогнать результат, у него ничего не получится. Количество ошибок, которое будет выдавать искусственный интеллект будет слишком велико.
Как решается проблема недообучения
Решается проблема недообучения просто путем усложнения модели. Исследователю предстоит придумать более тонкие схемы цепочек зависимостей, которые соответствовали бы ситуации и полученным данным.
Что такое переобучение
Машинный интеллект и его переобучение – это более интересный и сложный процесс. В этом случае модель оказывается слишком сложной и универсальной. Примером таких случаев являются нейронные сети. У них могут быть миллионы параметров. Обучаются они на больших данных. Но этого объема параметров может все равно оказаться недостаточно, чтобы настроить правильно все процессы.

Переобучение на практике – это ситуация, когда исследователи находят модель, которая хорошо подходит под ситуацию. У них все получается. Но, когда они идут дальше, на новые данные, оказывается, что искусственный интеллект начинает делать много ошибок.
Почему возникает переобучение
Переобучение машинного интеллекта случается повсеместно. Причина тому, то, что исследователи используют выбор по неполной информации. Схема никогда до конца не описывает ту искомую зависимость. Ученые пытаются по неполным данным установить зависимость.
Как бороться с переобучением
Ученые объясняют, что установить точную зависимость по конечной выборке данных практически невозможно. Но, они пытаются бороться с ситуацией, когда машинный интеллект подвергается переобучению. Один из способов – точное угадывание схемы зависимости. Но, для этого, помимо знаний, нужно обладать, пожалуй, еще и неким чутьем. Тем более, что машинный интеллект вторгается сейчас в те области, где подобрать точную модель практически невозможно.
Для преодоления переобучения исследователи прибегают к кросс контролю или скользящим проверкам. Это когда модель оценивается не по тем данным, которые использовались для обучения искусственного интеллекта, а по тестовым выборкам.
Наука не стоит на месте, вскоре, скорее всего мы увидим, огромные глобальные сети искусственного интеллекта, прошедшего машинное обучение. Например, такие, как нейросеть DALL·E. Они смогут решать, как общие задачи, так и конкретные в отдельных областях нашей жизни. Хорошо это или плохо – покажет время.