Метрики в задачах машинного обучения

В задачах машинного обучения для оценки качества моделей и сравнения различных алгоритмов используются метрики, а их выбор и анализ — непременная часть работы датасатаниста.
В этой статье мы рассмотрим некоторые критерии качества в задачах классификации, обсудим, что является важным при выборе метрики и что может пойти не так.
Метрики в задачах классификации
Для демонстрации полезных функций sklearn и наглядного представления метрик мы будем использовать датасет по оттоку клиентов телеком-оператора.
Accuracy, precision и recall
Перед переходом к самим метрикам необходимо ввести важную концепцию для описания этих метрик в терминах ошибок классификации — confusion matrix (матрица ошибок).
Допустим, что у нас есть два класса и алгоритм, предсказывающий принадлежность каждого объекта одному из классов, тогда матрица ошибок классификации будет выглядеть следующим образом:
| True Positive (TP) | False Positive (FP) | |
| False Negative (FN) | True Negative (TN) |
Здесь — это ответ алгоритма на объекте, а
— истинная метка класса на этом объекте.
Таким образом, ошибки классификации бывают двух видов: False Negative (FN) и False Positive (FP).
Accuracy
Интуитивно понятной, очевидной и почти неиспользуемой метрикой является accuracy — доля правильных ответов алгоритма:
Эта метрика бесполезна в задачах с неравными классами, и это легко показать на примере.
Допустим, мы хотим оценить работу спам-фильтра почты. У нас есть 100 не-спам писем, 90 из которых наш классификатор определил верно (True Negative = 90, False Positive = 10), и 10 спам-писем, 5 из которых классификатор также определил верно (True Positive = 5, False Negative = 5).
Тогда accuracy:
Однако если мы просто будем предсказывать все письма как не-спам, то получим более высокую accuracy:
При этом, наша модель совершенно не обладает никакой предсказательной силой, так как изначально мы хотели определять письма со спамом. Преодолеть это нам поможет переход с общей для всех классов метрики к отдельным показателям качества классов.
Precision, recall и F-мера
Для оценки качества работы алгоритма на каждом из классов по отдельности введем метрики precision (точность) и recall (полнота).
Precision можно интерпретировать как долю объектов, названных классификатором положительными и при этом действительно являющимися положительными, а recall показывает, какую долю объектов положительного класса из всех объектов положительного класса нашел алгоритм.
Именно введение precision не позволяет нам записывать все объекты в один класс, так как в этом случае мы получаем рост уровня False Positive. Recall демонстрирует способность алгоритма обнаруживать данный класс вообще, а precision — способность отличать этот класс от других классов.
Как мы отмечали ранее, ошибки классификации бывают двух видов: False Positive и False Negative. В статистике первый вид ошибок называют ошибкой I-го рода, а второй — ошибкой II-го рода. В нашей задаче по определению оттока абонентов, ошибкой первого рода будет принятие лояльного абонента за уходящего, так как наша нулевая гипотеза состоит в том, что никто из абонентов не уходит, а мы эту гипотезу отвергаем. Соответственно, ошибкой второго рода будет являться «пропуск» уходящего абонента и ошибочное принятие нулевой гипотезы.
Precision и recall не зависят, в отличие от accuracy, от соотношения классов и потому применимы в условиях несбалансированных выборок.
Часто в реальной практике стоит задача найти оптимальный (для заказчика) баланс между этими двумя метриками. Классическим примером является задача определения оттока клиентов.
Очевидно, что мы не можем находить всех уходящих в отток клиентов и только их. Но, определив стратегию и ресурс для удержания клиентов, мы можем подобрать нужные пороги по precision и recall. Например, можно сосредоточиться на удержании только высокодоходных клиентов или тех, кто уйдет с большей вероятностью, так как мы ограничены в ресурсах колл-центра.
Обычно при оптимизации гиперпараметров алгоритма (например, в случае перебора по сетке GridSearchCV ) используется одна метрика, улучшение которой мы и ожидаем увидеть на тестовой выборке.
Существует несколько различных способов объединить precision и recall в агрегированный критерий качества. F-мера (в общем случае ) — среднее гармоническое precision и recall :
в данном случае определяет вес точности в метрике, и при
это среднее гармоническое (с множителем 2, чтобы в случае precision = 1 и recall = 1 иметь
)
F-мера достигает максимума при полноте и точности, равными единице, и близка к нулю, если один из аргументов близок к нулю.
В sklearn есть удобная функция _metrics.classificationreport, возвращающая recall, precision и F-меру для каждого из классов, а также количество экземпляров каждого класса.
| class | precision | recall | f1-score | support |
|---|---|---|---|---|
| Non-churned | 0.88 | 0.97 | 0.93 | 941 |
| Churned | 0.60 | 0.25 | 0.35 | 159 |
| avg / total | 0.84 | 0.87 | 0.84 | 1100 |
Здесь необходимо отметить, что в случае задач с несбалансированными классами, которые превалируют в реальной практике, часто приходится прибегать к техникам искусственной модификации датасета для выравнивания соотношения классов. Их существует много, и мы не будем их касаться, здесь можно посмотреть некоторые методы и выбрать подходящий для вашей задачи.
AUC-ROC и AUC-PR
При конвертации вещественного ответа алгоритма (как правило, вероятности принадлежности к классу, отдельно см. SVM) в бинарную метку, мы должны выбрать какой-либо порог, при котором 0 становится 1. Естественным и близким кажется порог, равный 0.5, но он не всегда оказывается оптимальным, например, при вышеупомянутом отсутствии баланса классов.
Одним из способов оценить модель в целом, не привязываясь к конкретному порогу, является AUC-ROC (или ROC AUC) — площадь (Area Under Curve) под кривой ошибок (Receiver Operating Characteristic curve ). Данная кривая представляет из себя линию от (0,0) до (1,1) в координатах True Positive Rate (TPR) и False Positive Rate (FPR):
TPR нам уже известна, это полнота, а FPR показывает, какую долю из объектов negative класса алгоритм предсказал неверно. В идеальном случае, когда классификатор не делает ошибок (FPR = 0, TPR = 1) мы получим площадь под кривой, равную единице; в противном случае, когда классификатор случайно выдает вероятности классов, AUC-ROC будет стремиться к 0.5, так как классификатор будет выдавать одинаковое количество TP и FP.
Каждая точка на графике соответствует выбору некоторого порога. Площадь под кривой в данном случае показывает качество алгоритма (больше — лучше), кроме этого, важной является крутизна самой кривой — мы хотим максимизировать TPR, минимизируя FPR, а значит, наша кривая в идеале должна стремиться к точке (0,1).
Критерий AUC-ROC устойчив к несбалансированным классам (спойлер: увы, не всё так однозначно) и может быть интерпретирован как вероятность того, что случайно выбранный positive объект будет проранжирован классификатором выше (будет иметь более высокую вероятность быть positive), чем случайно выбранный negative объект.
Рассмотрим следующую задачу: нам необходимо выбрать 100 релевантных документов из 1 миллиона документов. Мы намашинлернили два алгоритма:
Скорее всего, мы бы выбрали первый алгоритм, который выдает очень мало False Positive на фоне своего конкурента. Но разница в False Positive Rate между этими двумя алгоритмами крайне мала — всего 0.0019. Это является следствием того, что AUC-ROC измеряет долю False Positive относительно True Negative и в задачах, где нам не так важен второй (больший) класс, может давать не совсем адекватную картину при сравнении алгоритмов.
Для того чтобы поправить положение, вернемся к полноте и точности :
Здесь уже заметна существенная разница между двумя алгоритмами — 0.855 в точности!
Precision и recall также используют для построения кривой и, аналогично AUC-ROC, находят площадь под ней.
Здесь можно отметить, что на маленьких датасетах площадь под PR-кривой может быть чересчур оптимистична, потому как вычисляется по методу трапеций, но обычно в таких задачах данных достаточно. За подробностями о взаимоотношениях AUC-ROC и AUC-PR можно обратиться сюда.
Logistic Loss
Особняком стоит логистическая функция потерь, определяемая как:
здесь — это ответ алгоритма на
-ом объекте,
— истинная метка класса на
-ом объекте, а
размер выборки.
Подробно про математическую интерпретацию логистической функции потерь уже написано в рамках поста про линейные модели.
Данная метрика нечасто выступает в бизнес-требованиях, но часто — в задачах на kaggle.
Интуитивно можно представить минимизацию logloss как задачу максимизации accuracy путем штрафа за неверные предсказания. Однако необходимо отметить, что logloss крайне сильно штрафует за уверенность классификатора в неверном ответе.
Отметим, как драматически выросла logloss при неверном ответе и уверенной классификации!
Следовательно, ошибка на одном объекте может дать существенное ухудшение общей ошибки на выборке. Такие объекты часто бывают выбросами, которые нужно не забывать фильтровать или рассматривать отдельно.
Всё становится на свои места, если нарисовать график logloss:
Видно, что чем ближе к нулю ответ алгоритма при ground truth = 1, тем выше значение ошибки и круче растёт кривая.
Подытожим:
Полезные ссылки
Благодарности
Спасибо mephistopheies и madrugado за помощь в подготовке статьи.
Оценка качества в задачах классификации и регрессии
В машинном обучении различают оценки качества для задачи классификации и регрессии. Причем оценка задачи классификации часто значительно сложнее, чем оценка регрессии.
Содержание
Оценки качества классификации [ править ]
Матрица ошибок (англ. Сonfusion matrix) [ править ]
Перед переходом к самим метрикам необходимо ввести важную концепцию для описания этих метрик в терминах ошибок классификации — confusion matrix (матрица ошибок). Допустим, что у нас есть два класса [math]y = \< 0, 1 \>[/math] и алгоритм, предсказывающий принадлежность каждого объекта одному из классов. Рассмотрим пример. Пусть банк использует систему классификации заёмщиков на кредитоспособных и некредитоспособных. При этом первым кредит выдаётся, а вторые получат отказ. Таким образом, обнаружение некредитоспособного заёмщика ( [math]y = 1 [/math] ) можно рассматривать как «сигнал тревоги», сообщающий о возможных рисках.
Любой реальный классификатор совершает ошибки. В нашем случае таких ошибок может быть две:
Несложно увидеть, что эти ошибки неравноценны по связанным с ними проблемам. В случае «ложной тревоги» потери банка составят только проценты по невыданному кредиту (только упущенная выгода). В случае «пропуска цели» можно потерять всю сумму выданного кредита. Поэтому системе важнее не допустить «пропуск цели», чем «ложную тревогу».
Таким образом, ошибка I рода, или ложно-положительный исход классификации, имеет место, когда отрицательное наблюдение распознано моделью как положительное. Ошибкой II рода, или ложно-отрицательным исходом классификации, называют случай, когда положительное наблюдение распознано как отрицательное. Поясним это с помощью матрицы ошибок классификации:
| [math]y = 1[/math] | [math]y = 0[/math] | |
| [math]a ( x ) = 1[/math] | Истинно-положительный (True Positive — TP) | Ложно-положительный (False Positive — FP) |
| [math]a ( x ) = 0[/math] | Ложно-отрицательный (False Negative — FN) | Истинно-отрицательный (True Negative — TN) |
Здесь [math]a ( x )[/math] — это ответ алгоритма на объекте, а [math]y [/math] — истинная метка класса на этом объекте. Таким образом, ошибки классификации бывают двух видов: False Negative (FN) и False Positive (FP). P означает что классификатор определяет класс объекта как положительный (N — отрицательный). T значит что класс предсказан правильно (соответственно F — неправильно). Каждая строка в матрице ошибок представляет спрогнозированный класс, а каждый столбец — фактический класс.
Безупречный классификатор имел бы только истинно-положительные и истинно отрицательные классификации, так что его матрица ошибок содержала бы ненулевые значения только на своей главной диагонали (от левого верхнего до правого нижнего угла):
Аккуратность (англ. Accuracy) [ править ]
Интуитивно понятной, очевидной и почти неиспользуемой метрикой является accuracy — доля правильных ответов алгоритма:
Эта метрика бесполезна в задачах с неравными классами, что как вариант можно исправить с помощью алгоритмов сэмплирования и это легко показать на примере.
Допустим, мы хотим оценить работу спам-фильтра почты. У нас есть 100 не-спам писем, 90 из которых наш классификатор определил верно (True Negative = 90, False Positive = 10), и 10 спам-писем, 5 из которых классификатор также определил верно (True Positive = 5, False Negative = 5). Тогда accuracy:
[math] accuracy = \dfrac<5+90> <5+90+10+5>= 86,4 [/math]
Однако если мы просто будем предсказывать все письма как не-спам, то получим более высокую аккуратность:
[math] accuracy = \dfrac<0+100> <0+100+0+10>= 90,9 [/math]
При этом, наша модель совершенно не обладает никакой предсказательной силой, так как изначально мы хотели определять письма со спамом. Преодолеть это нам поможет переход с общей для всех классов метрики к отдельным показателям качества классов.
Точность (англ. Precision) [ править ]
Точностью (precision) называется доля правильных ответов модели в пределах класса — это доля объектов действительно принадлежащих данному классу относительно всех объектов которые система отнесла к этому классу.
[math] Precision = \dfrac
Именно введение precision не позволяет нам записывать все объекты в один класс, так как в этом случае мы получаем рост уровня False Positive.
Полнота (англ. Recall) [ править ]
Полнота — это доля истинно положительных классификаций. Полнота показывает, какую долю объектов, реально относящихся к положительному классу, мы предсказали верно.
[math] Recall = \dfrac
Полнота (recall) демонстрирует способность алгоритма обнаруживать данный класс вообще.
Имея матрицу ошибок, очень просто можно вычислить точность и полноту для каждого класса. Точность (precision) равняется отношению соответствующего диагонального элемента матрицы и суммы всей строки класса. Полнота (recall) — отношению диагонального элемента матрицы и суммы всего столбца класса. Формально:
Результирующая точность классификатора рассчитывается как арифметическое среднее его точности по всем классам. То же самое с полнотой. Технически этот подход называется macro-averaging.
F-мера (англ. F-score) [ править ]
Precision и recall не зависят, в отличие от accuracy, от соотношения классов и потому применимы в условиях несбалансированных выборок. Часто в реальной практике стоит задача найти оптимальный (для заказчика) баланс между этими двумя метриками. Понятно что чем выше точность и полнота, тем лучше. Но в реальной жизни максимальная точность и полнота не достижимы одновременно и приходится искать некий баланс. Поэтому, хотелось бы иметь некую метрику которая объединяла бы в себе информацию о точности и полноте нашего алгоритма. В этом случае нам будет проще принимать решение о том какую реализацию запускать в производство (у кого больше тот и круче). Именно такой метрикой является F-мера.
F-мера представляет собой гармоническое среднее между точностью и полнотой. Она стремится к нулю, если точность или полнота стремится к нулю.
Данная формула придает одинаковый вес точности и полноте, поэтому F-мера будет падать одинаково при уменьшении и точности и полноты. Возможно рассчитать F-меру придав различный вес точности и полноте, если вы осознанно отдаете приоритет одной из этих метрик при разработке алгоритма:
где [math]β[/math] принимает значения в диапазоне [math]0\lt β\lt 1[/math] если вы хотите отдать приоритет точности, а при [math]β\gt 1[/math] приоритет отдается полноте. При [math]β=1[/math] формула сводится к предыдущей и вы получаете сбалансированную F-меру (также ее называют [math]F_1[/math] ).
20 популярных метрик машинного обучения. Часть 1. Метрики классификации и регрессионной оценки
Дата публикации Oct 28, 2019
Заметка:Этот пост состоит из двух частей.В первой части(текущий пост), я расскажу о 10 метриках, которые широко используются для оценки моделей классификации и регрессии. А такжево второй частиЯ расскажу о 10 метриках, которые используются для оценки рейтинга, компьютерного зрения, НЛП и моделей глубокого обучения.
Введение
Выбор правильной метрики имеет решающее значение при оценке моделей машинного обучения (ML). Различные метрики предлагаются для оценки моделей ML в разных приложениях, и я подумал, что может быть полезно предоставить сводку популярных метрик здесь, чтобы лучше понять каждую метрику и приложения, для которых они могут использоваться. В некоторых приложениях просмотр одной метрики может не дать вам полной картины проблемы, которую вы решаете, и вы можете использовать подмножество метрик, обсуждаемых в этом посте, для конкретной оценки ваших моделей.
Здесь я приведу сводку из 20 метрик, используемых для оценки моделей машинного обучения, Я группирую эти метрики в разные категории на основе модели / приложения ML, для которых они в основном используются, и покрываю популярные метрики, используемые в следующих задачах:
Нет необходимости упоминать, что в некоторых приложениях используются различные другие метрики (FDR, FOR, hit @ k и т. Д.), Которые я здесь пропускаю.
Некоторые из обсуждаемых здесь метрик могут быть очень тривиальными, но я решил рассказать о них для полноты этого поста.Так что не стесняйтесь пропустить те, с которыми вы знакомы. Без дальнейших действий, давайте начнем наше путешествие.
Метрики, связанные с классификацией
Классификация является одной из наиболее широко используемых проблем в машинном обучении с различными промышленными приложениями, от распознавания лиц, категоризации видео на Youtube, модерации контента, медицинской диагностики до классификации текста, обнаружения ненавистнической речи в Twitter.
Существуют различные способы оценки модели классификации, и ниже я расскажу о некоторых из самых популярных.
1- Матрица путаницы (не метрика, но важно знать!)
Давайте сначала удостоверимся, что мы знаем основные термины, используемые в задачах классификации, прежде чем подробно рассмотрим каждую метрику.Вы можете пропустить этот раздел, если вы уже знакомы с терминологией.
Одним из ключевых понятий в эффективности классификации являетсяматрица путаницы(Матрица ошибок AKA), которая представляет собой табличную визуализацию предсказаний модели в сравнении с метками достоверности. Каждая строка матрицы путаницы представляет экземпляры в прогнозируемом классе, а каждый столбец представляет экземпляры в реальном классе.
Давайте рассмотрим это на примере. Давайте предположим, что мы создаем двоичную классификацию для классификации изображений кошек по изображениям, отличным от кошек. И давайте предположим, что в нашем тестовом наборе 1100 изображений (1000 изображений, отличных от кошек, и 100 изображений кошек) с приведенной ниже матрицей путаницы.
Как мы видим, диагональные элементы этой матрицы обозначают правильное предсказание для разных классов, тогда как недиагональные элементы обозначают выборки, которые были неправильно классифицированы.
Теперь, когда у нас есть лучшее понимание матрицы путаницы, давайте перейдем к фактическим метрикам.
2- Точность классификации
Точность классификации является, пожалуй, самой простой метрикой, которую можно себе представить, и определяется какколичество правильных прогнозов, деленное на общее количество прогнозов,умножить на 100,Таким образом, в приведенном выше примере из 1100 выборок 1030 прогнозируются правильно, что приводит к точности классификации:
Точность классификации= (90 + 940) / (1000 + 100) = 1030/1100 = 93,6%
3- Точность
Поэтому нам также необходимо взглянуть на показатели производительности, специфичные для каждого класса. Точность является одной из таких метрик, которая определяется как:
Точность = True_Positive / (True_Positive + False_Positive)
Точность классов Cat и Non-Cat в приведенном выше примере может быть рассчитана как:
Precision_cat= # образцы правильно предсказали кошку / # образцы предсказали как кошка =90 / (90 + 60) = 60%
Precision_NonCat = 940/950 = 98,9%
Как мы видим, модель имеет гораздо более высокую точность в прогнозировании выборок, не относящихся к кошкам, по сравнению с кошками. Это не удивительно, так как модель видела больше примеров изображений, отличных от кошек, во время тренировок, что улучшает классификацию этого класса.
4- Напомним
Напомним, еще одна важная метрика, которая определяется как доля выборок из класса, которые правильно прогнозируются моделью. Более формально:
Напомним = True_Positive / (True_Positive + False_Negative)
Таким образом, для нашего примера выше частота повторения классов cat и non-cat может быть найдена как:
Recall_cat = 90/100 = 90%
Recall_NonCat = 940/1000 = 94%
5- F1 Счет
В зависимости от приложения вы можете придать более высокий приоритет отзыву или точности. Но есть много применений, в которых важны как отзыв, так и точность. Поэтому естественно придумать способ объединить эти два в одну метрику.Один популярный показатель, который сочетает в себе точность и отзыв, называется F1-счет, что является гармоническим средним значением точности и отзыва, определяемым как:
F1-оценка = 2 * Точность * Вспомнить / (Точность + Вспомнить)
Таким образом, для нашего примера классификации с матрицей путаницы на рисунке 1, F1-показатель может быть рассчитан как:
F1_cat = 2 * 0,6 * 0,9 / (0,6 + 0,9) = 72%
Обобщенная версия F-счета определяется следующим образом. Как мы видим, F1-счет является частным случаем F_ℬ, когда ℬ = 1.
Хорошо отметить, что всегда есть компромисс между точностью и отзывом модели, если вы хотите сделать точность слишком высокой, вы в конечном итоге увидите снижение скорости повторного вызова, и наоборот.
6- Чувствительность и Специфика
Чувствительность = Напоминание = TP / (TP + FN)
Специфичность = истинный отрицательный коэффициент = TN / (TN + FP)
7- РПЦ Кривая
кривая рабочих характеристик приемникаявляется графиком, который показывает производительность двоичного классификатора как функцию его порога отсечки.По сути, он показывает истинную положительную скорость (TPR) по сравнению с ложной положительной скоростью (FPR) для различных пороговых значений. Давайте объясним больше.
Многие из классификационных моделей являются вероятностными, то есть они предсказывают вероятность того, что образец является кошкой. Затем они сравнивают эту выходную вероятность с некоторым порогом отсечки и, если он превышает пороговое значение, предсказывают его метку как кошку, в противном случае как некатчик. В качестве примера ваша модель может предсказать приведенные ниже вероятности для 4 образцов изображений:[0,45, 0,6, 0,7, 0,3], Тогда в зависимости от пороговых значений ниже вы получите разные метки:
отсечка = 0,5: прогнозируемые метки = [0,1,1,0] (порог по умолчанию)
отсечка = 0,2: прогнозируемые метки = [1,1,1,1]
отсечка = 0,8: прогнозируемые метки = [0,0,0,0]
Как вы можете видеть, изменяя пороговые значения, мы получим совершенно разные метки. И, как вы можете себе представить, каждый из этих сценариев приведет к разной точности и скорости отзыва (а также TPR, FPR).
Кривая ROC по существу обнаруживает TPR и FPR для различных пороговых значений и строит графики TPR против FPR. Пример кривой ROC показан на рисунке 2.
Как видно из этого примера, чем ниже порог отсечения для положительного класса, тем больше выборок прогнозируется как положительный класс, т. Е. Чем выше истинный положительный показатель (напомним), а также тем выше ложный положительный показатель (соответствующий правой стороне этой кривой ). Следовательно, существует компромисс между тем, насколько высоким может быть отзыв, и тем, насколько сильно мы хотим связать ошибку (FPR).
8- AUC
площадь под кривой(AUC), является агрегированной мерой производительности бинарного классификатора для всех возможных пороговых значений (и, следовательно, он является пороговым инвариантом),
На высоком уровне, чем выше AUC модели, тем лучше. Но иногда пороговая независимая мера не то, что вы хотите, например, Вы можете позаботиться о отзыве модели и потребовать, чтобы она была выше 99% (хотя она имеет разумную точность или FPR). В этом случае вы можете настроить порог модели таким образом, чтобы он соответствовал минимальным требованиям к этим показателям (и вам может быть все равно, даже если модель AUC не слишком высока).
Поэтому, чтобы решить, как оценивать производительность вашей модели классификации, возможно, вы хотите иметь хорошее представление о требованиях к бизнесу / проблеме и влиянию низкого отзыва и низкой точности и решить, для какой метрики оптимизировать.
С практической точки зрения модель классификации, которая выводит вероятности, предпочтительнее, чем вывод с одной меткой, поскольку она обеспечивает гибкость настройки порога таким образом, чтобы он соответствовал вашим минимальным требованиям к отзыву / точности. Не все модели обеспечивают такие хорошие вероятностные результаты, например, SVM не предоставляет простую вероятность в качестве выходных данных (хотя он предоставляет запас, который можно использовать для настройки решения, но он не так прост и интерпретируем, как наличие выходных вероятностей).
Метрики, связанные с регрессией
Такие модели, как линейная регрессия, случайный лес, XGboost, сверточная нейронная сеть, рекуррентная нейронная сеть, являются одними из самых популярных моделей регрессии.
Метрики, используемые для оценки этих моделей, должны иметь возможность работать с набором непрерывных значений (с бесконечным количеством элементов) и, следовательно, немного отличаться от метрик классификации.
9- MSE
«Среднеквадратическая ошибка», пожалуй, самая популярная метрика, используемая для задач регрессии. По сути, он находит среднеквадратичную ошибку между прогнозируемыми и фактическими значениями.
Давайте предположим, что у нас есть регрессионная модель, которая предсказывает цену домов в районе Сиэтла (покажите их с помощью ŷᵢ), и, скажем, для каждого дома у нас также есть фактическая цена, за которую дом был продан (обозначается как yᵢ). Тогда MSE можно рассчитать как:
Иногда люди используют RMSE, чтобы иметь показатель с масштабом в качестве целевых значений, который по сути является квадратным корнем из MSE.
Глядя на прогнозирование цен на жилье, RMSE, по сути, показывает, каково среднее отклонение в вашей модели прогнозируемых цен на жилье от целевых значений (цены, за которые продаются дома).
10- MAE
MAE, как известно, более устойчив к выбросам, чем MSE. Основная причина в том, что в MSE путем возведения в квадрат ошибок, выбросы (которые обычно имеют более высокие ошибки, чем другие выборки) получают больше внимания и доминируют в окончательной ошибке и влияют на параметры модели.
Стоит также упомянуть, что за метриками MSE и MAE существует хорошая интерпретация максимального правдоподобия (MLE). Если мы предположим линейную зависимость между объектами и целями, то MSE и MAE соответствуют MLE на параметрах модели, предполагая, что априорные значения Гаусса и Лапласа на модельных ошибках соответственно.
Метрика внутреннего коэффициента:
Существует также другая метрика для оценки регрессионных моделей, называемая отношением внутренних значений, которая, по сути, представляет собой процент точек данных, которые прогнозируются с ошибкой, меньшей предельной. Этот показатель в основном используется в модели RANSAC⁴ и ее расширениях (семейство надежных моделей оценки)
Резюме
В этой статье мы представили введение в 10 популярных метрик ML, используемых для оценки эффективности моделей классификации и регрессии. В следующей части этого поста мы собираемся представить введение в10 более продвинутых показателей, используемых для оценки эффективности моделей ранжирования, статистики, компьютерного зрения, НЛП и глубокого обучения.
Ссылки
[1] Ян Гудфеллоу, Йошуа Бенжио и Аарон Курвилль. «Глубокое обучение »,MIT press, 2016.
[2] Кристофер М. Бишоп, «Распознавание образов и машинное обучение »,Спрингер, 2006.
[3] Джером Фридман, Тревор Хасти и Роберт Тибширани. «Элементы статистического обучения »,Серия Springer по статистике, 2001.
[4] Тило Струц, «Подбор данных и неопределенность: практическое введение в взвешенные наименьшие квадраты и далее »,Vieweg and Teubner, 2010.






