Класс балансировки: Классы точности балансировки жестких роторов

Содержание

Классы точности балансировки жестких роторов

Точность балансировки жестких роторов характеризуется в стандарте с виброскоростью — произведением удельного дисбаланса на максимальную эксплуатационную частоту вращения ротора (e_ст.w_эmax, мкм).

Для жестких роторов, с двумя симметричными, относительно центра масс, плоскостями опор, к каждой плоскости следует относить половину рекомендуемого значения главного вектора допустимых дисбалансов. При дискообразном роторе это значение относится к одной плоскости, проходящей через центр масс ротора.

Класс точности	e_ст.w_эmax, мкм		Типы роторов (рекомендация ИСО 1940-73)
Класс точности	min	max	Типы роторов (рекомендация ИСО 1940-73)
	0,064	0,16	Применяется факультативно
1	0,16	0,40	Шпиндели, шлифовальные круги и роторы прецизионных шлифовальных станков, гироскопы
2	0,40	1,00	Приводы шлифовальных станков и магнитофонов, малые электродвигатели специального назначения
3	1,00	2,50	Газовые и паровые турбины, турбогенераторы с жесткими роторами, турбокомпрессоры, приводы станков, средние и крупные электродвигатели специального назначения
4	2,50	6,30	Маховики, крыльчатки центробежных насосов, роторы обычных электродвигателей и авиационных газотурбинных двигателей в сборе, части станков и машин общего назначения и технологического оборудования, главные редукторы турбин торговых судов, барабаны центрифуг, вентиляторы
5	6,30	16,0	Части дробилок, сельскохозяйственных машин, двигателей автомобилей и локомотивов, коленчатые валы двигателей с шестью цилиндрами и более, гребные и карданные валы
6	16,0	40,0	Колеса легковых автомобилей, обода колес, бандажи, колесные пары, приводные валы, тормозные барабаны и коленчатые валы для автомобиля и локомотива и установленного на виброизоляторах высокооборотного четырехтактного двигателя с шестью цилиндрами
7	40,0	100	Коленчатый вал дизеля с шестью цилиндрами и более, двигатели в сборе для автомобилей и локомотивов
8	100	250	Коленчатый вал жестко установленного высокооборотного четырехцилиндрового двигателя
9	250	630	Коленчатый вал жестко установленного мощного двигателя и виброизолированного судового дизеля
10	630	1600	Коленчатый вал жестко установленного двухтактного двигателя большой мощности
11	1600	4000	Коленчатый вал низкооборотного судового дизеля с нечетным числом цилиндров без виброизоляции.

Возврат к списку

Основы дисбаланса

Дисбаланс – вездесущее явление во вращющихся телах. Типичным примером являются вращющиеся инструментальные оправки на станках.

Поскольку дисбаланс создает центробежную силу, которая линейно увеличивается с дисбалансом и пропорциональная количеству оборотов, чем быстрее вращается ротор, тем более заметным становится дисбаланс. Но как возникает дисбаланс, как его измерить и как устранить с помощью балансировки?

На следующей странице мы собрали теоретические основы балансировки, которые представляют собой основу балансировки инструмента.

1. Причины дисбаланса

Несимметричная конструкция Ротора (например, зажимная канавка на держателях инструментов, как указано в DIN 69871, или зажимной винт на держателях инструментов Weldon)
Несимметричное распределение массы из-за ошибок концентричности, вызванных производственными допусками, например концентричностью наружного диаметра инструмента по отношению к конусу патрона.
Ошибки центрирования при сборке Ротора, состоящего из нескольких компонентов, например фрезерного шпинделя и инструментального патрона, инструментального патрона и инструмента.
Ошибки концентричности в подшипниках Ротора, например в подшипнике шпинделя.

2. Что такое дисбаланс?

2.1 Статический дисбаланс

Центр тяжести Ротора лежит вне оси вращения.

Этот вид дисбаланса можно измерить в неподвижных роторах, например с помощью шкал дисбаланса для шлифовальных кругов
При вращении это дисбаланс вызывает центробежные силы, перпендикулярные оси вращения
Его можно устранить, балансируя в одной плоскости. Можно выбрать любую балансировочную плоскость. Обычно после статической балансировки все еще может быть моментный дисбаланс.

M_U = масса дисбаланса (в г)
r = расстояние от неуравновешенной массы до оси вращения (в мм)
M = масса Ротора (в кг)
e = расстояние от центра тяжести до оси вращения (в мкм)
S = центр тяжести
F_F = центробежная сила
Значение статического дисбаланса: U = MU • r = M • e
Единица измерения дисбаланса: [U] = г * мм = кг * мкм

2.

2 Моментный дисбаланс

Центр тяжести лежит вдоль оси вращения

- Этот тип дисбаланса можно измерить только во вращающихся роторах.
- Такой тип дисбаланса вызывает момент во время вращения.
- Центробежные силы обеих неуравновешенных масс уравновешивают друг друга (без боковых сил).
- Его можно устранить только балансировкой в 2-х плоскостях

M_U1, M_U2 = несбалансированные массы (в г)
S = центр тяжести
r = расстояние от неуравновешенных масс до оси вращения (в мм)
M = масса Ротора (в кг)
F_F1, F_F2 = центробежные силы
M_U1 = M_U2
F_F1 = F_F2

2.3 Динамический дисбаланс

Сочетание статического и парного дисбаланса

Это нормальный случай для промышленных роторов

3. Что такое балансировка?

Балансировка используется для компенсации несимметричного распределения массы в Роторе.
Это возможно с помощью:

применения массы, например установки груза для балансировки автомобильных шин
удаления массы, например, путем сверления отверстия
регулировки массы, например, путем добавления балансировочных колец, винтов

3.1 Балансировка в одной плоскости (статическая)

Компенсация статической части дисбаланса:

Центр тяжести Ротора возвращается к оси вращения (эксцентриситет е=0)
Парный дисбаланс динамического дисбаланса остается неизменным

3.2 Балансировка в двух плоскостях (динамическая)

Полная компенсация дисбаланса (статический и моментный дисбаланс)

В принципе, можно выбрать любые балансировочные плоскости (лучше всего, если они находятся как можно дальше друг от друга)

4. Измерение дисбаланса

4.1 Принцип измерения

Держатель инструмента вставляется в балансировочный шпиндель и приводится во вращение.
Датчики силы измеряют центробежные силы.
Центробежные силы измеряются в двух различных плоскостях на опоре балансировочного шпинделя. Синусоидальный сигнал вырабатывается по мере того, как направление, в котором действуют центробежные силы, поворачивается вместе со шпинделем. Необходимо определить как величину сигнала, так и его угол по отношению к шпинделю.
Силовые сигналы используются для расчета весов относительно балансировочных плоскостей. При изменении положения балансировочных плоскостей изменятся и рассчитанные дисбалансы.
Компенсация дисбаланса рассчитывается на основе значений дисбаланса.

5. Балансировка оправок

5.1 Качество балансировки G

Допустимый остаточный дисбаланс можно увидеть на диаграмме Ось Х: скорость вращения Ось Y: остаточный дисбаланс по отношению к массе Ротора

DIN ISO 1940-1 (ранее VDI guideline 2060) определяет принципы измерения дисбаланса и для балансировки. Точность балансировки выражается как класс балансировки G (ранее: Q).

Оценка качества балансировки всегда действительна только для одной конкретной скорости вращения ротора.

Допустимый остаточный дисбаланс рассчитывается исходя из степени качества балансировки, скорости вращения и веса Ротора.

U_zul = (G•M)/n • 9549

U_zul = допустимый остаточный дисбаланс Ротора в гмм
G = балансировочная оценка качества
M = масса Ротора, кг
n = частота вращения ротора в об / мин
9549 = постоянный коэффициент, полученный в результате преобразования единиц измерения

Пример:

Фреза зажата в цанговом патроне.
Общий вес 0,8 кг
Фреза должна использоваться с рабочей скоростью n = 15 000 об / мин
Изготовитель шпинделя требует качество балансировки класса G = 2,5
Допустимый остаточный дисбаланс Uper = 1,3 гмм

Допустимый остаточный дисбаланс можно увидеть на диаграмме.

5.2 Достижимая точность

В приведенном выше примере допустимый остаточный дисбаланс составляет 1,3 гмм. Для наглядности этого значения, полезно преобразовать дисбаланс в эксцентриситет.

U_zul = M • eper
eper = Uper/M =1.3 гмм/800г = 0.0016 мм = 1.6 мкм

Поэтому центр тяжести держателя инструмента может быть смещен на макс. 1,6 мкм от оси вращения. Во время балансировки предполагается, что ось конуса или HSK является осью вращения. Однако в фрезерном станке инструмент вращается вокруг оси шпинделя.

Даже новые шпиндели имеют радиальное биение до 5 мкм (эквивалентно эксцентриситету e = 2,5 мкм).

Дополнительный пример:

Балансировочное качество G = 1
Скорость вращения n = 40.000 об / мин
Масса инструмента M = 0,8 кг
U_per = 0,2 гмм
E_per = 0,3 мкм

Этот допустимый эксцентриситет не может быть достигнут на практике.
Даже хорошие шпиндели имеют повторяемость 1-2 мкм при смене инструмента.
Небольшое количество грязи значительно ухудшает результат.

На общий дисбаланс фрезерного шпинделя влияют многие факторы:

дисбаланс самого шпинделя
дисбаланс из-за ошибок концентричности в шпинделе (ось симметрии не является осью вращения. )
ошибки концентричности в фурнитуре шпинделя (отверстие для охлаждающей жидкости, зажимное устройство)
боковое искажение зажимной системы при затяжке (пружины, тяга)
погрешность концентричности и наклона держателя инструментального патрона в шпинделе
дисбаланс самого инструментального патрона
ошибка концентричности тягового стержня (смещение)
ошибка концентричности в инструменте
дисбаланс аксессуаров держателя инструмента (например, затяжная гайка)

Вывод:
Допустимый остаточный дисбаланс менее 1 гмм на практике нереален!

Читать дальше…

Почему классы балансировки чрезмерно раздуты | by Gabe Verzino

Три причины, по которым вам может не понадобиться балансировать набор данных

Изображение Loic Leray на Unsplash

В прошлом месяце на работе я попал в кроличью нору. Я пытался построить модель для предсказания редкого исхода, но мои показатели отзыва и точности оставались низкими. Учитывая крайнюю непропорциональность двух классов, я думал, что виноват в этом дисбаланс классов.

Классы балансировки часто представляются как способ «исправить» прогностическую модель, и в некотором смысле это правда. Этот метод приобрел популярность по одной причине — его можно использовать для повышения общей точности, предоставления описательных сводок, применения определенных статистических данных, предотвращения штрафов модели за выборки меньшинства и т. д. Однако я понял, что легко застрять в привычном действии. уравновешивание классов без учета новых проблем, которые это может создать. Здесь я рассмотрю три причины, по которым вы можете , а не хочу перебалансировать:

Введение смещения
Данные обучения должны отражать реальный мир
Количество классов меньшинства может быть уже достаточным

Во-первых, давайте быстро рассмотрим, что означает наличие дисбаланса классов.

Что такое несбалансированные классы?

Несбалансированные классы — это просто две популяции с неравными пропорциями. Примеры существуют в разных отраслях; например, в здравоохранении количество проверенных доброкачественных опухолей (класс большинства) намного превышает количество раковых (класс меньшинства), или в финансах количество обычных транзакций довольно велико (класс большинства) по сравнению с мошенническими (класс меньшинства). . Эти пропорции могут колебаться от 4:1 до 100:1, при крайнем дисбалансе от 1000:1 до 10000:1 [1], а иногда и больше.

Как правило, в классе меньшинств есть что-то гнусное или нежелательное, что нам было бы полезно предсказать заранее. В моей области относительно небольшая часть (5–15%) всех больничных требований к страховым компаниям получает отказ. В идеале мы можем предсказать это заранее, чтобы сэкономить миллионы упущенной выгоды для больницы, которая уже выживает с небольшой прибылью.

Но давайте рассмотрим некоторые потенциальные ловушки перебалансировки классов и обсудим некоторые альтернативные способы лучшего прогнозирования результатов меньшинства.

Причина 1: Введение смещения

Перебалансировка наборов данных может привести к смещению. Когда вы передискретизируете, вы делаете не что иное, как искусственное увеличение или уменьшение количества точек данных. Если вы решите занижать выборку класса большинства, может возникнуть систематическая ошибка, если будут удалены критические наблюдения. Новый образец также может неточно отражать ваши истинные данные теста. И наоборот, избыточная выборка класса меньшинства может непреднамеренно расширить скрытые аномалии данных и привести к переобучению. SMOTE — это еще один метод повторной выборки, который может улучшить границы принятия решений [2], но прогностическое улучшение незначительно, если новые данные содержат свойства, сходные с помеченными образцами в классе меньшинства [3]. SMOTE также имеет тенденцию страдать в многомерных наборах данных, потому что он не принимает во внимание все соседние классы и может привести к перекрытию важных различий между классами.

Так почему же мы так усердно занимались балансировкой наших наборов данных? Действительно, толчком послужило исправление еще одной проблемы с оценкой глобальной точности. Возьмем приведенный выше пример с отклоненными претензиями; базовая модель может достичь поразительной точности в 95%, потому что класс большинства представляет именно эту пропорцию во всем наборе данных. Короче говоря, просто каждый раз предсказывая класс большинства «неотклоненный», вы получите среднюю точность 95%. Благодаря перебалансировке показатель точности становится более реалистичным.

Однако, запутавшись во всех возможных способах перебалансировки, мы оставили некоторые более важные соображения: достаточно ли у нас репрезентативных данных? Действительно ли наши переменные предсказуемы и важны? И создаем ли мы правильные пороги для наших прогнозов? На самом деле установка порогов очень важна для задач прогнозирования, и вы можете оптимизировать их с точностью и полнотой. В любом случае отчеты о погоде — хороший пример того, почему пороговые значения лучше, чем точность бинарной классификации. Например, синоптики никогда не сообщают «будет дождь» или «дождя не будет». Они обеспечивают пороговые значения, такие как «вероятность дождя 52%», что дает нам лучшее понимание и автономию в принятии решения с учетом других важных факторов в нашей жизни, например, насколько надоело бы мне носить куртку весь день, если солнце сияет? Если я действительно ненавижу таскать с собой куртку весь день, а вероятность дождя составляет всего 52%, я брошу кости и выйду из дома без куртки. Однако в нашем примере со здравоохранением эти пороги могут быть не просто неудобством, а жизнью или смертью.

Большинство прогностических моделей устанавливают автоматические пороги на уровне 50 %, хотя выбор более контекстуально релевантного порога важен и может быть выполнен [4]. Хотя, если вы слишком много внимания уделяете перебалансировке своих классов, а не оптимизации этих типов компромиссов, вы можете попасть в кроличью нору, пытаясь «решить» не ту проблему.

Ребалансировка классов также имеет некоторые исторические корни в статистике, и старые привычки трудно умирают. Многие экспериментальные планы предполагают сбалансированные данные, такие как многофакторный дисперсионный анализ [5]. Сбалансированные планы в таких случаях улучшают статистическую мощность и снижают гомоскедастичность [6]. До появления компьютеров оценивать модели с очень несбалансированными данными было особенно сложно вручную. Сегодня достижения в области вычислительной техники сделали эти проблемы в основном устаревшими. Усовершенствованные модели прогнозирования могут оптимизироваться в многомерных и разреженных матрицах, и они, безусловно, могут устранить дисбаланс классов.

Причина 2: обучающие данные должны отражать реальный мир

Еще одна причина не перебалансировать наборы данных заключается в том, что модели следует обучать на наборах данных, распределения которых будут отражать будущие, реальные тестовые случаи, для которых они в конечном итоге будут применяться. Если ребалансировка считается абсолютно необходимой, тренировочные и тестовые наборы должны быть разделены перед любой практикой ребалансировки.

В статье Харрелла классификатор, обученный на сбалансированных данных, необходимо будет переобучить на правильных тестовых данных, для которых прогнозы и закономерности могут сильно измениться [7]. Например, предположим, что у вас есть два несбалансированных класса: 1 000 000 пациентов, не страдающих раком, и 1 000 больных раком. Если вы обучили модель на сбалансированных классах, понизив выборку большинства классов на 90%, вы бы обучали классификатор распространенности 1/10, а не распространенности 1/1000, которая встречается естественным образом. Как указывает Провост, предположение, которое делает классификатор, заключается в том, что он «будет работать с данными, полученными из того же распределения, что и обучающие данные» [4]. Обучение на сбалансированных данных не может быть распространено на данные реального мира, которые естественным образом несбалансированы.

Для повышения производительности алгоритмов на несбалансированных наборах данных было разработано несколько методов. Мы можем просто разделить классы на тестовые и тренировочные наборы до с применением метода повторной выборки. Это предотвращает возможность наличия одинаковых данных в обоих наборах, что может привести к переоснащению и плохому обобщению. Более интенсивный метод повышения включает в себя адаптацию модели обучения, чтобы она соответствовала тестовому распределению, с использованием двух учеников (L1, L2) на разных выборках из общего набора данных и последнего ученика для обнаружения различий между ними (L3) [8]. Другие распространенные подходы включают назначение весов классов, обратно пропорциональных частотам классов в обучающих данных, что также предотвращает переобучение [9]. ]. Методы обучения на основе ядра также использовались для улучшения границ принятия решений в моделях SVM [10]. Но опять же, эти решения устраняют дисбаланс классов, как если бы они были исключительно проблематичными, когда существуют более насущные вопросы: является ли ваш класс представителем меньшинства? Присутствует ли шум в этом меньшинстве? Ваши классы на самом деле пересекаются? Действительно ли важны переменные ваших функций? Не слишком ли много «дизъюнктов» в ваших классах большинства и меньшинства? [11–17].

Таким образом, вместо уравновешивания классов применение чувствительного к затратам обучения показало некоторые многообещающие результаты при непосредственном применении к несбалансированным классам, которые мы наблюдаем естественным образом в жизни [12, 18-19].]. В частности, для больших наборов данных экономичное обучение на естественных несбалансированных распределениях дало лучшие результаты, чем избыточная или недостаточная выборка несбалансированных классов. Авторы считают, что большее количество обучающих данных позволило модели более точно оценить вероятности принадлежности к классу [20]. Другие эмпирические исследования показали превосходство стоимостного обучения в несбалансированных распределениях по сравнению с методами выборки [20–22].

Причина 3: может быть уже достаточно количества миноритарных классов

Ребалансировка также может быть ненужной, если ваш миноритарный класс содержит достаточно релевантных и мощных зависимостей, чтобы информировать ваш классификатор [23]. Это имеет первостепенное значение по сравнению с крайними несбалансированными пропорциями, которые могут существовать между классами меньшинства и большинства. В нескольких исследованиях с несбалансированными наборами данных концепция меньшинства была точно изучена с небольшими нарушениями из-за дисбаланса [24-26].

Подумай об этом так. Несбалансированный набор данных со 101 выборкой — 100 случаев большинства и 1 случай меньшинства — сделал бы ужасную прогностическую модель. Но что, если бы у вас было 10 000 000 случаев большинства и 100 000 случаев меньшинства? Та же степень дисбаланса классов. Но класс меньшинства может быть достаточно большим во втором примере, чтобы построить модель предсказания качества.

Это особенно верно, если оба класса происходят из непересекающихся распределений с очень четко определенными (то есть разными) переменными признаков [1]. В моей собственной работе по прогнозированию отклоненных требований в области здравоохранения несбалансированные классы не были причиной плохих прогнозов; мои первоначальные функции были просто неинформативны для моей переменной результата (отказано или не отклонено). Если вы также сталкиваетесь с высокоразмерными и разреженными пространствами функций, эти проблемы имеют приоритет над дисбалансом классов.

Если, с другой стороны, количество примеров в вашем меньшинстве слишком мало для адекватного обучения классификаторов, тогда у вас действительно проблема с неполными обучающими данными, а не с несбалансированными наборами данных. Конечно, вы можете назвать это классовым дисбалансом, но на самом деле это всего лишь проблема власти. Если это произойдет, я действительно задаюсь вопросом, отсутствует ли класс меньшинства случайно или непропорционально? С первым все в порядке, если вы можете получить доступ к большему количеству данных, второе может привести к смещению выборки.

Небольшие размеры выборки, а не несбалансированность классов, могут быть особым препятствием для прогностических моделей. Классификатор случайного леса (RFC) особенно требователен к данным, требуя большого количества данных для получения значимых результатов. Например, ван дер Плоэг и его коллеги продемонстрировали, что для того, чтобы RFC работали с новыми данными так же хорошо, как и с обучающими данными, общий размер выборки должен в 200 раз превышать количество признаков-кандидатов [27]. Таким образом, классы меньшинства, имеющие достаточно выборок, могут быть приемлемы для использования в моделях классификации. Что такое «хватит»? Там нет действительно жестких и быстрых правил. Продолжайте оптимизировать точность и полноту, а также следите за тем, чтобы ваши данные не подгонялись и не допускали утечки.

Заключение

Если ваши несбалансированные классы хорошо отделимы, имеют хорошее представление меньшинства и оказывают уникальное и сильное влияние на вашу результирующую переменную, то, несмотря на несбалансированность, данные не должны создавать проблем для построения надежных прогностических моделей. Условные вероятности, такие как точность и полнота, должны оцениваться и оптимизироваться в пределах естественного распределения ваших классов.

В то время как дисбаланс классов вызывает много внимания и беспокойства, гораздо более важными вопросами, которые следует учитывать, являются:

Оптимизируете ли вы правильные показатели классификации, такие как точность и полнота, а не точность?
Является ли представитель вашего меньшинства? Достаточно ли случаев меньшинств?
Присутствует ли шум в вашей группе меньшинств?
Учитывает ли ваша модель естественное распределение классов, как они появляются в сценариях реальной жизни, и хорошо ли она применима?
Ваши классы как-то пересекаются? В какой степени?
Действительно ли важны переменные ваших функций?

Рады общению с любым пользователем LinkedIn! Если вы заинтересованы в пересечении науки о данных и здравоохранения или если у вас есть интересные задачи, которыми можно поделиться, оставьте комментарий или DM.

Ознакомьтесь с некоторыми другими моими статьями:

Прогнозирование продолжительности пребывания пациента в стационаре

Коды CPT для разработки признаков

7 шагов для проектирования базовой нейронной сети 9 0005

Цитаты

[1] Бартош Кравчик. «Изучение несбалансированных данных: открытые вызовы и будущие направления». Прог Артиф Интелл (2016) 5: 221–232

[2] Марко Алтини, «Работа с несбалансированными данными: недостаточная выборка, избыточная выборка и правильная перекрестная проверка». Блог. Август 2015 г. https://www.marcoaltini.com/blog/dealing-with-imbalanced-data-undersampling-oversampling-and-proper-cross-validation

[3] Yanping Yang, Guangzhi Ma. «Активное обучение на основе ансамбля для решения проблемы дисбаланса классов». Журнал биомедицинских наук и инженерии, Vol. 3 №10, октябрь 2010 г.

[4] Провост Ф. «Машинное обучение на несбалансированных наборах данных 101». (2000).

[5] RH Riffenburgh, Chapter 13 — Multi-Factor ANOVA and ANCOVA, Editor(s): RH Riffenburgh, Statistics in Medicine (Third Edition), Academic Press, 2012, Pages 275–297

[6] Stephanie Glen . «Сбалансированные и несбалансированные планы: определение, примеры» из StatisticsHowTo.com : Элементарная статистика для всех нас! https://www.statisticshowto.com/balanced-and-unbalanced-designs/

[7] Фрэнк Харрелл, «Классификация против предсказания». Блог, сентябрь 2020 г. https://www.fharrell.com/post/classification/

[8] Роберт Э. Шапир, представленный на « Сила слабой обучаемости » Machine Learning, 5(2):197–227, 1990. http://rob.schapire.net/papers/ сила слабости.pdf .

[9] Джоши, М., Кумар, В. и Агарвал, Р. (2001) Оценка алгоритмов повышения для классификации редких классов: сравнение и улучшения. Материалы 1-й Международной конференции IEEE по интеллектуальному анализу данных. Вашингтон, округ Колумбия: Компьютерное общество IEEE, 257–264.

[10] Акбани, Р., Квек, С. и Япкович, Н. (2004) Применение метода опорных векторов к несбалансированным наборам данных. Материалы 15-й Европейской конференции по машинному обучению, Пиза, Италия, 39–50.

[11] Хайбо Хе, Эдвардо А. Гарсия, «Обучение на несбалансированных данных», IEEE Transactions on Knowledge and Data Engineering, Vol 21., №9, сентябрь 2009 г.

[12] G.M. Вайс, «Майнинг с редкостью: унифицирующая структура», Информационный бюллетень ACM SIGKDD Explorations, vol. 6, нет. 1, стр. 7–19, 2004.

[13] Н. Япкович и С. Стивен, «Проблема дисбаланса классов: систематическое исследование», Интеллектуальный анализ данных, том. 6, нет. 5, pp. 429-449, 2002.

[14] T. Jo и N. Japkowicz, «Class Imbalances vs Small Disjuncts», ACM SIGKDD Explorations Newsletter, vol. 6, нет. 1, стр. 40–49., 2004.

[15] Н. Япкович, «Классовый дисбаланс: правильно ли мы сосредотачиваемся на проблеме?» проц. Международная конф. Машинное обучение, Практикум обучения на основе несбалансированных наборов данных II, 2003 г.

[16] Р.К. Прати, G.E.A.P.A. Батиста и М.К. Монар, «Несбалансированность классов по сравнению с перекрытием классов: анализ поведения системы обучения», Proc. Мексиканская международная конф. Искусственный интеллект, стр. 312–321, 2004 г.

[17] С.Дж. Рауди и А.К. Джайн, «Влияние малого размера выборки на статистическое распознавание образов: рекомендации для практиков», IEEE Trans. Анализ закономерностей и машинный интеллект, том. 13, нет. 3, стр. 252–264, 19 марта.91.

[18] Н. В. Чавла, Н. Япкович и А. Колч, «От редакции: специальный выпуск по обучению на несбалансированных наборах данных», Информационный бюллетень исследований ACM SIGKDD, vol. 6, нет. 1, стр. 1–6, 2004

[19] М. А. Малуф, «Обучение, когда наборы данных несбалансированы, а затраты неравны и неизвестны», Proc. Международная конф. Машинное обучение, Практикум обучения на основе несбалансированных наборов данных II, 2003 г.

[20] К. Маккарти, Б. Забар и Г.М. Вайс, «Превосходит ли экономичное обучение выборку для классификации редких классов?» проц. Int’l Workshop Utility-Based Data Mining, стр. 69.–77, 2005.

[21] X.Y. Лю и З.Х. Чжоу, «Обучение экономичных нейронных сетей с помощью методов, решающих проблему дисбаланса классов», IEEE Trans. Инженер знаний и данных, том. 18, нет. 1, стр. 63–77, январь 2006 г.

[22] X.Y. Лю и З.Х. Чжоу, «Влияние дисбаланса классов на экономичное обучение: эмпирическое исследование», Proc. Международная конф. Data Mining, стр. 970–974, 2006.

[23] Стивен Сенн, «Семь мифов о рандомизации в клинических испытаниях». Статистика в медицине, декабрь 2012 г.

[24] G.E.A.P.A. Батиста, Р.К. Прати и М.К. Монар, «Исследование поведения нескольких методов балансировки обучающих данных машинного обучения», Информационный бюллетень ACM SIGKDD Explorations, vol. 6, нет. 1, стр. 20–29, 2004.

[25] Н. Япкович и С. Стивен, «Проблема дисбаланса классов: систематическое исследование», Интеллектуальный анализ данных, том. 6, нет. 2002. Т. 5. С. 429–449.

[26] Г.М. Вайс и Ф. Провост, «Обучение, когда обучающие данные обходятся дорого: влияние распределения классов на индукцию дерева», J. Исследования искусственного интеллекта, том. 19, pp. 315–354, 2003.

[27] van der Ploeg, T., Austin, P.C. & Steyerberg, E.W. Современные методы моделирования нуждаются в данных: имитационное исследование для прогнозирования дихотомических конечных точек. BMC Med Res Methodol, Том 14, № 137. (2014). https://doi.org/10.1186/1471-2288-14-137

Балансировка классов в машинном обучении

При использовании алгоритма машинного обучения очень важно обучать модель на наборе данных с почти одинаковым количеством выборок. Это известно как сбалансированный класс. Нам нужны сбалансированные классы для обучения модели, но если классы не сбалансированы, нам нужно использовать метод балансировки классов перед использованием алгоритма машинного обучения. Итак, в этой статье я расскажу вам, что такое балансировка классов и как реализовать методы балансировки классов с помощью Python.

В машинном обучении балансировка классов означает балансировку классов с несбалансированными выборками. Перед использованием алгоритма машинного обучения важно избегать дисбаланса классов, потому что наша конечная цель — обучить модель машинного обучения, которая хорошо обобщает все возможные классы, предполагая, что у нас есть двоичный набор данных с равным количеством выборок.

Итак, прежде чем использовать алгоритм машинного обучения, очень важно посмотреть на распределение классов, чтобы исправить проблемы балансировки классов. Например, давайте посмотрим, как мы можем обнаружить несбалансированные классы, создав несбалансированный набор данных с помощью функции make_classification в библиотеке Scikit-learn в Python:

 из импорта sklearn. datasets make_classification
nb_samples = 1000
веса = (0,95, 0,05)
x, y = make_classification (n_samples = nb_samples,
                           n_features=2,
                           n_избыточный = 0,
                           веса = веса,
                           случайное_состояние=1000)
печать (х[у==0].форма)
print(x[y==1].shape)

 (946, 2)
(54, 2)

Итак, как и ожидалось, первый класс доминирует. Чтобы сбалансировать классы такого набора данных, у нас есть два метода, позволяющих избежать дисбаланса классов в машинном обучении:

Передискретизация с заменой
SMOTE Передискретизация

Теперь давайте рассмотрим оба этих метода балансировки классов, чтобы увидеть, как мы можем сбалансировать классы перед использованием любого алгоритма машинного обучения.

Повторная выборка с заменой:

В методе повторной выборки с заменой мы передискретизируем набор данных, ограниченный второстепенным классом, пока не достигнем желаемого количества выборок в обоих классах. Поскольку мы работаем с заменой, ее можно повторить n раз. Но результирующий набор данных будет содержать точки данных, выбранные из 54 возможных значений (согласно нашему примеру). Вот как мы можем использовать технику повторной выборки с заменой с помощью Python:

 # Передискретизация с заменой
импортировать numpy как np
из sklearn.utils импортировать ресемпл
x_resample = resample(x[y==1],
                       n_samples=x[y==0].shape[0],
                       случайное_состояние=1000)
x_ = np.concatenate((x[y==0], x_resampled))
y_ = np.concatenate((y[y==0], np.ones(shape=(x[y==0].shape[0],),
                                      dtype=np.int32)))
печать (x_[y_==0]. shape)
print(x_[y_==1].shape)

 (946, 2)
(946, 2)

SMOTE Передискретизация:

Повторная выборка SMOTE — один из самых надежных подходов для предотвращения дисбаланса классов. Это расшифровывается как Synthetic Minority Over-sampling Technique. Этот метод был разработан для создания новых образцов, соответствующих второстепенным классам. Чтобы реализовать метод повторной выборки SMOTE для балансировки классов, мы можем использовать библиотеку несбалансированного обучения, в которой есть много алгоритмов для такого рода задач. Вот как реализовать передискретизацию SMOTE для балансировки классов с помощью Python:

из imblearn.