Быстрый сбор: Искусство контрабанды данных
Диагностика ясна: ваш двигатель глохнет каждый раз, когда сталкивается с радиоактивной фиолетовой космической пылью. Проблема? Фиолетовая пыль невероятно редка. Если ждать, пока ваши корабли естественным образом пролетят через нее, может уйти десять лет, прежде чем вы соберете достаточно образцов для обучения.
У вас нет десяти лет. Эта пыль нужна вам сегодня.
Добро пожаловать в быстрый сбор.
Сценарий
Когда вам для изучения нужен специфический, редкий груз, вы не сидите сложа руки. Вы нанимаете контрабандистов. Или, что еще лучше, вы покупаете подпольную машину для клонирования, берете ту единственную пылинку фиолетовой пыли, что у вас есть, и создаете миллион поддельных копий. Неважно, что это слегка нелегально — главное, чтобы двигатель научился с этим справляться.
Реальность
В глубоком обучении (Deep Learning) это называется синтезом данных (Data Synthesis) и аугментацией данных (Data Augmentation).
Когда анализ ошибок выявляет критическую слабость вашего ИИ, ваш главный приоритет — собрать данные, закрывающие эту конкретную уязвимость. Но вы не всегда можете ждать, пока реальные пользователи сгенерируют эти данные.
Вместо этого ИИ-инженеры “подделывают” данные. Если ИИ плохо распознает размытые изображения, они берут существующие кристально четкие фотографии и пишут скрипт, чтобы искусственно их размыть (аугментация). Если ИИ автопилота не может распознать машины в снегу, инженеры используют движки видеоигр для создания синтетических изображений заснеженных дорог (синтез).
Почему это важно
Ждать органических данных для решения редкой проблемы — это роскошь, которую вы не можете себе позволить. Чтобы устранить конкретную уязвимость, вы должны наводнить симулятор именно тем типом данных, который нужен. Если вы не можете найти их в реальном мире, вы производите их в лаборатории.
Главное
Реальные данные — это отлично, но синтезированные данные — это быстро. Когда у ИИ есть слепое пятно, не ждите, пока мир предоставит ответ — создайте его сами.
Специалисты называют это: Data Synthesis & Augmentation (Синтез и аугментация данных) Когда модель не справляется с редким краевым случаем, инженеры искусственно расширяют набор данных. Аугментация изменяет существующие данные (например, вращая или размывая изображения), а синтез создает совершенно новые, искусственные данные для симуляции редких сценариев.
💬 Вам когда-нибудь приходилось создавать «фейковый» сценарий для проверки системы, потому что реальный был слишком редким или опасным?
Часть 13 (Быстрый сбор) из 20 | #DLLifecycleForHumans #ai_edu На основе лекций CS230 Stanford