Машинное отделение: вам не нужно изобретать турбину
У нас есть карта (задача) и мы собрали достаточно плазменных камней (данных), чтобы начать. Теперь нам нужен сам Двигатель, чтобы переработать это топливо.
Наш младший механик сейчас заперся в своей каюте, окруженный досками, исписанными сложными квантовыми уравнениями. Он пытается изобрести совершенно новый тип гипердвигателя с нуля. Он сидит там уже три недели.
Сценарий
В ИИ это этап «Проектирования модели» (Model Design). Когда фаундеры слышат, что им нужна ИИ-модель, они часто предполагают, что их разработчикам нужно изобрести уникальный проприетарный алгоритм. Они думают, что им нужно стать ИИ-исследователями, писать научные статьи и строить кастомные архитектуры нейросетей.
Это самый быстрый способ обанкротить космическое агентство.
Реальность
Если вы не Google и не OpenAI, вам почти никогда не следует проектировать новую архитектуру нейросети с нуля. Если вам нужно обрабатывать текст (читать сигналы бедствия), вы берете Трансформер (например, GPT или BERT). Если вам нужно обрабатывать изображения (сканировать астероиды), вы берете Сверточную нейросеть (например, ResNet).
Ваша работа — не изобретать турбину. Ваша работа — пойти на свалку опенсорса (например, Hugging Face или GitHub), взять с полки готовый, проверенный двигатель и прикрутить его к своему кораблю.
Почему это важно
В жизненном цикле глубокого обучения магия происходит не потому, что вы придумали новое математическое уравнение. Магия случается, когда вы берете уже существующую опенсорсную модель и дообучаете ее на ваших конкретных, уникальных данных.
Архитектура — это товар широкого потребления. Данные — это конкурентное преимущество.
Главное
Не позволяйте своим инженерам изобретать велосипед. Найдите опенсорсную модель, которая решает 80% вашей проблемы, подключите ее и сфокусируйтесь на данных.
Специалисты называют это: Model Selection and Architecture (Выбор модели и архитектуры) Вместо того чтобы проектировать модели с нуля, практики обычно выбирают существующие передовые архитектуры (например, Transformers или CNN), которые уже доказали свою эффективность для конкретного типа данных (текст, аудио, зрение).
💬 Когда в последний раз кто-то в вашей команде тратил недели на создание кастомного решения, только чтобы понять, что опенсорсный инструмент уже делает это лучше?
Часть 6 (Проектирование модели) из 20 | #DLLifecycleДляЛюдей #ai_edu Based on CS230 Stanford lectures