Машинное отделение: вам не нужно изобретать турбину

У нас есть карта (задача) и мы собрали достаточно плазменных камней (данных), чтобы начать. Теперь нам нужен сам Двигатель, чтобы переработать это топливо.

Наш младший механик сейчас заперся в своей каюте, окруженный досками, исписанными сложными квантовыми уравнениями. Он пытается изобрести совершенно новый тип гипердвигателя с нуля. Он сидит там уже три недели.

Сценарий

В ИИ это этап «Проектирования модели» (Model Design). Когда фаундеры слышат, что им нужна ИИ-модель, они часто предполагают, что их разработчикам нужно изобрести уникальный проприетарный алгоритм. Они думают, что им нужно стать ИИ-исследователями, писать научные статьи и строить кастомные архитектуры нейросетей.

Это самый быстрый способ обанкротить космическое агентство.

Реальность

Если вы не Google и не OpenAI, вам почти никогда не следует проектировать новую архитектуру нейросети с нуля. Если вам нужно обрабатывать текст (читать сигналы бедствия), вы берете Трансформер (например, GPT или BERT). Если вам нужно обрабатывать изображения (сканировать астероиды), вы берете Сверточную нейросеть (например, ResNet).

Ваша работа — не изобретать турбину. Ваша работа — пойти на свалку опенсорса (например, Hugging Face или GitHub), взять с полки готовый, проверенный двигатель и прикрутить его к своему кораблю.

Почему это важно

В жизненном цикле глубокого обучения магия происходит не потому, что вы придумали новое математическое уравнение. Магия случается, когда вы берете уже существующую опенсорсную модель и дообучаете ее на ваших конкретных, уникальных данных.

Архитектура — это товар широкого потребления. Данные — это конкурентное преимущество.

Главное

Не позволяйте своим инженерам изобретать велосипед. Найдите опенсорсную модель, которая решает 80% вашей проблемы, подключите ее и сфокусируйтесь на данных.

Специалисты называют это: Model Selection and Architecture (Выбор модели и архитектуры) Вместо того чтобы проектировать модели с нуля, практики обычно выбирают существующие передовые архитектуры (например, Transformers или CNN), которые уже доказали свою эффективность для конкретного типа данных (текст, аудио, зрение).

💬 Когда в последний раз кто-то в вашей команде тратил недели на создание кастомного решения, только чтобы понять, что опенсорсный инструмент уже делает это лучше?

Часть 6 (Проектирование модели) из 20 | #DLLifecycleДляЛюдей #ai_edu Based on CS230 Stanford lectures

Сценарий

Реальность

Почему это важно

Главное

Есть проект на прицеле?