Сгенерировано: что умеют популярные нейросети?

для меня
22 декабря 20225 минут на прочтение
Уже сегодня с помощью нейросетей создают комиксы, пишут сочинения и создают портреты несуществующих людей. Но что же такое нейросети, как они работают и чем могут помочь вам? Давайте разбираться. 


Как работают нейросети? 

Каждый нейрон в сети хранит какую-либо информацию. Один нейрон передает эти данные другому: тот их получает, обрабатывает и передает результаты вычислений следующему. Так и создается нейронная сеть, внутри которой постоянно меняются коэффициенты. Подробнее об этом можно узнать из этой лекции TEDxTUM.

Кроме импульсов, благодаря которым передается информация, очень важна последовательность. Например, нейросети, работающие с текстом, подбирают наиболее вероятные смысловые комбинации. А вероятность следования одного слова за другим определяется данными, которые были использованы при обучении нейросети.

Обучении? Это как? 

Нейронные сети обучаются с помощью обработки большого объема данных. Информации дают много, как минимум в десять раз больше, чем содержится нейронов в сети. 

На основе предоставленных и уже обработанных данных сети смогут распознавать неизвестные входные данные.

Например, разработчики обучают нейросеть, цель которой — генерация случайных лиц. Ей предоставляют миллионы фотографий людей: с разным возрастом, мимикой и цветом кожи. После обработки такого массива информации нейросеть сможет создать лицо, которое раньше не видела, позаимствовав фрагменты из реально существующих фото. 

А каких видов бывают нейросети? 

Первая — модель перцептрона, пример самой простой архитектуры нейросети. Состоит из четырех компонентов — входа, веса, сумматора и функции активации. Сейчас эта модель в чистом виде практически не используется (все-таки ее придумали в 1958 году), но она послужила базой для многих других нейросетей. 

Многослойные нейронные сети используют для обработки числовых данных. Они состоят из искусственных нейронов, объединенных в слои. 

Сверточные нейронные сети переиспользуют части самих себя для обработки небольших участков изображений. Каждый слой такой сети фокусируется на маленьких участках изображения: благодаря этому нейросеть легко отличает нос от уха, а рот — от глаза. 

Нужно обработать последовательность? Тогда приходит очередь рекуррентных нейронных сетей, способных хранить внутри себя информацию о предыдущих данных. Благодаря такой «памяти» рекуррентные сети часто используются для обработки аудио, видео и текста. 

С теорией понятно. Что там с практикой?

Например, нейросеть Midjourney. Она умеет визуализировать текстовые описания. Ввели на английском нужный запрос — получили 4 варианта изображения. После одно из них можно улучшить. 

Давайте потренируемся в Midjourney на Альфе. В качестве текстовых запросов мы использовали описания наших продуктов. 

1. Пакеты решений
2. Альфа-Консьерж
3. InSync
4. Карта «100 дней»
5. Считаем, что Альфа объединяет людей, способных на большее. Нейросеть видит это так. 
Иногда Midjourney подходит к созданию изображения или слишком абстрактно (кажется, джентльмен с иллюстрации «100 дней» задумал купить весь мир), или чересчур буквально — связь с клиентами в визуале InSync обозначена как рукопожатие. Чуть лучше дела обстоят на аниме-поле, для которого нейросеть придумала банкомат и отделение Альфы, но и там не без изъянов.

Это изображения, а как обстоят дела с сетями, которые генерируют не картинки, а текст? 

Допустим, модель ruGPT-3 XL включает в себя 1,3 млрд параметров и умеет продолжать тексты и программный код. Вам нужно только начать, а нейросеть сделает все остальное за вас. 

Rytr генерирует связные тексты на основе ключевых слов или фраз. Можно выбрать язык, на котором вы хотите получить текст, стиль письма, уровень креативности и количество вариантов, которое сгенерирует нейросеть. 
Отдельное удовольствие — нейросеть «Балабоба», которая умеет генерировать тексты на любую тему. Часто получается белиберда, но веселая. 
Может даже подкинуть идею для киносценария! 
Или рассказать про курьезный случай. 
Многие вещи, которые делают нейросети, выглядят убедительно. Скоро они заменят дизайнеров и всех, кто работает с текстом? 

Точно не в ближайшее время. Например, Midjourney частенько искажает запрос, как бы четко вы его не расписывали. А если и не искажает, полученный результат нужно доводить до ума в графическом редакторе — кому нравятся потекшие щеки и ноги узлом? 

С нейросетями, выдающими текст, та же история. Хоть они и берутся за написание пьес, самостоятельно превратить черновик в чистовик они не могут — им все еще нужна помощь человека. 

Сейчас нейросети стоит воспринимать не как соперника человека, а как полезный инструмент. Они не отбирают у людей работу, как это случилось в Англии XIX века, а открывают дополнительные возможности. Например, позволяют создать видео для песни, клип для которой никогда не планировали снимать. Или сгенерировать песни в стиле любимой группы, уже давно не выпускающей треки.

Так что смело упражняйтесь в нейросетях: создавайте рассказы в два щелчка, картины на манер Дали и музыку, не прикоснувшись к нотам. Только про углеродный след не забывайте, а то пропадем еще до восстания машин.

Главная картинка — Красная карта через призму Midjourney