Что такое Big Data и почему из-за неё вас могут уволить

be Smart
22 Ноября 20216 минут на прочтение
Наверняка хоть раз была ситуация, когда вы только подумали про зимние сапоги, и они тут же появлялись в рекомендациях. Всё просто — это контекстная реклама, которая показывается на основе ваших поисковых запросов или интересов. А как обстоят дела с трекингом взгляда и отслеживанием времени за рабочим столом? Да, есть и такое — сейчас разберёмся. 
Никита Дашкевич
Маленький человек среди больших данных 
Начнём с базы: Big Data (англ. большие данные) — это инструменты и методы анализа огромного объёма обезличенной персональной информации. Зачем? Чтобы впоследствии использовать всё это для конкретных задач. Например, предугадывать поведение покупателя в магазине или строить рекомендации в вашей ленте Instagram. 

До 2011-го анализом больших данных занимались в рамках научных исследований, а сегодня все IT-гиганты принимают активное участие в работе с информацией. А так как количество источников растёт каждый день, то и технологии обработки становятся более востребованными. Как и способы хранения всех этих миллионов фотографий еды из Instagram. Для этого используют как физические дата-центры с самыми мощными серверами, так и облачные хранилища. Когда данные понадобятся, то в ход пойдёт принцип горизонтальной масштабируемости, который позволяет обрабатывать информацию сразу на большом количестве серверов. Анализ таких объёмов на одном компьютере длился бы вечность.

Видишь трекер? А он есть

Если реклама — главный двигатель торговли, то статистика — его топливо, которое получают, собирая информацию в открытом доступе. Интересно не то, что вы делаете со своей страницей, а то, как вы взаимодействуете с чужими. Понять, какое у человека хобби, по фотографиям в Instagram — легко, а создать привлекательный рекламный образ на основе пролакайнных вами людей — уже задачка со звёздочкой. Терабайты информации проходят через цифровой блендер, чтобы в нужный момент вы получили нужную рекомендацию. 

Смоделируем ситуацию. Вы ведёте обычные странички в соцсетях, иногда фотографируясь на фоне дорогих автомобилей. Получите ли вы рекламу машин люксового сегмента? Да, если рекламодатель собрался слить бюджет. Бренды с профессиональной командой понимают, что такой профиль — не их целевая аудитория. По словам аналитика данных Артура Хачуяна, одна из сложнейших задач рекламной сегментации сегодня — идентификация пользователей с высоким достатком. Возьмём, например, топ-100 Forbes. И окажется, что мало кто из этого списка пользуется социальными сетями и современными смартфонами. 
Поэтому рекламные агентства и разработчики приложений направили свой интерес на тех, кто станет миллионерами завтра. Специальные трекеры появляются в мобильных аркадах и фиксируют принятые решения, пока вы двигаете шарики в ряд. И если сейчас это просто ценная информация, то через годы на её основе можно будет предугадывать действия. Это, безусловно, грубоватая утопия, и такой киберпанк пока нас не ждёт, но уже заметно направление в сторону прогнозирования реакций.
Экран на площади Пикадилли
Как это работает в реальном времени, можно посмотреть в Лондоне, если зайти на площадь Пикадилли. Там в 2017 году установили экран, который адаптирует контент под окружение. Система камер и датчиков определяет возраст прохожих, пол и эмоции на их лицах, а также цвета проезжающих рядом автомобилей. Всё это помогает умному экрану настроить рекламу для находящейся поблизости аудитории. Также изображение зависит, например, от изменений погоды, новостной повестки или спортивных событий. Кстати, дисплей размером в четыре теннисных корта — самый большой в Европе на сегодняшний день.   

Прослушивают ли телефон?

Мой телефон, когда я говорю, что хочу что-то купить
Возможно. Если вы иноагент на службе её Величества или просто интересный человек. Смартфон может взять на карандаш пару слов, когда вы общаетесь с голосовыми помощниками. Но там фиксируется не весь разговор, а только ключевые слова, которые могут быть изначально заложены программно. Например, «такси», «пицца», «билеты в кино». Дальше по количеству и времени применения таких тегов можно сформировать контекстную рекомендацию. Допустим, отправились вы вечером в бар, а часа через три ассистент любезно предложит вызвать такси, потому что завтра в семь надо вставать на работу.  

Но если прямо сейчас рядом с вами лежит телефон, то не переживайте, Цукерберг не подслушивает. Это банально невыгодно и очень дорого —  распознавать потоковое аудио в реальном времени. 

Хорошо, а как быть с ситуацией, когда ничего и не искал, но Google предлагает именно то, о чём вчера была светская беседа. Очевидно же, что большой брат пойман за большое ухо. Нет, всё дело в работе нашего мозга. Иногда мы просто забываем, что натыкались на подобный контент раньше, щёлкнув на понравившуюся картинку, материал или мимолетом погуглив что-то по теме. А через время поисковик просто активнее подбрасывает похожие запросы.
Иногда мы попадаем в статистическую выборку. Например, в вечер пятницы вы страшно захотели пиццу, а бренд как раз запускает таргетированную рекламу на выходные — в вашем районе, для вашей возрастной группы. А если недавно вы искали рецепт оригинального хумуса, параллельно заказывая соевое молоко, то выпадет ещё и вегетарианская пицца. Магия, не иначе. 

Или эффект Барнума, который часто можно словить при просмотре гороскопов. Это когда прогноз составляется достаточно неопределённо, чтобы подходить практически любому человеку. Сегодня вы — Водолей, которого ждёт успех, вчера действительно были проблемы на работе, как у Стрельца, а уже завтра вы готовы по-новому посмотреть на своё место в этом мире — это точно про Рыб. Но ведь сбывается! Да, потому что ожидание исполнения прогноза начинает диктовать наше поведение и то, как мы воспринимаем окружающий мир. 
Это справедливо и для Big Data. Захотели вы купить новый смартфон, определились с моделью и решили подождать недельку до зарплаты, как вдруг абсолютно везде начинаете замечать знаки. Здесь у ритейлера акция, там в переходе была реклама, а ваш коллега хорошо отзывался именно об этой модели телефона. А то, что акции повторяются раз в квартал, реклама висит уже полгода, а знакомый запостил обновку в соцсети ещё в день покупки, вы благополучно пропустили. Дело в том, что вы и раньше всё это видели и слышали, но тогда это не был объект вашего интереса, поэтому и значения вы этому не предавали.

Вы уволены!

Если вы думаете, что Big Data где-то далеко и не про вас, то можете поговорить  с сотрудниками компании Xsolla. Летом её глава Александр Агапитов одним письмом отправил на мороз сразу 150 человек. Агапитов заявил, что компания перестала показывать 40-процентный рост и для компенсации пришлось уволить 10% сотрудников. Поводом стала проверка эффективности их работы. Здесь и пригодились «большие данные»: анализ активности в почте и рабочих чатах, дашбордах, Jira и прочих корпоративных сервисах. Мы рассказывали, как интернет превратил всю эту ситуацию в мемы — гляньте, если пропустили.

Равновесие паранойи

Чаще всего ваши данные не отбирают силой, а вы их любезно предоставляете, нажимая «далее/соглашаюсь» при установке нового приложения. Помните сухие лонгриды из правил, обязанностей сторон и условий? Как раз там и скрывается пункт, который отвечает за сбор пользовательской информации. Прошли дальше — согласились. 
Как обычно, спасение адекватности — дело рук самого адекватного. Помните: всё, что попадёт в интернет, останется в нём навсегда. Соблюдайте цифровую гигиену, выбирайте сложные пароли (здесь советы), внимательно читайте лицензионное соглашение, не поддавайтесь эффекту Барнума и будет вам цифровое счастье.