Недавно появившийся термин «Большие данные» (Big Data) так и не получил сколько-нибудь серьезного и адекватного определения. Это самый субъективный и непонятный модный термин, который я видел за последнее десятилетие, один из тех, что используются для оживления дискуссии и для привлечения инвесторов.
Начнем с вопроса «Что такое Большие данные»? Это много данных? Больше данных, чем вы способны обработать? Неструктурированные, аморфные данные? Неконтролируемые данные? Полезные данные для анализа? Бесполезные данные? Информационная перегрузка?
Если вы достаточно много читали о больших данных, то понимаете, что все эти вопросы относятся к ним. Здесь проблема не в данных, а в том, как обрабатывать эти данные и что делать с самими данными.
Другими словами, как можем мы сделать так, чтобы эта громадная куча данных, которые нам удалось собрать, оказалась полезной благодаря обработке новаторскими и эффективными методами? Данные громадных объемов могут сейчас поступать из самых разных источников, через самые разные компьютерные механизмы, например через Фейсбук, из архивов Управления национальной безопасности США, по спискам рассылки сообщений электронной почты, от потребителей и т. д.
Держу пари, что большинство читателей этой колонки сами являются хранителями больших данных. Я только что купил накопитель емкостью 3 терабайт для резервного копирования. У меня много данных для копирования! Больших данных!
Могу представить себе такой полезный инструмент анализа больших данных, при помощи которого полиция могла бы установить вашу виновность в каком-то случайном правонарушении путем просмотра ваших файлов. Или по крайней мере обнаружить что-то такое, что поставит вас в неудобное положение. Большие данные!
Все это перекликается с тем комментарием, который сделал бывший глава финансовой компании American Express; он сказал публично, что если его компания пожелает (и это применимо ко всем компаниями по выпуску и обслуживанию кредитных карт), она сможет использовать ваши привычки и тенденции по личным покупкам, чтобы собрать на вас полное досье и, например, точно определить, есть ли у вас любовный роман или нет. Большие данные!
Поэтому я могу сказать, что именно для таких целей лучше всего подойдут Большие данные – для слежки за людьми.
Часто говорят, что громадные базы данных, содержащие информацию о вас, будут как-то использоваться для вашего блага. Да, конечно, вы будете получать рекламу вещей, которые вас действительно интересуют. Целевую рекламу. Это выгодно каждому!
Вот как это работает. Допустим, я хочу купить новую камеру и слышал о новой модели Bogus One. Я читаю на сайте PCMag.com статью об этой камере, затем иду на сайт Amazon, чтобы узнать цены и познакомиться с отзывами пользователей. Выясняется, что эта камера никому не нравится. Это явная хрень. Все пользователи ее ругают, а покупатели жалеют о потраченных деньгах. Это не та камера, которая мне нужна. Однако система анализа больших данных решает показывать мне сотни рекламных объявлений – и на каждом веб-сайте, куда я захожу, я вижу рекламу камеры Bogus One. Большие данные!
Но это еще не все. Если бы ситуация была обратная, то есть я решил бы, что камера мне нравится, нужна и я действительно приобрел ее, то я все равно продолжал бы и после этого получать рекламу, убеждающую меня в необходимости купить эту камеру. Большие данные! Целенаправленная реклама на основе «Больших данных» – в самом деле чушь несусветная.
Ладно, постараемся забыть о подобных неприятностях и перейдем к использованию больших данных для выявления трендов. Большие данные позволяют находить разные иголки в разных стогах сена. Так, вы можете получить нечто вроде таких опусов: Сорок процентов всех покупателей автомобилей Субару – вегетарианцы или радикальные вегетарианцы и 80 процентов из них демократы, причем эти показатели увеличиваются до 60 и 90 процентов соответственно, если речь идет о Субару Аутбэк – и до 99 и 99 процентов, если автомобиль окрашен в зеленый цвет.
Теоретики больших данных могут с большим успехом выступить на семинаре с такой информацией. Однако при этом игнорируются все переменные факторы, которые могут повлиять на все вычисления и тренды и число которых бесконечно. Интересно, сколько времени продержатся какие-либо из этих конкретных больших данных, если на это мероприятие приедет глава Субару на зеленом Аутбэке и заявит, что «Все киты должны быть истреблены!»?
Однако не нужно даже столь серьезных событий, чтобы изменить динамику заключений и выводов на основе больших данных. Что бы там ни говорили представители American Express, эти данные фактически слепые – вот почему вы продолжаете получать рекламу изделий, которые вы уже купили.
Если кто-то покупает десять книг на тему о том, как самому сделать бомбу, означает ли это, что он хочет взорвать Капитолий? Возможно, он специалист по обезвреживанию взрывчатых веществ, а приобретение книг не было предусмотрено в его договоре при оформлении на должность полицейского консультанта? Большие данные не могут знать все – в частности то, что вы думаете. Я думаю, например, что камера Bogus One – отстой. Большие данные не могут знать об этом, пока меня не спросят, – а я могу солгать.
Все это звучит достаточно скверно для здоровья общества. Поспешные выводы, принятие непонятных допущений, действия на основе ложных посылок. Преследование людей бесполезной рекламой.
Большие данные – высокая идея, которая никогда не будет полностью и четко определенной и которую ждет жалкий конец. Я на это надеюсь