Колоссальные объемы приватных данных утекают в руки организаторов сбора аналитики в Интернете. Ранее портал eWeek обсудил темные стороны соцсетей, ниже мы представляем анализ ситуации с анонимностью пользователя Сети.

Анонимность в Интернете? Нет, это невозможно

Вы можете бороздить просторы интернета, посещать онлайн-магазины для выбора товаров или просматривать фото на фотохостинге через защищенные каналы типа браузера Tor или VPN-провайдеров, однако это не гарантирует анонимности. В таком прискорбном факте можно убедиться, если посетить специализированные сайты-агрегаторы данных, которые аккумулируют историю посещений сайтов, информацию о просмотренных фильмах, скачанных файлах и т. д. Очевидно, что каждый пользователь Интернета по-своему уникален, поэтому уникально и его поведение.

И если раньше о потребителе можно было получить лишь часть несвязанных между собой данных, то теперь, с привлечением таких мощных средств аналитики, как искусственный интеллект и нейронные сети, о нем вырисовывается едва ли не полная картина жизни в онлайне. Например, в 2008 г. исследователи Техасского университета в Остине обнаружили, что крупнейший сервис видеопотокового вещания Netflix включил в свою базу анонимных отзывов людей, давших оценки фильмам в крупной кинематографической базе данных IMDb. Такой «обмен» базами данных не сулит ничего хорошего: однажды киноман может найти свое имя на сторонних сервисах оценок полюбившихся фильмов или в утечках информации, где будут обнародованы все его предпочтения. Оценивая фильмы, кинокритики раскрывают свои индивидуальные черты характера, сексуальные наклонности, политические взгляды и проблемы со здоровьем.

Под вопросом остается и защита информации при помощи паролей. «Все пароли нужно хранить, предварительно захешировав их в MD5» — классический призыв специалистов по ИБ. Но, к сожалению, он давно потерял свою актуальность. Так называемые «радужные таблицы» — инструмент для взлома хешэй — сегодня доступен любому, кто вобьет это слово в поисковике. Благодаря сопоставлению исходной строки и её хеша они позволяют легко обратить любую «необратимую» хеш-функцию. Современные радужные таблицы хранят каждое слово, когда-либо встречавшееся на форумах, в Википедии и Интернете вообще, а также все его формы. В 2012 г. Пол-Хеннинг Кэмп, один из разработчиков FreeBSD, призвал полностью отказаться от созданного им алгоритма md5crypt, как не обеспечивающего в современных условиях ощутимого увеличения времени вычисления хеша, а значит и не защищающего от полного перебора.

История просмотров в браузере

Хранящаяся в кеше история просмотров сайтов может рассказать о человеке очень многое, поэтому неудивительно что за ней охотятся рекламные компании и посредники. Случались прецеденты, когда им удавалось ее заполучить. Так, в 2016 г. журналист немецкого общественного радио и телевизионного канала Norddeutscher Rundfunk (NDR) и нанятый им исследователь доказали, что популярное расширение для оценки надежности посещаемых сайтов Web of Trust собирало историю просмотров 3 млн. его клиентов.

Хотя разработчики аддона утверждали, что защищают анонимность своих пользователей, на деле оказалось, что их личности легко установить, так как URL зачастую содержат имена пользователей, email-адреса, ФИО и так далее. Исследователи сообщили, что им без труда удалось идентифицировать 50 человек из контрольной выборки, а в истории пользователей удалось обнаружить данные о полицейских расследованиях, узнать сексуальные предпочтения судьи, закрытые финансовые данные коммерческих компаний, обнаружить пользователей, которые искали наркотики, проституток и т. д. Несмотря на то, что разработчики Web of Trust продавали информацию обезличенной, на нее все равно нашлись заинтересованные лица.

Впрочем, вряд ли она оставалась обезличенной надолго. Дело в том, что многие социальные медиа включают в свои ссылки идентификатор пользователя, что позволяет раскрыть его личность. В некоторых случаях достаточно знать лишь о нескольких сайтах, которые он посещает, чтобы найти в базе данных веб-ссылок остальные.

Остерегаться нужно не только аддонов. К примеру, существуют фишинговые сайты, которые при помощи мошеннических манипуляций устанавливают браузерные скрипты, отслеживающие посещаемые пользователем сайты.

Наконец, отслеживанием поведения пользователей занимаются рекламные сети. Для сбора информации с браузеров ими устанавливаются инструменты автоматического сбора данных для т. н. файлов cookie, включая cookie-файлы http и флэш-памяти, ими также могут устанавливаться веб-маяки/GIF, встроенные скрипты, Etags/кеш-браузеры. Эти инструменты собирают информацию о действиях непосредственно целевой аудитории — на какие сайты она заходит, чем интересуется, по каким объявлениям кликает и затем передают данные на сервер рекламодателя. Многим пользователям не нравится политика рекламных агентств, что вынуждает их устанавливать рекламные блокировщики. По данным сервиса рекламной статистики eMarketer, в этом году их установит 31% пользователей браузеров.

Информация о здоровье человека

Совершая покупки в онлайн-магазинах, пользователь приоткрывает завесу своей личной жизни. Большинство крупных сетей розничной торговли изучают полученные сведения, чтобы выяснить потребности и предпочтения клиента. Например, сетям магазинов Target с помощью глубинного анализа данных и собственной системы прогнозирования удается с высокой точностью определить — беременна женщина или нет. Для этого за каждым клиентом закрепляется ID, который в свою очередь привязан к кредитке, имени или электронной почте. Идентификатор служит своеобразной корзиной покупок, где хранится информация обо всем, что когда-либо человек приобрел.

Изучая историю покупок женщин, которые подписались на «детскую» рассылку, Target удается в нужный момент поймать «на крючок» будущих родителей, чтобы как можно быстрее превратить их в лояльных покупателей. На то, что женщины беременны, указывают приобретаемые ими неароматизированные средства перед вторым триместром беременности. Система стала причиной довольно курьезной ситуации, когда отец узнал о беременности дочери после того, как Target отправила им купоны со скидками на детскую одежду и памперсы.

Крупные сети обмениваются между собой подобного рода информацией. Поэтому вряд ли стоит удивляться, что они знают о тех, кто заказывает много выпивки или страдает биполярным расстройством. В 2015 г. исследователь из Пенсильванского университета Тим Либерт опубликовал исследование, в котором говорится, что 9 из 10 популярных веб-сайтов отправляют персональные данные сторонним источникам без ведома пользователя. Он установил это при помощи собственного ПО под названием webXray, которое проанализировало трекеры на сайтах, посвящённых здоровому образу жизни.

«Даже если вы используете настройки, при которых ваш браузер явно сообщает веб-сайту „Не отслеживать“, большинство компаний их проигнорируют. Львиная доля трекинга пользователей приходится на Google — поисковик получает данные о людях на 80% сайтов и игнорирует сигналы DNT (Do not track)», — сказал Либерт. Он утверждает, что Google вводит пользователей в заблуждение: они не имеют выбора, они не могут отказаться от отслеживания их действий аналитическим ПО, не могут проверить, какие сайты работают с Google Analytics. То же касается Facebook и большинства других интернет-компаний. Исключением, по мнению Либерта, является Twitter — он обращает внимание на DNT-настройки.

Отслеживание местоположения

Существующие технологии позволяют без труда отслеживать местоположение людей при помощи смартфона. Когда он подключаются к базовым станциям, информация об этом регистрируется у сотового оператора. В 2011 г. по запросу немецкого политика Мальте Спитца сотовый провайдер отправил ему зашифрованные данные о перемещениях. Их расшифровка показала, что провайдер хранит малейшие детали его маршрутов за шестимесячный период. Нужно знать, что среди многих миллионов мобильных приложений существуют такие, которые собирают информацию о перемещениях, даже если она разработчикам не требуется.

Имеются и другие способы контроля за перемещениями. Например, автоматизированные считыватели номерных знаков (ALPR). Они применяются правоохранительными органами и страховыми фирмами для того, чтобы отслеживать угнанные или оставленные в залог транспортные средства. Правозащитная организация Electronic Frontier Foundation полагает, что применение ALPR незаконно, поскольку система фиксирует перемещения не только нарушителей, но и миллионов законопослушных граждан.

Владельцы радиотранспондеров E-ZPass (в США они применяются для дистанционной оплаты проезда по платным дорогам) и других автоматизированных устройств — это еще одна группа риска. К примеру, E-ZPass хранят подробную информацию о внесенной водителями плате за проезд, чтобы ежемесячно высылать им подробный отчет о платежах. Но, как выяснилось, эти данные могут использоваться не только для отчетности. В октябре прошлого года Департамент транспорта Нью-Йорка применил E-ZPass для отслеживания перемещений водителей.

Обнаружить слежку удалось одному из волонтеров Союза защиты гражданских свобод. Он заметил, что E-ZPass , пристроенный на лобовом стекле, издает какие-то непонятные сигналы. Будучи радиолюбителем, он создал приемник, настроенный на волну E-ZPass. Удалось обнаружить, что устройство начал выходить на связь в местах, где дорожные сборы не предусмотрены. Антенны, которые транслировали сигнал E-ZPass о его местонахождении, оказались замаскированы под дорожные знаки.