В поисках новостей я обычно просматриваю Google-новости, где аккумулируются сообщения о событиях в мире. Размещенная там информация зависит от того, что «робот» посчитал важным. А он обычно пропускает сенсационные сообщения и совершенно игнорирует важные комментарии. Например, такие, как моя колонка. Зато он, кажется, предпочитает мертвые ссылки. Я имею в виду платный ресурс Wall Street Journal (WSJ), на чтение которого надо подписываться.

Сегодня как раз такой случай. Речь идет о сенсационном сообщении с CES: корпорация спутникового телевещания Dish Network предлагает купить компанию Clearwire, провайдера Интернет услуг. Вместо того чтобы направить меня к какой-нибудь заметке по этой теме на бесплатный ресурс, Google решил, что главная информация должна исходить от Wall Street Journal.

Раньше с поисковиком заключался какой-то договор, в соответствии с которым пользователям позволялось прочитать главный абзац или даже всю статью, прежде чем система блокировала доступ к платному сайту. Теперь такое невозможно. Если только не знать одной хитрости, о которой речь пойдет дальше. Теперь пользователь натыкается на платный доступ и - все. Я понимаю, что постоянные подписчики легко обходят такое препятствие. Но меня удивляет, как роботы проникают сквозь преграду в поисках самой важной статьи? Неужели Google платит? Вряд ли. Тогда логично предположить, что существует что-то вроде черного хода для роботов.

Это жульничество, и оно ущемляет интересы пользователей Google. Поисковая система борется с пользователями, пытающимися ее обмануть, но позволяет хитрить Wall Street Journal. По сути, это платная реклама подписки на ресурс. Именно этого хочет поисковик? Google имеет с этого свою долю?

Для Google не составит труда все отрегулировать. Это займет минуту, самое большее – пять. Неужели так трудно?

Если в сервис компании встроен платный доступ, Google вообще не должен включать этот сайт в свой поиск. Роботы должны знать о существовании платного доступа и просто не вести там поиск. Хотелось бы получить разъяснение, каким образом роботы могут осуществлять поиск на сайте, закрытом для свободного доступа. Просто загадка какая-то.

Платный доступ должен осуществляться по правилам файла "robots.txt", который дает сигнал роботу-поисковику не заходить на сайт. Однако есть много неясностей в отношениях между сайтом газеты The Wall Street Journal и Google. Самый простой способ нейтрализовать всех роботов это использовать мета-тег в файле "robots.txt", вот так: <META NAME="ROBOTS" CONTENT="NOINDEX, NOFOLLOW">.

Вместо этого WSJ особым образом блокирует определенные подкаталоги, но, очевидно, не все. Самое удивительное, если искать в Google News определенную статью, а не просто кликать по ссылке в перечне, статья откроется.

Призываю технически более подготовленных читателей изучить файл robots.txt, используемый WSJ, и определить, что происходит. Официальный документ можно посмотреть здесь.

Как бы то ни было, платный доступ на сайты обусловлен финансовыми причинами. Каждый вправе по своему усмотрению распоряжаться контентом своего сайта. Но тогда этот контент должен быть исключен из результатов поиска. Ведь Google блокирует доступ блоггерам, нарушившим правила в сети. Вот пусть точно так же поступает и с более серьезными сайтами.