Посмотри на свой сайт как Googlebot

27 октября 2014 года Google анонсировал очередные изменения в своих рекомендациях для веб-мастеров. Похоже, что их робот научился не только индексировать контент, но и интерпретировать дизайн сайта. В частности, Пьер Фар (Pierre Far) отмечает увеличение влияния доступности для робота картинок, CSS и JavaScript при ранжировании сайтов в Google.

Просмотреть как Googlebot

А начну я с того, что еще 27 мая 2014 года Google анонсировал новый инструмент «Посмотреть как Googlebot» в Google инструментах для веб-мастеров.

Посмотреть как Googlebot

Если раньше я воспринимал этот инструмент лишь как возможность добавить в индекс Google очередную страницу сайта, то теперь всё стало гораздо серьёзней.

Что именно изменилось в руководстве Google?

Было:

Проверяйте сайт с помощью текстового браузера (например, Lynx): именно так большинство сканеров поисковых систем "видят" сайты. Если JavaScript, файлы cookie, идентификаторы сеансов, фреймы, DHTML, Flash или другие элементы не позволяют просмотреть весь сайт в текстовом браузере, то поисковым роботам, скорее всего, тоже будет трудно его обработать.

Стало:

Чтобы робот Googlebot правильно распознавал содержание сайта, откройте ему доступ ко всем ресурсам, например файлам CSS и JavaScript. Система индексирования Google обрабатывает HTML-код веб-страницы и все ее составляющие, такие как изображения, файлы CSS и JavaScript. Чтобы просмотреть ресурсы страницы, недоступные для сканирования роботом Googlebot, и протестировать инструкции в файле robots.txt, используйте разделы «Просмотреть как Googlebot» и «Инструмент проверки файла robots.txt» в Инструментах для веб-мастеров.

Ранжирование сайта в Google

Я не знаток английского языка, поэтому процитирую слова Пьера Фара в оригинале:

Disallowing crawling of Javascript or CSS files in your site’s robots.txt directly harms how well our algorithms render and index your content and can result in suboptimal rankings.

Мой вариант перевода:

Запрет индексации Javascript или CSS файлов в файле robots.txt вашего сайта оказывает непосредственное негативное влияние на качество отображения и индексации Вашего контента, что может привести к его не оптимальному ранжированию.

Насколько велико влияние данного фактора на ранжирование сайта лично я сказать затрудняюсь. Тем не менее, то что поисковые системы постепенно усиливают значение визуальных факторов, пусть даже и в технической плоскости, это факт и с этим придётся считаться.

Что это значит на самом деле?

Я связался с Андреем Липатцевом из Google Россия и попросил прояснить ситуацию. В комментариях к статье есть его ответ. Я же хочу привести его интерпретацию, сказанного Пьером, в справочном форуме для веб-мастеров:

Если в настройках robots.txt доступ к этим файлам закрыт, алгоритм не сможет правильно отобразить и проиндексировать ваш контент. Это может сказаться на том, как ваш сайт отображается в результатах поиска.

Но меня всё ещё терзают сомнения. В сообществе Google для веб-мастеров имеется другой вариант русскоязычного анонса, цитирую:

Недавно мы объявили о том, что система индексации Google отображает веб-страницы всё более подобно обычному современному браузеру со включенными CSS и JavaScript. Поэтому запрет на сканирование файлов JavaScript или CSS в robots.txt вашего сайта напрямую мешает нашим алгоритмам визуализировать и индексировать ваш контент, что может сказаться и на ранжировании.

В разговоре с Андреем я также отметил, что Google запрещает индексировать многие свои же Javascript и CSS файлы. На что получил ряд ответов, если тезисно:

– Чаще всего запрещают css и js вообще не задумываясь.
– Google много чего делает не задумываясь :)
– Рекомендации отдела поиска на передовой грани технологий поиска. Остальные отделы за ними подтягиваются только постепенно.

С моей точки зрения в запрете всё таки имеется определённый смысл, особенно если речь идёт о динамически генерируемых Javascript и CSS файлов, но мы то говорим о ранжировании.

В общем, подводя итог, можно сказать, что запрет не влияет на ранжировании. Пьер сказал так только для того, чтобы «народ зашевелился». На самом деле Google нужно больше и ещё чуть больше, а лучше всё и сразу.

Пример тестирования chuvyr.ru

К слову, вот пример некоторых проблемных моментов на моём блоге:

тестирование www.chuvyr.ru

Как Вы видите, сюда попали скрипты AdSense, счётчиков Яндекс.Метрика и LiveInterent, а также многие системные Javascript и CSS файлы используемого мной блогхостинга Blogger. На этом у меня всё. Спасибо за внимание. Удачи!

Unknown
Unknown комментирует...

"увеличение влияния доступности картинок, CSS и JavaScript при ранжировании сайтов в Google" - не совсем правильная интерпретация. Просто, если Google не может что-то отсканировать, он не может это и ранжировать. Логично?

Анонимный
Анонимный комментирует...

Привет Константин, если честно я не ожидал такое от гуглебота.

Моя статья становится не уник за минуту! ТО есть можно тупо караулить когда выйдет статья у веб-мастера и копировать её себе! Кто вообще об этой функции знает, только пара тысяч блогеров? Я думаю, что многие и вовсе не думают о безопасности)

Что дальше будет? Яндекс нечто подобное анонсирует? Тогда будет состязание - кто быстрее сворует? Короче, несколько удивила меня столь быстрая индексация.

wmascat
wmascat комментирует...

2Иван Власов здесь не стоит путать просмотр страницы и её индексация. Ты же видишь, что в инструменте есть кнопка "Добавить в индекс", но это просто запрос на добавление, а не добавление. Впрочем, согласен, несколько ускорить процесс индексации можно...

Анонимный
Анонимный комментирует...

Константин, я не путаю. Ты может не заметил, но попробуй на досуге - статью опубликуй и сразу в Гуглебот. Она у тебя через минуту будет не уникальная (по адвеге проверял).

wmascat
wmascat комментирует...

2Иван Власов попробую. Но тогда это даже круто, можно обезопасить контент от воровства, ведь у тебя, как автора, больше шансов сделать это первым. К слову, в Яндекс.Вебмастер есть инструмент "Оригинальный текст" в секции "Содержание сайта". Правда там вначале добавляешь контент в сервис, а потом публикуешь.

Анонимный
Анонимный комментирует...

Константин, вот ты в курсе что контент могут своровать, а сколько таких которые не проверяют текст на уникальность?

К слову, у меня плагин - мне даже в яндекс не надо заходить, могу прямо с админки текст отправить)

wmascat
wmascat комментирует...

2Иван Власов ну, я редко этим пользуюсь... не тот у меня уровень контента, чтобы его воровать... Ну, а если и разместят на низкокачественном сайте... то он мне не конкурент, в выдаче я буду выше... на качественном же сайте никто копипаст обычно не публикует...