
В каждом аудите сайта нужно выгрузить все страницы ресурса и просмотреть на всю информацию о сайте единым массивом. Хорошо бы узнать, практически одним кликом, в какой кодировке находится сайт, какие страницы отдают корректный код ответа, какие перенаправлены редиректом на другие страницы, узнать и выгрузить все мета теги и заголовки страниц. В этой статье мы научимся пользоваться несколькими полезными seo программами и сканировать огромные, в несколько тысяч страниц сайты, практически бесплатно.
Знакомство с программой
Как seo-оптимизатор могу сказать, что уже давно пользуюсь программой для анализа сайта Screaming Frog SEO Spider и экономлю время на аудитах. Работать с ней одно удовольствие! Эта программа была разработана Британскими seo-специалистами и является аналогом великой программы Xenu, которая помогла многим сеошникам и оптимизаторам сделать мириады сайтов намного лучше. Полная версия программы сейчас стоит 99 фунтов за год пользования, это 9 тысяч рублей! К счастью разработчики предоставили всеобщему обозрению бесплатную версию, которая может анализировать до 500 ссылок одного сайта.

Функции программы Screaming Frog поражают:
- отображает ошибки - код ответа веб-сервера (4XX, 5XX);
- показывает перенаправление - (редирект 301);
- демонстрирует нам внешние ссылки сайта, что может помочь при поиске качественного донора;
- ищет дубли страниц (к сожалению Люгушка их не распознает, а парсит все, без исключения ссылки сайта, по этому искать их нужно будет в ручную);
- показывает данные страниц: кодировка страниц, title, description, keywords, заголовки h1-h2; style="font-size: 25px"
- теги - , , , ;
- анализирует изображение - показывает размер, alt и title;
- генерирует карту сайта;
- и многое, многое другое.
НО, к сожалению не всегда Screaming Frog SEO Spider (далее «Лягушка») может «вытащить» с сайта все страницы. Я тестировал сервис на большом количестве сайтов и пришел к выводу, что Лягушка каждый раз парсит разное количество страниц. На момент написания статьи у меня на руках была версия 3.3 и она всё ещё капризничала и не выдавала четкого результата. Проанализированные ссылки сайта парсились в количестве то 33 штук, то 41. Каждый раз было разное количество, в зависимости от технической "чистоты" сайта (технических ошибок). Но я же знаю, сколько страниц у нас на сайте! Как же выгрузить все остальные ссылки? Как получить полный, исчерпывающий отчет? Тут к нам на помощь приходит второй, уже онлайн, сервис XML-Sitemaps.com.
Получаем все ссылки сайта
Воспользуемся сервисом по созданию карты сайта, для этого в сервисе XML-Sitemaps запускаем сканирование.



- Подгружаемым файлом.
- Массовым классическим импортом всех ссылок - Ctrl+C → Ctrl+V.

Анализ сайта более 500 страниц
В этом способе есть небольшая загвоздка: всё таки придется потратить немного денег. Но это того стоит! Возвращаемся к сервису XML-Sitemaps. Приобретаем платную версию программы за $19.99 и пользуемся вечно на здоровье этим чудесным генератором! Лицензия позволит создавать карты сайта и списки ссылок любого количества. Если же он вам не нужен или просто нет возможности приобрести данную программу, то можно воспользоваться методом полегче. Либо используем уже существующий sitemap на сайте, если он генерируется автоматически, либо делаем sitemap.xml здесь за $2,50. Но эффект может оказаться не таким исчерпывающим как мы хотели. В своем эксперименте мы для студии приобрели полную версию сервиса XML-Sitemaps. После оплаты назначенной суммы, мы получили на почту архив с файлами. Эти файлы необходимо залить на FTP сервер любого сайта и после этого генератор будет доступен по ссылке. папки сервера.

После окончания генерации списка ссылок они будут доступны в программе по вкладке "View Sitemap" или на странице http://studiof1.ru/generator/data/urllist.txt.

На примере сайта в 40.000 URL
Совсем недавно вышла версия Screaming Frog SEO Spider 3.3 и как раз на следующий день я имел честь анализировать сайт в 41 тысячу ссылок.
Наш свежекупленный генератор XML-Sitemaps пыхтел и плевался как только мог. Останавливался отдышаться, выдавая ошибку, каждые 7 тысяч страниц. Я запускал его вновь и вновь, пока с перерывами он всё таки не выдал мне 41883 страницу сайта. После получения такого объемного файла, я начал грузить в Лягушку на анализ по 500 ссылок, после окончания сканирования копировал всю информацию комбинацией клавиш Ctrl+A и вставлял получившийся массив в Excel файл. После двух часов, казалось бы, сизифова труда я получил нужную нам информацию по сайту: все url сайта, title, description, keywords, h1 и h2 style="font-size: 25px"(информация скрыта для безопасности сайта). Таким образом можно сканировать сайты с огромным багажом ссылок.