июня 24, 2009

Разъяснения Яндекса по поводу ситуации с роботами + наши коментарии

Вчера Александр Садовский, руководитель отдела веб-поиска Яндекс ответил на наши пожелания своим разъяснением.

В целом нас порадовал тот факт, что столь крупная компания не уходит от ответа на вопросы, в принципе, рядовых пользователей, но точное мнение передает следующий мой коментарий к посту.


Немного больше подумал над сутью данного разъяснения, мне кажется что мы уходим от сути проблемы, она совсем не в ненадежности нашего «не совсем хостинга».

1. Мы не хостинг в классическом понимании, мы скорее система создания сайтов, нечто подобное ucoz.ru или narod.ru но узко заточеное под сайты визитки компаний. Графа надежность хостинга (соглашусь с коментариями, что это странное оправдание, так как врядли бот парсил нашу таблицу) в uaprom.net/tour-4 означает только что у нах нормальное оборудование, хороший up-time и хорошая скорость отдачи (в случае обычных нагрузок). У нас и есть подобие IPS, но Яндекс бот был включен в список ботов которым наша IPS доверяет, поэтому он не был отсечен.

2. Для поддоменов вроде company.uaprom.net/robots.txt Crawl-delay Яндексу стоит в 5 сек, но даже это не поможет учитывая то, что их 15 000 (формально можно делать 3 000 запросов в секунду). Очевидно что тут нужно учитывать не субъективную надежность хостинга, а иметь обратную связь между скоростью индексации (на один IP) адреса и временем ответа, не смотря на Crawl-delay. Так как эти параметры объективно связаны, то это раз и навсегда избавит Яндекс от претензий вроде той что была предъявлена.

3. Нам очень хотелось чтобы также Яндекс позволил отдельно блокировать разные роботы, как это делают многие другие системы. Чтобы вполне логичное блокирование YandexSomething в случае некоректного его поведения не приводило к выпаданию сайта из индекса. Также хотелось бы услышать временную оценку того, когда наши сайты будут восстановлены в индексе из-за этой ошибки (до прежних значений количества страниц основных доменов).

4. Еще раз спасибо за публичный ответ, я думаю что несмотря на довольно негативный фон, из этой дискусии все стороны (и Яндекс и вебмастеры) могут извлечь выгоду если будут сделаны правильные выводы. Стоит отметить, что мы очень хорошо относимся к сервисам Яндекса и всячески интегрируемся с ними (Карты, Директ, РСЯ) так как они, по нашему мнению, действительно лучше аналогов.


Я сомневаюсь что такого результата можно достигнуть через службу поддержки, (мы не раз и не десять пытались) все таки публичное обсуждение иногда более эффективно, возможно Яндекс выполнит в итоге пожелания и это обсужждение принесет еще большую пользу всем нам.

PS. Сайты потихоньку начинают индексироваться, и оба сайта БЕСПЛАТНО взяли в Яндекс.Каталог, за что отдельное спасибо, а ведь помните как было раньше?

июня 22, 2009

Пожелания Яндексу

На выходных нормально так выпали из Яндекса, в связи с чем, я подготовил, на мой взгляд хороший, список куда включил все наболевшее в наших отношениях с лидером поиска рунета.
Список опубликован тут.
Дополняйте, раз уж Яндекс лидер, пусть он будет лучше :)

Теперь у нас появился review process для robots.txt так как здравый смысл иногда не работает, а ошибки очень больно бьют по проекту.

июня 19, 2009

Месть Яндекса

Как вы думаете что происходит когда вы добавляете в robots.txt

User-agent: YandexSomething
Disallow: /


А происходит следующее, Яндекс перестает индексировать ваш сайт вообще!



И это не глюк интерфейса вебмастера, логи nginx-а говорят о том же.

Причину почему он тупит сейчас выясняем, но на будущее стоит осторожнее относиться к Яндексу, он очень обидчив и мстителен, надеюсь что по-неосторожности.

UPD спасибо @gray_ru обещали починить

июня 15, 2009

YandexSomething - гоу бийонд

Сегодня наш сервер переполнил количество соединений с СУБД из-за излишней прожорливости YandexSomething бота. Этот бот как я узнал в здесь - это робот, индексирующий новостные потоки партнеров Яндекс-Новостей.

Собственно вопрос к серверу 77.88.30.248 и разработчикам робота, что он делал в 20:00-21:00 часов 15 июня на серверах uaprom.net и ruprom.net и почему при этом было выкачано 19238 страниц, причем в 20:40 их было выкачано 717 то есть 12 страниц в секунду?

Пруфлог:

sudo cat /var/log/nginx0.7/access.log| grep -v css|grep -v js| grep -v img | grep YandexSom | grep -c '15/Jun/2009:20'
19238
sudo cat /var/log/nginx0.7/access.log| grep -v css|grep -v js| grep -v img | grep YandexSom | grep -c '15/Jun/2009:20:40'
717


Пришлось сделать


User-agent: YandexSomething
Disallow: /


Помогло, здоровье сервера дороже каких-то новостей.

UPD Не пытайтесь повторить это не прочитав этот пост