В этой публикации разберемся, как работают поисковые системы. При вводе запроса в поисковую строку, например, Яндекса, не нужно думать, что бедная поисковая система будет искать по всему интернету, чтобы найти для вас нужную информацию.
Совсем нет, Яндекс действует исключительно в границах собственной поисковой базы данных.
К основным компонентам поисковых систем, как известно, относятся:
Spider (паук) – браузероподобная программа, занимающаяся скачиванием веб-страниц;
Crawler (краулер, «странствующий» паук) – программа, проходящая по всем ссылкам, которые она находит на странице;
Indexer (индексатор) – программа, занимающаяся анализом веб-страниц, скаченных Spider;
Database (база данных) – в которой хранятся скаченные и обработанные документы;
Search engine results engine (система выдачи результатов) – занимается извлечением результатов поиска из своей базы данных.
Как работают поисковые системы
Все перечисленные компоненты поисковых систем предназначаются для того, чтобы найти нужную информацию, например, ваш сайт в интернете, разделить его на отдельные параметры, сохранить информацию у себя в базе данных и затем выдать информацию при запросе пользователя.
При обращении поисковой системы к вашему сайту с помощью программы Spider, она не видит его в графическом исполнении, а видит код, то есть html-разметку и текст. Именно в таком виде программа скачивает страницы.
Программа Crawler по найденным пауком ссылкам в документе находит маршрут, по которому в дальнейшем и направляет паука Spider.
Вся эта информация попадает на обработку программе Indexer, которая разбивает информацию на составные части. Она в частности не воспринимает разметку, а берет текст, видит теги форматирования и т. д.
Обработанная в необходимом программе формате информация помещается в базу данных. И вот эту сохраненную информацию система выдачи результатов показывает в результатах поиска при извлечении ее из базы данных.
После ознакомления с принципами работы, остается сделать вывод, что поисковые системы ищут лишь по собственной базе данных, а не по всемирной сети.
Значит материал, который хранится на вашем ресурсе, может регулярно обновляться, но поисковые системы какое-то время могут не посещать ваш сайт и не видеть обновленную информацию.
Еще надо отметить, что коль скоро существует индексатор, разбивающий страницу на составные детали, то можно подумать, что некоторые из них более важные, а другие не очень. Поэтому при оптимизации сайта необходимо учитывать это обстоятельство.
Система выдачи результатов выстраивает в выдаче список документов по релевантности, по отношению к запросу, то есть, насколько документ соответствует введенному запросу.
Более релевантные документы, конечно, будут стоять первыми в выдаче, а менее релевантные займут, соответственно, нижние позиции. Процедура выстраивания документов по релевантности запроса называется ранжирование.
Надо понимать, что сайты в выдаче ранжируются в зависимости от действующего алгоритма той или иной поисковой системы. Обновление базы данных поисковых систем происходит периодически и это называется updates.
Итак, как работают поисковые системы. У Яндекса updates базы данных идут в пределах от двух до семи дней, а у Google периодичности, как таковой, нет, он находится в постоянном апдейте.
Google по сравнению с Яндексом имеет много преимуществ и самое основное, это быстрая индексация.
Периодичность апдейтов Яндекса есть возможность увидеть на сайте tools.promosite.ru, где приводятся последние обновления базы данных Яндекса.
Видим, например, что последний updates был 10 сентября, предыдущий – 8 сентября и т. д.
Алгоритмы поисковых систем
Google, в отличие от Яндекса, у которого все доступно и понятно, старается не анонсировать свои алгоритмы, то есть играет в молчанку.
По заявлению своих сотрудников, Google добавляет в год до 500 самых разных факторов ранжирования, есть у него в частности привязка к регионам, но по большей части эти факторы неизвестны.
Яндекс в свою очередь играет в города. Сначала был алгоритм Находка, в котором была полная вседозволенность. Сайты при этом можно было продвинуть довольно быстро, достаточно было добавить ключевые слова в текст и проставить ссылки. Не обязательно было заботиться о качестве текста и т. д.
Первые серьезные изменения в выдачах Яндекса произошли при внедрении алгоритма Арзамас, при котором внедрили региональную выдачу, то есть для разных регионов Яндекс показывает разную выдачу.
Регион определяется на основе IP-адреса, который присваивается непосредственно нашим сайтам. При внедрении алгоритма многие сайты повыпадали из поисковой выдачи, но на самом деле введение региональной выдачи дало очень хорошие возможности в плане продвижения сайтов в регионах.
Следующим глобальным изменением стал алгоритм Снежинск. Это эпоха машинного обучения. Ранжированием стала заниматься машина и при этом число учтенных факторов, влияющих на продвижение сайта, значительно выросло. Были введены различные фильтры, затеялась основательная борьба с нехорошими сайтами.
Последний алгоритм – Краснодар, при котором была введена технология «Спектр». Эта технология в первую очередь разбавляет выдачу по общим запросам, когда неизвестно точно по запросу, что имел в виду пользователь.
Это отразилось на оптимизации таким образом, что мест по высокочастотным запросам стало меньше и стало сложнее работать оптимизаторам. Но в целом все происходит адекватно, поэтому не следует пугаться таких слов, как машинное обучение или региональная выдача.
Вот примерно разобрались, как работают поисковые системы Яндекс и Google, по каким принципам и алгоритмам, но надо иметь ввиду, что новые алгоритмы у поисковиков появляются постоянно и надо быть всегда готовым к этим изменениям.