Поисковые системы. Что такое поисковый сервер.

Большинство поисковых систем ищут информацию на страницах World Wide Web, но существуют также системы, которые могут искать файлы на FTP-серверах, товары в интернет-магазинах и информацию в группах новостей Usenet.

Поиск информации в сети Интернет

Для поиска определенного файла в Интернете существуют различные методы:

  • Указав адрес файла;
  • Используя поисковые системы.

Поисковая система — это программно-аппаратный комплекс, используемый для поиска информации в Интернете.

Поисковая система — программный компонент поисковой системы, комплекс программ для поиска информации.

Поисковые системы расположены на отдельных операционных компьютерах с большими каналами связи. Каждую минуту они обрабатывают множество поисковых запросов от абонентов.

Существует 3 типа поисковых систем, в зависимости от того, как они работают:

  • Поисковые каталоги, которые регулируются пользователем;
  • Системы, которые прибегают к помощи поисковых роботов;
  • Гибридные поисковые системы.

Веб-каталоги

Поисковые каталоги, или веб-каталоги, или тематические каталоги состоят из баз данных со ссылками на интернет-платформы, организованные по определенным темам. В эти справочники эксперты сами вносят информацию. Их поиск осуществляется путем обхода дерева каталогов:

  • Выбрав тематику, внутри которой будет происходить поиск, клиент определяет некоторую категорию предметного перечня;
  • Изучив описания ссылок на прогруженной странице, клиент проходит по одной из них, которая, как ему кажется, наибольшим образом соответствует его ожиданиям. Если такие ссылки не находятся, тогда есть возможность откорректировать тематику и заново начать поиск в той же или в прочей поисковой системе.

В 1994 году Дэвид Фило и Джерри Янг из Стэнфордского университета в США решили организовать большое количество ссылок на различные источники информации, которые они собрали. Это породило идею использования специализированных баз данных для эффективного поиска данных в Интернете. Почти сразу же разработанная ими система «Yahoo!» стала невероятно популярной и превратилась во всеобъемлющий, иерархический, тематический каталог Интернета. В настоящее время это одна из наиболее широко используемых поисковых систем.

Системы с поисковыми роботами

Поисковые системы, которые работают с поисковыми роботами, регулярно и постепенно исследуют все страницы на интернет-платформах. Каждому документу присваивается поисковый образ — набор ключевых слов, описывающих его смысл. Поскольку информация постоянно обновляется, поисковые системы время от времени просматривают ранее отсканированные страницы, чтобы выделить и проверить изменения. В результате информация о ключевых словах для отсканированных страниц заносится в поисковую систему.

Когда от клиента поступает запрос, поисковая система создает список страниц, соответствующих критериям поиска, на основе ранее полученной информации. Полученные записи обычно упорядочиваются в соответствии с положением ключевых слов: в заголовке, в первой части текста, частотой их использования в тексте и другими характеристиками.

Материалы по теме

Поисковая система — это программное обеспечение, которое выполняет поиск в Интернете. Он помогает пользователям быстро находить необходимую информацию, предоставляя по запросу список ссылок на источники информации. Достаточно ввести вопрос или фразу в поисковую строку, нажать кнопку «Поиск» или «Search», и поисковая система в считанные секунды выдаст нужную информацию.

Поисковые системы можно классифицировать в зависимости от того, как они работают и как их используют. По данным LiveInternet.ru, в 2012 году 53,8% российских пользователей предпочитали Яндекс, 34,2% Google, 9,4% Mail.ru и 1,2% Rambler.

Каждая поисковая система имеет свой собственный поисковый алгоритм, который анализирует релевантность веб-сайтов для выдачи результатов, наиболее соответствующих поисковому запросу пользователя.

В зависимости от области поиска поисковые системы можно разделить на глобальные и локальные.

Глобальные поисковые службы осуществляют поиск во всем Интернете или в его большой части, в то время как локальные поисковые службы осуществляют поиск в части Всемирной паутины, например, на одном или нескольких сайтах или в локальной сети. Часто местные поисковые системы собирают информацию об одном национальном домене, например, yandex.ru .

Существуют также локальные поисковые системы, которые можно установить на компьютер, например, Copernic Desktop Search для Microsoft Windows, Spotlight для Mac OS X и Tracker для Linux. Они облегчают жизнь пользователям, у которых есть большие, не собранные файлы.

Поисковая система

Новая лексика и многое другое. Вся важная информация о цифровых технологиях, списках рассылки и чат-ботах на канале Marketing Shields.

Поисковая система — это специальная программа, которая автоматизирует поиск информации в Интернете. Благодаря индексированию процесс может быть выполнен очень быстро, а в результате ранжирования пользователь получает отсортированный список ресурсов, содержащих нужную ему информацию.

Поиск информации в Интернете был бы крайне затруднен без поисковой системы. Без специальных алгоритмов было бы невозможно провести поиск в триллионах страниц, которые расположены хаотично, без какого-либо порядка или структуры. Для этого и существуют поисковые системы. Они создают четкую иерархию в системе и делают интернет доступным и удобным.

По данным Яндекс.Радар, самыми популярными поисковыми системами в России являются Яндекс (61,7%) и Google (37,0%), а совокупная доля Mail.ru и Rambler составляет не более 1%.

Самые популярные поисковые системы в России по данным Яндекс.радар на сентябрь 2022 года

Если посмотреть на глобальную статистику, то Google лидирует с 84,8%, а Яндекс находится на 6 месте с 1,06%.

Статистика использования поисковых систем в мире по состоянию на сентябрь 2022 г

Доля рынка наиболее используемых поисковых систем в мире в сентябре 2022 года Источник.

Принципы работы поисковых систем

Принципы работы каждой поисковой системы примерно одинаковы и могут быть разделены на несколько этапов.

Составление списка страниц

Чтобы поисковая система нашла нужный термин в большом количестве сайтов, эти сайты должны быть ей известны, т.е. они должны быть прочитаны и сохранены.

Это как в библиотеке: если вы не знаете, какие книги стоят на полках, и никогда не смотрели на них, шанс быстро найти нужное место равен нулю.

Поисковая система изучает содержание веб-сайтов с помощью специального робота — краулера или паука. Робот обходит все страницы, кликает по ссылкам и постепенно захватывает миллиарды веб-страниц в Сети, сохраняет их и отправляет на индексацию.

Индексация

Следующий шаг — добавление данных о странице в базу данных поисковой системы. Обычно поисковая система собирает и хранит информацию о содержании страниц: использованные там ключевые слова и размещенный контент (статьи, документы, изображения, аудиофайлы). Пока страница не проиндексирована, она не существует для поисковой системы.

В библиотечной аналогии это работает следующим образом: недостаточно знать, в каких книгах встречается похожее предложение. Важно найти соответствующую страницу с текстом. Затем вы можете использовать эту информацию.

Искать термин или слово, листая книгу или перебирая весь сайт, не очень удобно. Однако если у вас есть предметный указатель, например, используемый в технической литературе, руководствах или справочниках по оборудованию, вы сможете легко найти любой термин.

Пример типичного предметного указателя — аналог индексации в поисковике

В указателе руководства термины перечислены в алфавитном порядке и указаны страницы, на которых они встречаются.

Тот же принцип применим и к индексации поисковыми системами.

Индексирующий робот получает информацию о странице от краулера и сортирует ее. Он удаляет лишние элементы, выделяет слова и отмечает, где эти слова были найдены. Он отображает подробный список адресов страниц и содержащихся в них слов.

Ранжирование и поисковая выдача

Поиск и ранжирование — это самая близкая и значимая для пользователей часть процесса. В то время как предыдущие шаги являются автоматическими и по сути подготовительными, именно на этом этапе появляется видимый результат — рейтинг в поисковой системе, ради которого и были созданы поисковые системы.

Когда человек вводит текст в поисковую строку, машина с помощью алгоритмов выбирает все страницы, относящиеся к этому запросу. Поскольку их много, приходится сортировать их, расставлять по порядку и выбирать наиболее релевантные страницы. То есть, наиболее правильные и актуальные.

Этот процесс называется ранжированием. Он проходит несколько этапов, на которых фильтрация становится все более сложной, а список ресурсов — все более ограниченным. Невозможно точно определить, какие алгоритмы влияют на ранжирование, потому что все поисковые системы используют собственные формулы, которые постоянно обновляются и развиваются.

Результаты поисковых систем различны:

  • в разных поисковиках, так как используются различные критерии фильтрации;
  • в разных регионах, так как в запросах учитывается местонахождение пользователя;
  • на разных устройствах — в десктопной и мобильной версии;
  • по одинаковым запросам у разных пользователей, так как учитывается индивидуальная история поиска.

Виды поисковых систем

Поисковые системы делятся на четыре категории в зависимости от того, как они обрабатывают данные:

  1. Системы на основе поисковых роботов — краулеров. Принципы работы такой системы описаны выше и большинство популярных поисковых систем работает по этой технологии. Задача поисковика — обойти и просканировать сеть, чтобы создать структурированный архив веб-документов и список слов. А целью является создание ранжированного списка ресурсов. Примеры: Google, «Яндекс», Baidu (крупнейшая китайская поисковая система).
  2. Системы, управляемые человеком. Каталог сайтов полностью формируется вручную. Владелец сайта отправляет описание веб-мастеру и указывает категорию каталога, в которую его нужно включить. Сайт проверяет человек и включает в список, если он проходит модерацию. Это гарантирует более качественный контент, чем в первом варианте, но значительно замедляет ранжирование и обновление данных. Примеры: каталог Yahoo, dmoz
  3. Гибридные системы. Сочетание автоматических поисковых роботов и процессов, управляемых человеком. Например, восстановление в каталоге удаленного сайта, нарушившего правила. Владелец страницы в этом случае вносит исправления и отправляет запрос в поддержку. Решение о повторном включении ресурса в поисковую систему принимает эксперт. Примеры: MSN. Сюда же условно можно отнести Google, «Яндекс» и другие популярные поисковики, функционал которых не исключает ручную корректировку каталогов.
  4. Метакраулеры. В отличие от поисковых систем, метакраулеры сами не сканируют веб-страницы для создания списков. Вместо этого они позволяют отправлять запросы нескольким поисковым системам одновременно. Примеры: dogpile, DuckDuckGo

Существуют и другие специализированные службы, которые можно использовать для поиска информации. Некоторые из них более удобны для поиска книг и фотографий, другие обеспечивают большую конфиденциальность и не требуют данных пользователя.

Принципы работы поисковой системы

Наиболее важными этапами создания базы данных для поисковых служб являются индексирование и ранжирование веб-сайтов. А чтобы сделать окончательные результаты точными, теперь используется система машинного обучения. То есть поисковая система показывает два противоположных результата для сравнения и указывает, по какой системе их следует ранжировать. Таким образом, система знает, какая страница является «полезной», а какая — «менее полезной».

Принципы работы поисковых систем

Все это позволяет выделить отдельный показатель — релевантность (условно его можно назвать «ранжирование»). Он присваивается каждому сайту и отображается в виде дроби. Чем выше релевантность, тем выше позиция ресурса в выдаче по поисковому запросу пользователя. Это основные принципы работы поисковых систем, используемых сегодня. И этот процесс также состоит из нескольких этапов.

Сбор данных

После создания сайта и получения ссылок система автоматически анализирует его с помощью инструментов Spyder и Crawling. Информация собирается и упорядочивается на каждой странице.

Индексация

Индексирование производится с определенной регулярностью. После этого сайт включается в общий каталог поисковой системы. Результатом этого процесса является индексный файл, который используется для быстрого поиска нужной информации о ресурсе.

Обработка информации

Система получает запрос пользователя и анализирует его. Он определяет ключевые слова, которые используются для поиска в индексном файле. Из базы данных извлекаются все документы, похожие на запрос пользователя.

Ранжирование

Создается список всех документов, выбранных для поиска, каждый из которых имеет свое местоположение. Это делается на основе ранее рассчитанных индексов релевантности.

На этом этапе принцип работы поисковых систем несколько иной. Формула ранжирования также уникальна. Однако наиболее важными факторами, влияющими на релевантность сайта, являются следующие:

  • индекс цитируемости (как часто сторонние ресурсы ссылаются на информацию из конкретной страницы);
  • авторитетность домена (определяется на основании его истории изменения);
  • релевантность текстовой информации по запросу;
  • релевантность иных форматов контента, представленных на странице;
  • качество оптимизации сайта.

СОВЕТ! Если вам необходимо заказать поисковое продвижение сайта, я могу помочь вам провести качественный SEO-аудит сайта и составить план продвижения.

Основные характеристики поисковых систем

Наиболее важным параметром является видимость. То есть, насколько точной будет информация, представленная в выводе, остается на усмотрение пользователя, сделавшего запрос. Но есть и другие характеристики для оценки поисковой системы.

Принципы работы поисковых систем

Полнота

Условный параметр, указывающий на соотношение между общим количеством документов, созданных в ответ на запрос пользователя, и количеством документов, отображенных системой в результатах. Чем выше значение, тем полнее анализ, проведенный службой.

Точность

Это можно объяснить на примере. Пользователь ввел запрос «купить квартиру». На выходе было представлено 1000 мест. Но в половине случаев встречается только это сочетание слов. Другая часть предлагает ресурсы для покупки недвижимости. Естественно, пользователя интересует последнее. В этом случае точность поисковой службы составляет 0,5 (т.е. 50%). Чем выше число, тем выше точность.

Актуальность

Он относится ко времени между публикацией данных на сайте и их включением в список индексации. Чем быстрее завершается этот процесс, тем больше релевантной информации представляется пользователю в индексе. Для современных сервисов, таких как Bing или Google, база данных индексов обновляется с интервалом до 3 месяцев. Для релевантных сайтов — несколько дней.

Скорость поиска

Это также — «сопротивление нагрузки». Он определяется временем, которое требуется для составления списка сайтов для доставки после получения запроса пользователя. По сути, он зависит только от производительности серверов, обрабатывающих данные, и общего количества полученных запросов. Современные сервисы могут обрабатывать до 100 миллионов таких запросов в секунду.

Наглядность

Оценка работы сервиса пользователями. Это во многом зависит от того, какие ссылки среднестатистический пользователь видит в верхней части результатов. В конце концов, именно их он изучает в первую очередь. И информация, которую он получит от них, должна быть стопроцентным ответом на его вопросы.

Выводы

Постоянная индексация и размещение — таков основной принцип работы поисковых систем Интернета. И тысячи программистов отвечают за написание алгоритмов и программ, которые выполняют большую часть этой работы. Благодаря их работе каждый пользователь может за несколько секунд найти необходимую информацию по интересующей его в данный момент области Интернета.

Если вам понравилась эта статья, поделитесь ею в социальных сетях. Также рекомендуем прочитать статью — как продвигать сайт в интернете.

Если вы хотите лучше понять принцип работы поисковых систем, рекомендую посмотреть видео Сергея Кокшарова и почитать его SEO блог

Развитие и рынок поисковых систем

В рунете есть 2 ведущие поисковые системы — Google и Яндекс. В марте 2021 года доля этих поисковых систем выглядит следующим образом:

Далее следуют Search.Mail.ru (1,5%), Rambler (0,1%) и Bing (0,1%).

Самый популярный поисковик в России

В Европе лидирует Google (92,92%), за ним следуют Bing (3,48%) и Яндекс (1,48%).

Самый популярный поисковик в Европе

В США на первом месте находятся Google (88,1%), Bing (6,16%) и Yahoo! (2,96%).

Самый популярный поисковик в США

Удастся ли кому-то или чему-то поколебать монополию Google? В 2020 году лидер поисковых систем потерпел 2 крупных поражения:

  1. В СМИ заговорили о том, что Apple может создать свою поисковую систему и стать прямым конкурентом. Пока это лишь разговоры, но технологические возможности у самой дорогой компании в мире точно есть. Более того, в конце 2014 года в Apple уже рассматривали вариант прекращения сотрудничества с Google и могут вернуться к этому снова. Впрочем, Apple хорошо и с Google — только за использование своего поисковика на iOS, как установленного по умолчанию, Apple получает от Google 9 миллиардов долларов ежегодно.
  2. Куда более серьезная угроза — иск к Google от Минюста США из-за монополии на рынке поисковиков и требование продать Chrome, а также часть рекламного бизнеса. Последний раз такая громкая история была в 1998 году, когда был подан аналогичный антимонопольный иск против компании Microsoft. Такие судебные разбирательства могут длиться годами и пока сложно сказать, как именно это закончится для Google. Компании Microsoft пришлось выплачивать многомиллионные штрафы и пойти на условия суда, например, требование делиться своим API со сторонними разработчиками. То разбирательство повлияло на решение Билла Гейтса уйти из компании в 2000 году, он также заявил, что если бы не иски, Microsoft бы лидировал на рынке мобильный операционных систем, и все бы использовали Windows Mobile вместо iOS и Android. Посмотрим, чем закончится суд для Google.
  3. В мировом масштабе монополию может пошатнуть поисковик Дакдакгоу (DuckDuckGo), который позиционирует себя как конфиденциальная поисковая система (кстати, используется по умолчанию в браузерах Tor). Причина этому — большое количество скандалов, связанных с утечкой данных в американских сервисах (например, обвинения в адрес Facebook или взлом Gmail). Google периодически обвиняли в сливе данных и нарушении неприкосновенности частной жизни еще с 2005 года.
  4. В российском масштабе — закон о предустановке российского ПО на ввозимые в Россию смартфоны, планшеты, компьютеры и смарт-тв для продажи. Закон вступает в силу 1 апреля 2021 года.

Заключение

С 2009 года по сегодняшний день поисковые системы стремительно развивались, с завидной регулярностью меняя и совершенствуя свои поисковые алгоритмы, чтобы результаты поиска содержали контент, максимально отвечающий потребностям пользователей. Так что если 10 лет назад вы могли «кормить» поисковых роботов гипер-оптимизированными статьями с ключевыми словами или покупать ссылки, чтобы попасть в топ поиска, то сегодня такие сайты больше не светятся (вернее, светятся под фильтрами).

Оцените статью
Uhistory.ru
Добавить комментарий