Инженер Google, об алгоритмах ранжирования

VitaliyRodnenko, 02.08.2008

Инженер компании Google рассказывает о некоторых принципах алгоритмов ранжирования.

Позвольте представиться. Меня зовут Амит Сингал. Я работаю в Google руководителем команды, ответственной за ранжирование.

Вот уже восемнадцать лет я работаю в сфере поисковых технологий, начав в 1990 года выпускником по специальности «компьютерные науки». В научных кругах «поисковые алгоритмы» называют «Информационный поиск» (Information Retrieval или IR). Я пришел в Google в 2000 году и с тех пор работаю над алгоритмами ранжирования Google.

Ранжирование Google — это набор взаимосвязанных алгоритмов, используемых для поиска документов, наиболее релевантных для запроса пользователя. Мы используем эти алгоритмы для сотен миллионов запросов в день из набора миллиардов и миллиардов страниц. Эти алгоритмы работают для каждого запроса, введенного в большинство служб поиска Google.

Так как поиск в сети — это самая используемая служба Google, а также самая широкоизвестная, те же алгоритмы ранжирования используются, с некоторыми изменениями, в других службах поиска, таких как Images, News, YouTube, Maps, Product Search, Book Search и других.

Самый частозадаваемый мне вопрос о ранжировании Google: Как Вы это делаете?. Конечно, для создания такой современной системы как наша, требуется очень много, и я постараюсь рассказать о некоторых технологиях в следующей статье. Сегодня, я бы хотел вкратце объяснить основные принципы ранжирования Google:

  1. наиболее релевантные запросу результаты;
  2. стараться сделать алгоритмы как можно проще;
  3. полная автоматизация, никакого ручного вмешательства в работу алгоритмов.

Первый принцип очевиден. Работая над поисковым движком, мы хотим быть абсолютно уверены в том, что каждый пользователь получит наиболее релевантные результаты своего запроса. Мы обычно называем это принципом «не пропустить ни один запрос». Всякий раз когда мы возвращаем менее, чем идеальные результаты для любого запроса пользователей на любом языке мира в любой стране — это вдохновляет нас на улучшение алгоритмов и приближение их к идеальным.

Второй принцип также очевиден. Разве не желает каждый программист или системный проектировщик, чтобы его система оставалась простой и понятной? Во время работы поисковой системы, когда мы получаем большое количество запросов от пользователей, на которые нужно ответить, и плюс ко всему учитывая все языки мира. И гораздо легче обрабатывать запрос множеством простых алгоритмов, результаты которых будут собраны и обработаны финальным.

Мы много работаем над упрощением нашей системы без ухудшения качества результата. Это постоянная проблема, но она стоит наших трудов. Мы делаем около десяти изменений алгоритмов ранжирования каждую неделю, тщательно рассматриваем их до запуска. Наши инженеры абсолютно точно понимают, почему страница была ранжирована именно таким образом для данного запроса. Система, в которой легко разобраться, позволяет нам быстро делать усовершенствования. Вот, что подразумевает принцип «Старайтесь делать проще«.

Ни одно обсуждение алгоритмов ранжирования Google не обходится без распространенного, но ошибочного, вопроса: Google вручную редактирует свои результаты?. Позвольте мне в ответ на это просто назвать наш третий принцип: «Никакого ручного вмешательства». На наш взгляд, сеть была создана людьми. Вы одни из тех, кто создает страницы и посещает их. Мы используем вклад человека в наших алгоритмах. Финальное упорядочение результатов определяется исключительно нашими алгоритмами, использующими достижения и разработки огромного Интернет-сообщества, а не вручную, т.е. весь процесс происходит полностью автоматически.

Мы считаем, что субъективное мнение каждого индивидуума является субъективным, а информация, выбранная нашими алгоритмами из огромной массы человеческих знаний, записанных на веб-страницах и ссылках на них гораздо выше, чем субъективное мнение.

Вторая причина, по которой мы принципиально против ручного вмешательство в результаты ранжирования — это то, что неверно обработанный запрос является поводом для улучшения наших алгоритмов.

Совершенствуя основной алгоритм, мы не просто улучшаем тот один запрос, мы совершенствуем целый класс запросов, причем всегда для всех языков мира. Однако, я должен добавить, что так же существуют правила для написания сайтов, рекомендованные Google, и мы принимаем меры в отношении сайтов, нарушающих наши правила или по некоторым другим причинам (таким, как требования закона, детская порнография, вирусы/вредоносное ПО, и т.д.).

В заключение хочу сказать, что наша страсть к механизмам поиска сейчас намного сильнее, чем когда-либо и моя работа лучшая в мире :-)

Продолжение статьи (Часть 2): Технологии ранжирования Google

Подписаться на обновления блога

Вам понравился наш блог, хотите следить за обновлениями? Подпишитесь на RSS рассылку или рассылку по электронной почте. Так же вы можете следить за нами в Twitter.

Категории: Google, SEO, продвижение сайтов, Переводы | Комментировать

Комментарии

  1. сео блоггер / 03.08.2008 в 14:37

    Было бы интересно еще инженеров Яндекса послушать )

  2. Pol_uha / 22.03.2009 в 22:47

    эх, статья ни о чем(((

  3. Skaizer / 22.03.2009 в 23:45

    Как сказать, это перевод статьи и аглоязычного блога гугла, узнаю в нем много интересного о возможностях поисковика.

  4. Pol_uha / 23.03.2009 в 02:01

    Нет, то что это нужно и наверняка блог хороший я не спорю, например следующая статья очень хороша! Но вот конкретно эта, абсолютно не конкретна))))

  5. CTИЛЯГA / 09.06.2009 в 11:58

    Большое спасибо за пост, а ведь это тема :) В мемориз однозначно, пригодится! :)

Оставить комментарий

480×60
480×60