Качество поиска Google (продолжение)

VitaliyRodnenko, 30.08.2008

Качество поиска GoogleНесколько недель назад Udi Manber представил группу, ответственную за качество поиска. В предыдущих статьях из этой серии говорилось о ранжировании документов.

Ранжирование веб-документов является ядром того, что делает поиск в Google таким эффективным. Но поиск не ограничивается одним ранжированием и включает много других составляющих.

В этой статье я опишу принципы, которым мы следуем при развитии всего механизма поиска, и то, как они связаны с ключевыми аспектами поиска. Также, я опишу, как мы убеждаемся, что находимся на верном пути в этих сложных и многочисленных экспериментах.

Позвольте представиться. Я Ben Gomes, работаю над поиском в Google с 1999 года и занимаюсь в основном оптимизацией качества поиска. Мне посчастливилось внести свой вклад в большинство аспектов механизма поиска, от просмотра сети до ранжирования. Чаще всего я занимаюсь разработкой интерфейсов и функций поиска.

Обычная реакция друзей на то, что я работаю над пользовательским интерфейсом поиска Google — это вопрос: «Чем ты занимаешься? Он же никогда не меняется». Затем они подозрительно смотрят на меня и говорят: «Лучшее — враг хорошего. Google хорош таким, какой он есть — простая и быстрая веб-страница. Зачем ее как-то изменять?»

Чтобы ответить на этот вопрос, позвольте начать с основной нашей цели в веб-поиске: предоставить веб-страницы, которые Вам требуются так быстро, как это возможно.

Поиск сам по себе не является конечной точкой — это всего лишь средство. Эта цель кажется очевидной, но она кардинально отличает механизм поиска от других сайтов в сети, успех которых измеряется тем, как долго пользователи остаются на них. Мы же измеряем наши достижения в поиске отчасти тем, как быстро Вы покинете наш сайт. Есть несколько правил, которые мы используем, чтобы предоставить нужную Вам информацию так быстро, как это возможно:

  • Минимальный код веб-страницы

    Маленькая страница быстро скачивается и, как правило, быстрее показывается браузером. Это достигается минималистической эстетикой дизайна, использование дополнительных эффектов в интерфейсе замедляет страницу без получения большой выгоды.

  • Простое представление сложных алгоритмов

    Многие функции поискового механизма требуют алгоритмов большой сложности и огромного количество анализируемых данных. Важно «спрятать» все эти сложности за понятным и интуитивным пользовательским интерфейсом.

    Коррекция написания запросов, выделение значимых частей в тексте, поиск ссылок на сайты — это примеры функций, которые требуют сложных алгоритмов, которые постоянно улучшаются и оптимизируются. С точки зрения пользователя изменения в поиске почти невидимы, Google просто работает лучше.

  • Поиск, работающий везде!

    Расширенные возможности поиска должны быть сделаны так, чтобы алгоритмы и интерфейс можно было адаптировать для работы на всех языках и во всех странах. Например, проблема коррекции произношения в Китае, где пользовательские запросы часто не разбиваются на слова, или Иврит и Арабский язык, где текст пишется справа на лево.

  • Принятие правильных решений

    Принятие правильных решений — опыт, опыт, много опыта. Мы стараемся убедиться в том, что получили правильные результаты экспериментов. Даже планы, выглядящие, как перспективные, могут провалиться на простых тестах.

С этим связаны несколько проблем. Например, показ большего количества текста (или изображений) для каждого результата может помочь Вам в выборе лучшего результата. Но страница результатов, содержащая слишком много информации, дольше загружается и визуально обрабатывается. Поэтому каждый кусок информации, который мы добавляем к странице результатов должен быть тщательно продуман, чтобы убедиться, что выгода для пользователя перевешивает затраты, связанные с этой дополнительной информацией. Это относится ко всем частям процесса поиска, от печатания запроса до результатов сканирования и дальнейших исследований.

С чего Вы начинаете поиск? С набора запроса. Очень часто, если Вы не знаете, как правильно пишется слово, результат разочаровывает Вас. Коррекция правописания, которая кажется простой и очевидной функцией, скрывает в себе множество технических проблем.

Например, ни в одном обычном английском словаре не будет корректного правописания Britney Spears. Мы провели огромный анализ миллиардов страниц в сети и логов наших запросов, чтобы определить какие слова являются «настоящими», а какие — орфографическими ошибками.

Система, выполняющая для Вас коррекцию правописания, должна за долю секунды рассмотреть огромное количество слов, которые Вы могли иметь ввиду (намного большее, чем в любом словаре, сделанном вручную) и выбрать наиболее похожие на запрос, набранный Вами.

Когда мы уверены, что Вы на самом деле хотели напечатать что-то другое, мы предоставляем результатам некоторую свободу, стараемся отвлечь Вас от просмотра первого результата на странице. Коррекция правописания находится на линии взгляда и окрашена в ярко-красный цвет. Мы убеждаемся, что ничто не окрашено красным цветом, кроме текста требующего внимания (пока что такого не было).

Алгоритмы, используемые в коррекции правописания, постоянно улучшаются. Сейчас они работают с большим количеством языков и намного лучше, чем раньше, определяют, когда пользователь сделал ошибку в правописании.

Следующей задачей после корректной формулировки запроса является правильный выбор страницы из списка результатов. Для каждой страницы мы представляем заголовок, URL и короткий фрагмент из ее содержимого. Страницы, не имеющие подходящего заголовка, часто игнорируются пользователями. Одно из самых больших недавних изменений — это поиск на странице правильного заголовка, который не включен в HTML-тег заголовка «title». Чтобы «увидеть» заголовок, который автор страницы задумал, мы анализируем HTML-код страницы специальным алгоритмом. Согласитесь, страница с отсутствующим заголовком может быть Вами проигнорирована, но если она содержит интересующее содержание? Поиск не указанного заголовка — это намного лучше, чем, если Вы будете игнорировать релевантную страницу из-за отсутствия заголовка.

После заголовка идет фрагмент страницы, и ключевым новшеством было то, каким образом Google определяет нужный фрагмент. В то время, как другие поисковики показывают Вам первые две строки веб-страницы, Google отображает фрагменты страницы, в которых встречаются ключевые слова Вашего поиска. Эксперты информационного поиска называют это «ключевые слова в контексте».

Выделение ключевых слов визуально практически неотличимо от более простых стилей фрагментов, но это то, что помогает в принятии Вами решения о том, на какую страницу зайти. Эта простота скрывает настоящую сложность, когда мы выбираем фрагмент страницы, который будет выводиться под заголовком, нам нужно просмотреть текст релевантного результата, чтобы найти самую подходящую часть (содержащую ключевые слова), вместо того, чтобы просто показать несколько первых строк.

Мы улучшаем поиск подходящих фрагментов страниц алгоритмами для определения релевантности частей страницы. Изменения колеблются от сложных (подсвечивание синонимов слов Вашего запроса в результатах) до более простых. Вот пример, на котором пользователь ищет «arod» и Вы видите, что Alex и Rodriguez выделены в фрагменте результата поиска, основываясь на нашем анализе того, что Вы могли действительно иметь ввиду его.

Результат запроса «arod»

Как более очевидный пример, мы выделим и покажем Вам информацию о дате создания страниц, на которых она имеется. Эти даты отображаются в мириадах форматов, которые мы научились понимать и представлять единообразно, чтобы Вы могли их найти и понять.

Информация о дате создания страниц

Одна из самых распространенных нужд пользователей, когда Вы вводите название веб-сайта, который знаете, и мы представляем ссылки для быстрого вызова. Они позволяют добраться до ключевых разделов сайта и являются простым дополнением к результатам поиска, которое добавляет лишь небольшое, но заметное количество текста на страницу.

Ссылки быстрого вызова

А что если Вы не нашли того, что искали, среди самых подходящих результатов? В этом случае Вам, вероятно, нужно попробовать другой запрос. Мы помогаем Вам в этом, представляя ряд измененных запросов с результатами, даже если среди них не будет нужного, они могут намекнуть на другие (вероятно более успешные) направления для улучшения запроса.

Измененные запросы, помещенные внизу страницы, не отвлекают пользователя, но помогают, если остальные результаты поиска не содержали требуемой информации.

Я описал несколько ключевых аспектов поиска, которые мы изменяем с каждым днем. Но как, делая эти изменения, мы понимаем, что они успешны и что мы не ошиблись? Мы постоянно оцениваем наши изменения, разделяя их с Вами! Запуская предполагаемые изменения для небольшой части наших пользователей, наблюдаем, помогают ли они поиску, или мешают. Есть много показателей, по которым определяется, на правильном мы пути или нет. Процесс измерения этих алгоритмов, сам по себе — наука с большим количеством потенциальных ловушек. Наша экспериментальная методология позволяет рассмотреть предел возможностей и запустить те, которые работают лучше всех. Для каждой запускаемой нами дополнительно функции поиска, проводим большое число экспериментов, скрытых от пользователей.

Итак, позвольте мне ответить на вопрос, с которого я начал: Мы действительно постоянно изменяем страницу результатов поиска в Google. И нет, мы не испортим то хорошее, что уже есть. Почему? Вы не дадите нам сделать это!

Оригинал статьи «Search quality, continued».

Подписаться на обновления блога

Вам понравился наш блог, хотите следить за обновлениями? Подпишитесь на RSS рассылку или рассылку по электронной почте. Так же вы можете следить за нами в Twitter.

Категории: Google, SEO, продвижение сайтов, Переводы | Комментировать

Оставить комментарий

480×60
480×60