Новая версия поиска яндекса статистика. "яндекс" запустил новую версию поисковика. Как работает алгоритм «Королёв»

Новая версия поиска яндекса статистика. "яндекс" запустил новую версию поисковика. Как работает алгоритм «Королёв»

03.03.2020

Время на чтение: 7 мин

Akismet - это один из плагинов, который должен быть в обязательном порядке на большинстве блогов. Его назначение - борьба со спамом эмпирическим способом (т.е. на основании опыта): при помощи сравнения каждого нового комментария с базой спамных на своих серверах, Akismet принимает решение, пропускать или нет. Если же комментарий считается спамным, то он автоматически попадает в одноименную папку Spam.

Ранее я уже расказывал, как можно бороться со спамом при помощи запрета отдельных IP-адресов () и запрета целого ранга IP-адресов (). Здесь же речь пойдет немного о другом способе.

Судя по статистике самого сервиса Akismet, около 10% комментариев по ошибке попадают в спам. По этой причине у Вас есть 30 дней , чтобы вытянуть их из папки "Спам", если установлена соответствующая галочка в настройках (об этом ниже).

Если данный плагин у Вас не шел по умолчанию с WordPress, то качаем с официального репозитория по ссылке в конце статьи и устанавливаем ().

После установки и активации плагина в админке блога (Плагины -> Установленные -> Akismet (активировать)), снова кликаем по разделу Плагины и выбираем Конфигурация Akismet (Настройка):

Перед нами поле, куда требуется ввести уникальны API-ключ. Получить его можно на сайте Akismet, причем бесплатно. Кликаем по ссылке, отмеченной стрелкой:

После этого мы попадаем на сайт akismet.com, где необходимо сделать следующее:

Выбираем тарифный план Personal и жмем на кнопку Sign UP (клик для увеличения картинки):

После этого нам необходимо заполнить представленные 4 поля и сдвинуть ползунок влево, чтобы сумма стала $0 (т.е. мы не будем ничего платить за пользование их сервисом):

  • First Name - имя (любое на латинице)
  • Last Name - фамилия (так же любое на латинице)
  • Email - имя почтового ящика, куда придет Ваш ключ, поэтому вводите то, которым пользуетесь
  • Confirm Email - повторите имя почтового ящика

Чуть ниже Вы можете выбрать опцию о получении ежемесячного отчета на почту. Это на Ваше усмотрение. Когда все готово, жмем синюю кнопку Continue и идем в свой почтовый ящик, куда пришло письмо с API-ключом. Вначале письма Вас благодарят за регистрацию, а потом будет блок текста Your Akismet API key is: ******** , где: ****** - это Ваш ключ, который мы копируем и вставляем в поле под красной стрелкой:

Зелеными указаны дополнительные опции. Автоматическое удаление советую выбрать, а с отображением количества комментариев сами решайте. Принципиальной роли это не играет.


Яндекс запустил новую версию поиска. В её основе лежит поисковый алгоритм «Королёв». Алгоритм с помощью нейронной сети сопоставляет смысл запросов и веб-страниц - это позволяет Яндексу точнее отвечать на сложные запросы. Для обучения новой версии поиска используются поисковая статистика и оценки миллионов людей. Таким образом, вклад в развитие поиска вносят не только разработчики, но и все пользователи Яндекса.

Слова и смыслы

Прежде чем рассказывать про настоящее и будущее поиска, вспомним его прошлое. Первые поисковые системы появились в середине 1990-х годов, когда интернет был совсем небольшим - счёт сайтов шёл на тысячи. Чтобы помочь человеку найти нужное, достаточно было составить список веб-страниц, где есть слова из поискового запроса. О сложном ранжировании - то есть упорядочивании страниц по степени соответствия запросу - речь не шла. Считалось, что чем чаще в документе встречаются слова из запроса, тем лучше он подходит.

Интернет быстро рос, и потребовались дополнительные критерии отбора. Поисковики начали учитывать ссылки на документы, научились определять регион, откуда поступил запрос, стали обращать внимание на поведение пользователей.

В какой-то момент факторов ранжирования - признаков, по которым можно определить, насколько хорошо страница отвечает на запрос, - набралось так много, что стало ясно: прописать их все в виде инструкций невозможно. Лучше научить машину самостоятельно принимать решения: какие признаки использовать и как их комбинировать. В Яндексе для этих целей придумали Матрикснет. Это метод машинного обучения, с помощью которого строится наша формула ранжирования.

Поиск, однако, по-прежнему опирается на слова. Перед тем как пустить в ход сложную формулу ранжирования, поисковые машины составляют список «предварительно подходящих» веб-страниц - таких, в которых есть слова из запроса. Нам, людям, понятно, что один и тот же смысл можно выразить разными словами. Веб-страница может не содержать всех слов из запроса, но тем не менее очень хорошо на него отвечать. Однако объяснить это машине довольно сложно.

Первый шаг к поиску по смыслу Яндекс сделал в прошлом году, когда компания представила поисковый алгоритм «Палех». В его основе лежит нейронная сеть. Нейросети показывают отличные результаты в задачах, с которыми люди традиционно справлялись лучше машин: скажем, распознавание речи или объектов на изображениях.

Запуская «Палех», компания научила нейронную сеть преобразовывать поисковые запросы и заголовки веб-страниц в группы чисел - семантические векторы. Важное свойство таких векторов состоит в том, что их можно сравнивать друг с другом: чем сильнее будет сходство, тем ближе друг к другу по смыслу запрос и заголовок.

Как работает алгоритм «Королёв»

Поисковый алгоритм «Королёв» сравнивает семантические векторы поисковых запросов и веб-страниц целиком - а не только их заголовков. Это позволяет выйти на новый уровень понимания смысла. Представьте, что вы впервые услышали о романе Льва Толстого «Война и мир». Безусловно, вы сможете извлечь смысл из названия - например предположить, что в книге много батальных сцен. Но чтобы узнать все хитросплетения сюжета и давать исчерпывающие ответы на вопросы о романе, вам потребуется прочитать его полностью.

Как и в случае с «Палехом», тексты веб-страниц в семантические векторы преобразует нейросеть. Эта операция требует много вычислительных ресурсов. Сравните: на то, чтобы прочитать название книги, у вас уйдут считанные секунды, но на то, чтобы прочитать её всю от корки до корки, потребуются часы, дни или даже недели. Поэтому «Королёв» высчитывает векторы страниц не в режиме реального времени, а заранее, на этапе индексирования. Когда человек задаёт запрос, алгоритм сравнивает вектор запроса с уже известными ему векторами страниц.

Такая схема позволяет начать подбор веб-страниц, соответствующих запросу по смыслу, на ранних стадиях ранжирования. В «Палехе» смысловой анализ - один из завершающих этапов: через него проходят всего 150 документов. В «Королёве» он производится для 200 тысяч документов - то есть в тысячу с лишним раз больше. Кроме того, новый алгоритм не только сравнивает текст веб-страницы с поисковым запросом, но и обращает внимание на другие запросы, по которым люди приходят на эту страницу. Так можно установить дополнительные смысловые связи.

Люди учат машины

Яндекс верит, что использование машинного обучения, а особенно нейросетей, рано или поздно позволит научить поиск оперировать смыслами на уровне человека. Но без помощи людей тут не обойтись. Чтобы машина поняла, как решать ту или иную задачу, необходимо показать ей огромное количество примеров: положительных и отрицательных. Такие примеры дают пользователи Яндекса.

Нейронная сеть, которую использует алгоритм «Королёв», обучается на обезличенной поисковой статистике. Системы сбора статистики учитывают, на какие страницы пользователи переходят по тем или иным запросам и сколько времени они там проводят. Если человек открыл веб-страницу и «завис» там надолго, вероятно, он нашёл то, что искал, - то есть страница хорошо отвечает на его запрос. Это положительный пример. Подобрать отрицательные примеры гораздо легче: достаточно взять запрос и любую случайную веб-страницу.

В помощи людей нуждается и Матрикснет, который строит формулу ранжирования. Чтобы поиск развивался, люди должны постоянно давать оценку его работе. Когда-то выставлением оценок занимались только сотрудники Яндекса - так называемые асессоры. Но чем больше оценок, тем лучше - поэтому мы решили привлечь к этому всех желающих и запустили сервис Яндекс.Толока. Сейчас там зарегистрировано более миллиона пользователей: они анализируют качество поиска и участвуют в улучшении других сервисов Яндекса. Задания на Толоке оплачиваются - сумма, которую можно заработать, указана рядом с заданием. За два с лишним года существования сервиса толокеры дали около двух миллиардов оценок.

В основе современного поиска лежат сложные алгоритмы. Алгоритмы придумывают разработчики, а учат - миллионы пользователей Яндекса. Любой запрос - это анонимный сигнал, который помогает машине всё лучше понимать людей. Поэтому Яндекс не ошибётся, если скажет: новый поиск - это поиск, который мы сделали вместе.

Вчера некоторые жители нашей страны внезапно обнаружили, что . Его временно заблокировали провайдеры ТТК, «Акадо», «Авакс» и Sumtel по указанию Роскомнадзора. Но значительная доля абонентов этих провайдеров не заметили блокировки, так как пользуются отечественной поисковой системой.

В апреле 2017 в «Яндексе» искали что-либо 43 миллиона человек . Если вы из их числа, то эта небольшая статья – для вас.

P.S. Для тех, кто предпочитает Google и DuckDuckGo, есть cсылки в последнем разделе.

1. Как искать среди сайтов определенного города, области, федерального округа или страны?

Вот так можно найти информацию по запросу «бал выпускников» среди сайтов города Братск:

бал выпускников cat:11000976

Чтобы узнать цифру, которую надо набирать после оператора cat: , надо к 1100000 прибавить код региона в «Яндекс.Каталоге». Например:

  • Москва - 1100001;
  • Чернигов - 1100966;
  • Воронеж - 1100193;
  • Поволжье - 1100040;
  • Киргизия - 1100207;
  • Страны СНГ - 166.

В «Яндекс.Каталоге» уже более 117 тысяч сайтов. Аналогичным образом можно искать что-либо только среди ресурсов, посвященных определенной теме. Для этого вместо кодов регионов надо использовать коды тем и прибавлять к ним 9000000, вместо 1100000.

2. Как обмануть «Яндекс» относительно своего местоположения?

С помощью расширение для Chrome Manual Geolocation можно отметить на карте любую точку и поисковая система будет думать, что вы находитесь именно там и корректировать результаты поиска в соответсвии с этими данными. Например, можно искать объекты, расположенные неподалеку от дома в Санкт-Петербурге, а находится при этом в Москве. Удобно при планировании поездок.

Этот пункт актуален для всех сайтов, которые используют данные о вашем местоположении.

3. Как искать страницы в определенной доменной зоне и на определенном языке?

Вот так можно найти, что пишут о зебрах украинские сайты (в доменной зоне ua) на украинском языке:

зебра domain:ua lang:uk

Аналогичным образом можно выяснить мнение сайтов других государств по разным вопросам. Коды языков для «Яндекса»:

  • русский (ru);
  • украинский (uk);
  • белорусский (be);
  • английский (en);
  • французский (fr);
  • немецкий (de);
  • казахский (kk);
  • татарский (tt);
  • турецкий (tr).

4. Как искать страницы на конкретном сайте?

Вот так можно искать страницы только на сайте сайт:

зебры site:сайт

Вот так можно искать только среди статей определенной категорий. Например, среди вопросов в Службу спасения сайт :

сообщения url:сайт/iNotes/q/*

А вот так получить список всех тегов, которые используются на сайте:

5. Как искать страницы, созданные в определенную дату?

Вот так можно найти страницы, созданные в определенный день:

стив джобс date:20170617

А вот так в промежуток между двумя датами:

стив джобс date:20170610..20170617

А с помощью оператора idate: можно искать страницы по дате последней индексации.

6. Как искать файлы определенного типа?

Поиск книги в формате PDF для загрузки в iBooks:

цветы для элджернона mime:pdf

А вот так можно найти все документы MS Word c упоминанием слова «декларация» на сайте ФНС:

декларация mime:docx site:nalog.ru

Типы документов, которые индексирует «Яндекс»:

  • html;
  • docx;
  • xlsx;
  • pptx;

7. Как искать только в названиях страниц?

С помощью этого оператора:

Очень удобно, когда надо найти статью по точному названию.

8. Как искать по имени файла-изображения?


Сохранили картинку на свой компьютер, хотите использовать с указанием источника, но не помните откуда она? Поможет оператор поиска по точному имени изображения:

Операторы для поиска по значениям атрибутов HTML-тегов:

applet: – code тега applet;
script: - src тега script;
object: – все атрибуты object;
action: – action тега form;
profile: – profile тега head.

9. Как найти ссылки на определенную страницу?

У «Яндекса» есть оператор для поиска упоминаний запрос внутри ссылок. Таким образом можно найти ссылки на определенную страницу.

inlink:”www.сайт/iNotes/533552″

10. Как пользоваться мини-приложениями и подсказками?

Если набрать в поиске одно из четырех слов ниже, то под поисковой строкой появятся мини-приложения:

  • «Калькулятор»;
  • «Конвертер валют»;
  • «Конвертер величин»;
  • «Перевод».

А для некоторых запросов ответы отображаются прямо в поисковой строке. Примеры.



© 2024 beasthackerz.ru - Браузеры. Аудио. Жесткий диск. Программы. Локальная сеть. Windows