Top.Mail.Ru
и еще 120+ наград
SEO-продвижение с гарантией
и еще 500+ наград
Звоните по будням, 09:00 - 19:00
#menu1
https://skobeeff.com/uslugi/
и еще 120+ наград
SEO-продвижение с гарантией
и еще 120+ наград
SEO-продвижение с гарантией
Звоните по будням, 09:00 - 19:00
и еще 500+ наград

Простыми словами об алгоритме Яндекса «Палех»

Алгоритм «Палех»

Метод машинного обучения поисковой системы «Яндекс» под названием «Матрикснет» дополнили фактором для поиска документов, подходящих по смыслу к запросу.

Пример: Вам необходимо найти «келлская книга», но именно это словосочетание вы никак не можете вспомнить. Зато знаете смысл своего запроса. И в поисковике вбиваете «ирландские иллюстрированные Евангелия».

Основная направленность нововведения — редкие низкочастотные запросы («скачать реферат по обществознанию на тему семьи»), плохо сформулированные или неконкретные запросы («слушать песню из фильма «Карты, деньги, два ствола»).
Цель алгоритма: введение дополнительного фактора, который будет учитывать смысловую связанность слов, чтобы находить документы, в которых нет точного вхождения слов запроса, но есть прямо связанная с запросом текстовая информация, выраженная другими словами.
Всем известно об эпохе машинного обучения и нейросетях, но мало кому понятно, как эти «гости из будущего» влияют на наш стандартный день.

Поисковые системы используют нейронные сети — технологию, которую называют искусственным интеллектом, так как она непрерывно обучается сама по себе, а также основана на принципе передачи информации и принятия решений, которые схожи с нейронами человеческого мозга.

Нейросетевые технологии предназначены для воспроизведения неосознанных мыслительных усилий человека (например, человек плохо знает, как он распознает цвет предмета). Такого рода технологии используются для распознавания каких-либо событий или предметов. С их помощью можно воспроизвести многочисленные связи между множеством объектов.


И этот самый машинный интеллект со многими задачами справляется лучше, чем такие алгоритмы, как BM25, которые просто анализируют соответствие запроса тексту заголовка.

Сейчас нейросети крайне эффективны при поиске картинок и распознавании звуков в словах — графическая (или аудио-) информация преобразуется в вектор в N-мерном пространстве, и этот вектор сравнивают со многими другими векторами, которые также являются графической (или аудио-) информацией. Таким образом и находят подходящие картинки, преобразуют запись в написанный текст.

Однако при поиске текстовой информации все несколько иначе. Нельзя просто перевести текст в вектор. Так, сначала текст разбивается на триграммы (палех = па, але, лех, ех), для каждой полученной единицы вводится свой уникальный код, и полученная информация уже представляется в виде вектора.Между различными векторами появляются неочевидные связи различной жесткости. Добавляя в нейронную сеть в качестве входящих данных пользовательский запрос и заголовки документов, алгоритм уже дает первые результаты. Затем модель многократно тренируется на различных входных данных, в том числе и на результатах прошлых тренировок.

В конечном итоге могут устанавливаться связи между словами запроса, всем запросом целиком и документами в поисковом индексе, а, поскольку алгоритм работает с векторами, соответствие может быть установлено даже между различными языками.

Итог:

— чем больше вхождений слов запроса, тем больше значение фактора в алгоритме ранжирования, принцип схож со стандартным алгоритмом BM25 (подробнее по ссылке);

— чем больше вхождений слов, которые связаны со словами запроса по смыслу, тем больше значение фактора;

— чем больше связаны между собой слова из запроса и документа, тем больше значение фактора;

— из информации «Яндекса» следует, что алгоритм пока начинает работать с заголовками документа (title), а не с содержимым;

— качество алгоритма измерялось поведенческими метриками удовлетворенности пользователей.

Вывод:

Нужно меньше воды в текстах, больше смысла, больше контент-маркетинга. Следует наиболее широко и одновременно глубоко охватывать тему. Рано или поздно алгоритм будет работать и на текстах документов. Контент-маркетинг продолжает рулить.