Новости из мира высоких технологий

Как это работает? | Поисковая система

Первой компьютерной программой для поиска в Интернете стала Арчи, созданная в 1990 году студентами из Монреаля. Она скачивала списки всех файлов со всех доступных FTP-серверов и строила базу данных, в которой можно было выполнять поиск по именам файлов. Первой полнотекстовой поисковой системой стала «WebCrawler», запущенная в 1994 году и индексирующая ресурсы при помощи робота. Она позволяла пользователям искать по любым словам, расположенным на любой веб-странице. В 1998 году Ларри Пейдж и Сергей Брин создали поисковую систему Google на основе своего проекта BackRub. Их новаторством стало внедрение собственного алгоритма PageRank, ранжирующего веб-страницы на основании количества гиперссылок на них. Поиск с учётом русской морфологии был впервые реализован в 96 году на поисковой машине Altavista, тогда же были запущены Рамблер и Апорт. А в сентябре 97 года была открыта поисковая машина Яндекс. Как же работает поисковая система — об этом в сегодняшнем выпуске.

Первоначально поисковому роботу необходимо получить контент, а индексатору сгенерировать доступный для поиска индекс. Поисковый робот, или «краулер», — это программа, которая автоматически проходит по всем ссылкам, найденным на странице, и выделяет их. Исходя из заранее заданного списка адресов, она осуществляет поиск новых документов, ещё не известных поисковой системе. Найденные новые страницы анализируются поисковой системой для дальнейшего индексирования. Этим занимается специальный модуль — индексатор, который предварительно разбивает страницы на части, применяя лексические и морфологические алгоритмы. Данные о веб-страницах хранятся в индексной базе. Индекс позволяет быстро находить информацию по запросам пользователей.

Поисковик, в свою очередь, работает с файлами, полученными от индексатора. Когда пользователь вводит запрос в поисковую систему, она проверяет свой индекс и выдаёт список наиболее подходящих веб-страниц.

Анализ запроса начинается с определения языка, так как одно и то же слово на разных языках может обозначать разные вещи. Поэтому система обращает внимание на алфавит, регион и язык интерфейса пользователя. Затем поисковик переходит к морфологии и определяет, к какой части речи относятся написанные слова. Это позволяет находить документы, содержащие разные формы одних и тех же слов. Также поисковая система выделяет в запросе различные объекты — географические названия, имена людей и названия организаций, а чтобы учесть все возможные варианты, дополняет запрос новыми формулировками с тем же смыслом. Кроме того, поисковик автоматически исправляет ошибки или показывает результаты как по ошибочному, так и по исправленному запросам.

Большинство поисковых систем использует методы ранжирования и машинное обучение, чтобы выводить в начало списка «лучшие» результаты.

В продвинутых поисковых системах нейронные сети преобразуют поисковые запросы и заголовки веб-страниц в группы чисел — семантические векторы. Их можно сравнивать друг с другом и выдавать еще более точные результаты.

Существуют и поисковые алгоритмы, которые сравнивают векторы запросов и веб-страниц целиком — а не только их заголовков. Это позволяет системе понимать смысл страниц и верно отбирать их, когда люди описывают искомое своими словами. Для этого нейросеть преобразует тексты страниц в семантические векторы заранее — на этапе индексирования. А когда человек задаёт запрос, алгоритм сравнивает вектор запроса с уже известными ему векторами страниц.


Источник: Как это работает? | Поисковая система
Автор:
Теги: Это интересно google видео поисковые системы ftp Алгоритм анализ быль

Комментарии (0)

Сортировка: Рейтинг | Дата
Пока комментариев к статье нет, но вы можете стать первым.
Написать комментарий:
Напишите ответ :
Бюджетная система полива из ПЭТ бутылок
Бюджетная система полива из ПЭТ бутылок
1
Человек познаёт мир 23:40 25 май 2025
Как работает график-гиперреалист
Как работает график-гиперреалист
1
Артобоз 20:22 03 мар 2025
Верблюды, проститутки и пиво – поисковая система Google подтверждает национальные стереотипы
Верблюды, проститутки и пиво – поисковая система Google подтверждает национальные стереотипы
0
Жизнь прекрасна 04:01 16 мар 2017
Как живут семьи, в которых мужчина не работает
Как живут семьи, в которых мужчина не работает
22
Страничка добра и сплошного жизненного позитива! 09:00 05 июл 2023
Как повесить гирлянду на елку. Есть система!
Как повесить гирлянду на елку. Есть система!
0
Интересный мир 07:30 30 мар 2016
Система оздоровления профессора Ивана Неумывакина ломает все стереотипы
Система оздоровления профессора Ивана Неумывакина ломает все стереотипы
14
Интересный мир 23:10 23 янв 2017
Японская собака работает продавцом в киоске
Японская собака работает продавцом в киоске
3
Женский развлекательный и поучительный сайт. 20:02 30 ноя 2022
Система уборки по-немецки "Сверкающий дом". Главные принципы легкой уборки
Система уборки по-немецки "Сверкающий дом". Главные принципы легкой уборки
13
Советы по домоводству 09:01 26 янв 2022
Проще не придумаешь: система капельного полива из 5л бутылки
Проще не придумаешь: система капельного полива из 5л бутылки
0
УДачные советы 16:00 09 май 2023
Как это работает? | Гидроэлектростанция
Как это работает? | Гидроэлектростанция
0
Новости высоких технологий 14:35 09 мар 2017
Знакомая работает в ЗАГСе небольшого городка, иногда рассказывает такое...
Знакомая работает в ЗАГСе небольшого городка, иногда рассказывает такое...
15
Страничка добра и сплошного жизненного позитива! 06:20 05 ноя 2019
Как работает диета 80/20, помогающая сбросить до 6 кг в месяц
Как работает диета 80/20, помогающая сбросить до 6 кг в месяц
14
Страничка добра и сплошного жизненного позитива! 13:50 22 окт 2020

Выберете причину обращения:

Выберите действие

Укажите ваш емейл:

Укажите емейл

Такого емейла у нас нет.

Проверьте ваш емейл:

Укажите емейл

Почему-то мы не можем найти ваши данные. Напишите, пожалуйста, в специальный раздел обратной связи: Не смогли найти емейл. Наш менеджер разберется в сложившейся ситуации.

Ваши данные удалены

Просим прощения за доставленные неудобства