Введени
1 Наиболее популярные поисковые системы
1.1 Яндекс
1.2 Google
1.4 Yahoo
2 Язык поисковых запросов
Список использованных источников
Введение
Ежегодно доля информации, размещенной в сети Интернет, увеличивается в разы, поэтому вероятность найти необходимую информацию постоянно повышается. Интернет объединяет миллионы компьютеров, множество разных сетей, число пользователей которых беспрерывно растет. И, тем не менее, все чаще при обращении к сети Интернет за какой-либо информацией основной проблемой оказывается не ее отсутствие, а возможности ее найти. Как правило, среднестатистический пользователь сети в силу разных обстоятельств (нехватка времени, лень, неимение необходимых навыков) не может или не хочет тратить на поиск нужного ему ответа большой промежуток времени. Поэтому особенно актуально правильно и грамотно научиться одному из самых главных умений – умение искать именно ту информацию, которую нужно найти. Найти нужную информацию в сети Интернет – найти адрес веб-ресурса, на котором необходимая информация размещена.
В решении этой проблемы обилия информации на помощь приходят поисковые инструменты. Поисковые системы, как правило, состоят из нескольких компонент:
Сбор информации – поисковый агент (паук, кроулер), который работает в сети Интернет и занимается сбором и анализом информации;
Хранение информации - база данных, задача которой состоит в хранении информации, которую собирали агенты;
Пользовательский интерфейс – поисковая система с веб-интерфейсом, который люди используют для взаимодействия с базой данных.
Средства поиска и структурирования, иногда именуемые поисковыми системами, разработаны с целью помочь пользователям сети найти информацию, которая им необходима в данный момент. Средства поиска типа «агент» эксплуатируются поисковой системой для сбора информации о документах, находящихся в сети Интернет. Это специальные программы, которые занимаются сбором информации в сети, извлечением ссылок на найденные ресурсы и автоматической индексацией информации, которую они обнаружили с целью сформировать или обновить базу данных. Каждый поисковый механизм имеет собственный набор правил, определяющих, каким именно образом собирать документы и информацию. Некоторые поисковые системы проходят по каждой ссылке на всех найденных страницах, другие же игнорируют те ссылки, которые ведут к медиа файлам. Также бывают и другие, которые игнорируют ссылки к ресурсам типа баз данных. Существуют и такие поисковые системы, которые запрограммированы просматривать в первую очередь наиболее популярные среди пользователей страницы.
Агенты - самые "интеллектуальные" из поисковых инструментов. Зачастую они могут делать больше, чем просто искать: они могут выполнять даже транзакции от имени пользователя. Уже сейчас они могут искать веб-ресурсы специфической тематики и составлять списки сайтов, отсортированных по их популярности среди пользователей. Агенты могут анализировать содержание страниц, обнаруживать и индексировать другие виды ресурсов сети, не только веб-страницы. Они могут также быть запрограммированы на извлечение информации из уже сформированных баз данных. Независимо от содержания полученных сведений, которые агенты получают в результате индексации информации, они передают ее базе данных поискового механизма.
Общий поиск информации в Интернете осуществляют такие программы как «пауки». Пауки оповещают о содержании обнаруженного документа, индексируют его и извлекают итоговую информацию. Также эти программы анализируют заголовки, ссылки и оправляют проиндексированную информацию в базу данных поисковой системы.
1 Наиболее популярные поисковые системы
1.1 Яндекс
Программные поисковые продукты компании Yandex - набор средств полнотекстовой индексации и поиска в массиве текстовых данных с учетом морфологии русского языка.
Яndex включает в себя инструменты морфологического анализа и синтеза, индексации и поиска, а также набор дополнительных модулей, таких, как анализатор документов, конверторы форматов, сетевой "паук" и др.
Алгоритмы морфологического анализа и синтеза, сформированные на основе базового словаря языка, умеют нормализовать слова, то есть преобразовывать их в начальную форму, а также строить гипотезы для тех слов, которые не содержатся в базовом словаре. Система полнотекстового индексирования позволяет быстро осуществлять поиск нужной информации с использованием логических операторов.
Список результатов поиска упорядочивается по релевантности - по количеству найденных ключевых слов. В каждом результате поиска выделяются обнаруженные ключевые слова.
Для повышения точности поиска используется словарь русского языка на десятки тысяч слов. Алгоритм морфологического разбора корректно обрабатывает и слова, не найденные в словаре. Морфология работает как для русского, так и для английского языков.
1.2 Google
В поисковой системе Google используется следующий принцип индексации:
слова в заголовке документа имеют самый высокий приоритет;
слова в начале документа;
слова в ссылках на документы;
если в базе данных системы есть сайты, ссылка с которых указывает на индексируемый документ - релевантность индексируемого документа возрастает, что влияет на позицию выдачи пользователю.
Как и большинство поисковых систем, Google дает возможность применять простой запрос и более нестандартный метод поиска. В обычном запросе в качестве поискового запроса вводится предложение на определенном языке (русский, белорусский, английский и др.), после чего поисковая система нормализует запрос, удаляя из него «stop-слова», и только потом приступает к выполнению запроса. Практически сразу выдается информация о количестве страниц на каждое ключевое слово, а через некоторое время и список ссылок на релевантные документы. В списке результатов напротив каждого документа указывается его степень близости запросу и количество слов из запроса, попавших в документ [2].
1.3 AltaVista
Индексация в этой поисковой системе осуществляется при помощи роботов. При этом они имеют следующие приоритеты:
слова, находящиеся в заголовке страницы, имеют наибольший приоритет;
ключевые фразы, которые находятся в начале документа;
ключевые фразы в ссылках;
ключевые фразы по количеству вхождений\присутствия слов\фраз;
2 Язык поисковых запросов
Первичный анализ ресурсов базируется на аннотациях - в случае их наличия, и в необходимых случаях - на ознакомлении с информационным наполнением ресурса. Информация из отобранных источников извлекается с использованием соответствующих конкретному источнику методов, что может потребовать значительных ресурсов.
Кратко можно выделить 4 типа информационных сетевых ресурсов:
официальные сайты компаний;
вторичные информационные сайты;
социальные сети;
региональные ресурсы;
Для того, чтобы успешно искать необходимую информацию, требуется следовать следующим рекомендациям:
1. Проверять орфографию введенного запроса
Если в результате поиска не найдено ни одного документа, то, вполне вероятно, допущена орфографическая ошибка в написании слов в поисковом запросе. Необходимо проверить правильность написания слов. Если при поиске использовано несколько слов, то необходимо посмотреть на количество каждого из слов в найденных. Если какого-то слова нет, то это означает, что слово написано неверно.
2. Использовать близкие по смыслу слова (синонимы)
Если список найденных страниц слишком мал или не содержит страниц с полезной информацией, нужно попробовать заменить слово на близкое по значению или наиболее распространено. Например, вместо «око» следует использовать «глаз», поскольку второй вариант наиболее употребим в языке на сегодняшний день. Можно также задать для поиска три или четыре слова-синонима сразу. Для этого необходимо написать их через вертикальную черту (|). Тогда будут найдены те страницы, где используется хотя бы одно из них. Например, вместо слова "фотографии" можно попробовать ввести "фотографии | фото | фотоснимки".
3. Искать более чем по одному слову
Слово "фармацевтика" или "продукты" при поиске дадут поодиночке большое количество ссылок, не имеющих полезной информации. Необходимо добавить одно или два ключевых слова, которые связаны с запрашиваемой темой. Например, "продукты генеза" или "продажа и покупка автомобилей". Рекомендуется также конкретизировать область поискового вопроса. Если требуется найти информацию по автомобилям ГАЗ, то запросы "автомобиль Волга" или "автомобиль ГАЗ" выдадут наиболее соответствующие тематике запроса документы, чем "легковые автомобили".
4. Не стоит писать прописными буквами
Начиная слово с большой буквы, слова, которые начинаются не с большой буквы найдены не будут за исключением ситуация, когда это слово первое в предложении. Поэтому не стоит вводить обычные слова с Большой Буквы, даже если с них начинается поисковый вопрос системе. Прописные буквы в поисковом запросе рекомендуется использовать только в именах собственных. Например, "группа Баста", "телепередача Топ Гир".