Методы информационного поиска - реферат

Типология способов поиска

Более либо наименее суровый подход к хоть какой задачке начинается с анализа вероятных способов ее решения. Поиск инфы в Вебе может быть произведен по нескольким способам, существенно различающимся как по эффективности и качеству поиска, так и по типу извлекаемой инфы. В ряде всевозможных случаев приходится использовать очень трудозатратные Методы информационного поиска - реферат способы - итог того стоит.

Можно выделить последующие главные способы поиска инфы в Вебе, которые, зависимо от целей и задач ищущего, употребляются по отдельности либо в композиции вместе:

Конкретный поиск с внедрением гипертекстовых ссылок

Так как все веб-сайты в пространстве WWW практически оказываются связанными меж собой, поиск инфы может быть Методы информационного поиска - реферат произведен методом поочередного просмотра связанных страничек при помощи броузера.

Хотя этот стопроцентно ручной способ поиска смотрится полным анахронизмом в Сети, содержащей более 60 млн узлов, "ручной" просмотр Web-страниц нередко оказывается единственно вероятным на заключительных шагах информационного поиска, когда механическое "рытье" уступает место более глубочайшему анализу. Внедрение каталогов, классифицированных и Методы информационного поиска - реферат направленных на определенную тематику списков и различных маленьких справочников также относится к этому виду поиска.

Внедрение поисковых систем

Сейчас этот способ является одним из главных и практически единственным при проведении подготовительного поиска. Результатом последнего может являться перечень ресурсов Cети, подлежащих детальному рассмотрению.

Обычно, применение поисковых систем Методы информационного поиска - реферат основано на использовании ключевиков, которые передаются поисковикам в качестве аргументов поиска: что находить. Если делать все верно, то формирование перечня ключевиков просит подготовительной работы по составлению тезауруса.

Поиск с применением особых средств

Этот стопроцентно автоматический способ возможно окажется очень действенным для проведения первичного поиска.

Одна из технологий этого способа базирована на применении Методы информационного поиска - реферат специализированных программ - спайдеров, которые в автоматическом режиме просматривают Web-страницы, отыскивая на их разыскиваемую информацию. Практически это автоматический вариант просмотра при помощи гипертекстовых ссылок, описанный чуть повыше (поисковые системы для построения собственных индексных таблиц употребляют похожие способы). Нет нужды гласить, что результаты автоматического поиска непременно требуют следующей обработки.

Применение Методы информационного поиска - реферат данного способа целенаправлено, если внедрение поисковых систем не может дать нужных результатов (к примеру, в силу нестандартности запроса, который не может быть правильно задан существующими средствами поисковых систем). В ряде всевозможных случаев этот способ может быть очень эффективен.

Выбор меж внедрением спайдера либо поисковиков являет собой вариант Методы информационного поиска - реферат традиционного выбора меж применением универсальных либо специализированных средств.

Анализ новых ресурсов

Поиск по новообразованным ресурсам возможно окажется нужным при проведении повторных циклов поиска, поиска более свежайшей инфы либо для анализа тенденций развития объекта исследования в динамике.

Другой вероятной предпосылкой может явиться то, что большая часть поисковых систем обновляет свои индексы со Методы информационного поиска - реферат значимой задержкой, вызванной циклопическими объемами обрабатываемых данных, и эта задержка обычно тем больше, чем наименее популярна интересующая вас тема. Это суждение возможно окажется очень значимым при проведении поиска в узкоспециальной предметной области.

Разработка поиска с внедрением поисковых систем

Определение географических регионов поиска

Так как проведение информационного поиска преследует Методы информационного поиска - реферат практические цели - рекламные, производственные, чисто утилитарные и тому подобные, - практическая ценность информационного ресурса может зависеть и от географического расположения соответственного источника.

Составление тезауруса

Для действенного использования поисковиков нужен перечень ключевиков, организованный с учетом семантических отношений меж ними, т.е. тезаурус. При составлении тезауруса нужно предугадать обработку синонимов Методы информационного поиска - реферат, омонимов и морфологических вариантов ключевиков.

Внедрение законов Зипфа

Число, показывающее сколько раз встречается слово в тексте, именуется частотой вхождения слова. Если расположить частоты по мере убывания и пронумеровать, то порядковый номер частоты именуется ранг частоты. Возможность обнаружения слова в тексте = частота вхождения слова / число слов в тексте. Зипф отыскал Методы информационного поиска - реферат, что если помножить возможность обнаружения слова в тексте на ранг частоты, то получившаяся величина примерно постоянна для всех текстов на одном языке:

С = (частота вхождения слов X ранг частоты) / число слов

Это означает, что график зависимости ранга от частоты - равносторонняя гипербола.

Зипф также установил, что зависимость количества слов с данной частотой от Методы информационного поиска - реферат частоты - также гипербола и неизменная для всех текстов в границах 1-го языка.

Что можно извлечь из этих законов? Исследования вышеуказанных зависимостей для разных текстов проявили, что более важные слова текста лежат в средней части диаграммы, потому что слова с наибольшей частотой обычно являются предлогами, частичками, местоимениями, в британском языке Методы информационного поиска - реферат - артиклями (так именуемые "стоп-слова"), а редкие слова почти всегда не имеют решающего значения. Основываясь на этой закономерности, можно предложить последующую методику.

Составление перечня ключевиков

Верный набор ключевиков имеет определяющее значение для рационального поиска инфы. Например, задав поисковой системе в качестве ключевика "МАРП", мы получим перечень документов, в каких встречается Методы информационного поиска - реферат эта аббревиатура (Столичное Агентство по Развитию Предпринимательства). Но если нас заинтересовывают документы по более широкой теме, к примеру: развитие предпринимательства, и мы сформируем обычной запрос из этих 2-ух слов, то поисковая система выдаст нам перечень из сотен тыщ наименований, ориентироваться в каком будет очень тяжело.

Потому для составления рационального Методы информационного поиска - реферат набора ключевиков употребляют функцию, основанную на применении законов Зипфа, которая заключается в последующем: берут хоть какой текст-источник, близкий к разыскиваемой теме, т.е. "эталон", и анализируют его, выделяя важные слова. В качестве текста-источника может служить книжка, статья, Web-страница, хоть какой другой документ. Анализ текста делается Методы информационного поиска - реферат таким макаром:

- Удаление из текста стоп-слов.

- Вычисление частоты вхождения каждого слова и составление перечня, в каком слова размещены в порядке убывания их частоты.

- Выбор спектра частот, лежащего посреди перечня, и отбор из этого спектра слов, более много соответственных смыслу текста.

- Составление запроса к поисковой системе в Методы информационного поиска - реферат форме перечисления отобранных таким макаром ключевиков, связанных логическим оператором Либо (OR). Запрос в таком виде позволяет найти тексты, в каких встречается хотя бы одно из перечисленных слов.

Число документов, приобретенных в поисковом результате по этому запросу, может быть громадно. Но, благодаря ранжированию документов (расположению их в порядке убывания частоты вхождения Методы информационного поиска - реферат слов запроса в документ), используемому в большинстве поисковых систем, на первых страничках перечня фактически все документы окажутся релевантными, при этом документ-источник может находиться далековато от начала.

Более адекватной представляется структура тезауруса в виде так именуемых семантических срезов, где для каждого основного термина раздельно строится таблица сопутствующих слов Методы информационного поиска - реферат и слов шумовых (которые не должны встречаться в источнике), - некие поисковые системы (AltaVista) позволяют это использовать. Таким макаром, заместо единой иерархической структуры определений мы получаем пакет таблиц, которые могут расширяться и модифицироваться раздельно.

Отбор поисковых систем

Устанавливается последовательность использования поисковых систем в согласовании с убыванием ожидаемой эффективности поиска с применением каждой Методы информационного поиска - реферат машины.

Всего понятно около 180 поисковиков, различающихся по регионам охвата, принципам проведения поиска (а как следует, по входному языку и нраву воспринимаемых запросов), объему индексной базы, скорости обновления инфы, возможности находить "неординарную" информацию и тому схожее. Основными аспектами выбора поисковиков являются объем индексной базы сервера и степень развитости самой поисковой системы Методы информационного поиска - реферат, другими словами уровень трудности воспринимаемых ею запросов.

Более тщательно поисковые системы описаны в разделе курса "Сетевые средства поиска инфы".

Составление и выполнение запросов к поисковым машинам

Это более непростой и трудозатратный шаг, связанный с обработкой огромного количества инфы (в главном шумовой). На базе тезауруса формируются запросы к Методы информационного поиска - реферат избранным поисковикам, после этого может быть уточнение запроса с целью отсечения разумеется нерелевантной инфы. Потом делается отбор ресурсов, начиная с более увлекательных, исходя из убеждений целей поиска. Данные с ресурсов, общепризнанных релевантными, собираются для следующего анализа.

Формирование запросов

Как формат, так и семантика запросов варьируются зависимо от используемой поисковой Методы информационного поиска - реферат системы и определенной предметной области. Запросы составляются так, чтоб область поиска была очень конкретизирована и сужена.

Предпочтение отдается использованию нескольких узеньких запросов по сопоставлению с одним расширенным. В общем случае для каждого основного понятия из тезауруса готовится отдельный пакет запросов. Так же делается пробная реализация запросов - как для Методы информационного поиска - реферат уточнения и пополнения тезауруса, так и с целью отсечения шумовой инфы.

Языки запроса разных машин поиска в главном являются сочетанием последующих функций:

Операторы булевой алгебры AND, OR, NOT:

- AND (И) - осуществляется поиск документов, содержащих все определения, соединенные данным оператором;

- OR (Либо) - разыскиваемый текст должен содержать хотя бы один из определений, соединенных данным Методы информационного поиска - реферат оператором;

- NOT (НЕ) - поиск документов, в тексте которых отсутствуют определения, последующие за данным оператором.

- Операторы расстояния - ограничивают порядок следования и расстояния меж словами, к примеру:

- NEAR - 2-ой термин должен находиться на расстоянии от первого, не превосходящем определенного числа слов;

- FOLLOWED BY - определения следуют в данном порядке;

- ADJ - определения Методы информационного поиска - реферат, соединенные оператором, являются смежными.

- Возможность усечения определений - внедрение знака " * " заместо окончания термина позволяет включить в разыскиваемый перечень все слова, производные от его исходной части (шаблона).

- Учет морфологии языка - машина автоматом учитывает все формы данного термина, вероятные в языке, на котором ведется поиск.

- Возможность поиска по словосочетанию, фразе.

- Ограничение поиска Методы информационного поиска - реферат элементом документа (слова запроса должны находиться конкретно в заголовке, первом абзаце, ссылках и т.д.).

- Ограничения по дате опубликования документа.

- Ограничения на количество совпадений определений.

- Возможность поиска графических изображений.

- Чувствительность к строчным и строчным буковкам.

Итог запроса (перечень ссылок) обрабатывается в два шага. На первом шаге делается отсечение разумеется Методы информационного поиска - реферат нерелевантных источников, попавших в подборку в силу несовершенства поисковой системы либо недостаточной "интеллектуальности" запроса. Параллельно проводится семантический анализ, имеющий целью уточнение тезауруса для модификации следующих запросов. Предстоящая обработка делается методом поочередного воззвания на любой из отысканных ресурсов и анализа находящейся там инфы.

Анализ ресурсов и сбор инфы

Первичный анализ Методы информационного поиска - реферат ресурсов основывается на аннотациях - в случае их наличия, и в нужных случаях - на ознакомлении с информационным заполнением ресурса. Информация с отобранных источников извлекается с внедрением соответственных определенному источнику способов, что может востребовать значимых коммуникационных, вычислительных и дисковых ресурсов.

Коротко можно выделить последующие типы информационных Web-ресурсов:

- коммерческие Методы информационного поиска - реферат веб-сайты компаний;

- вторичные информационные веб-сайты;

- источники аналитической инфы;

- региональные информационные ресурсы.

В русской части Веба в текущее время доступен ряд ресурсов, предоставляющих вторичную информацию, обычно, в табулированной форме. Предоставление инфы для публикации в схожих источниках является более дешевеньким вариантом для компаний, не имеющих собственного консульства в Вебе Методы информационного поиска - реферат.

Препядствия, возникающие в процессе поиска

Одна из заморочек является чисто методологической. Для проведения действенного поиска мы заинтересованы в одновременном решении 2-ух обратных задач:

- повышение охвата с целью извлечения наибольшего количества важной инфы;

- уменьшение охвата с целью минимизации шумовой инфы.

Несложно созидать, что сразу выполнить это достаточно трудно, хотя часто все-же Методы информационного поиска - реферат может быть. Один из способов, если поисковая система позволяет, - это введение очевидных ограничений (нелегальных слов). Другой состоит в правильном формировании запросов, а именно, в предпочтении нескольких конкретизированных запросов одному общему. К огорчению, очень ограниченный входной язык большинства машин не оставляет особого простора для творчества в этом направлении.

Другая неувязка Методы информационного поиска - реферат - многовариантность людского языка. Если в британском языке некие слова имеют огромное количество разных значений, то российский отличается богатством морфологических вариантов слов, а для полноты поиска нужно учесть к тому же синонимы.

Нередко в области русского Веба появляются чисто технические трудности из-за разных шифровок инфы. Русские поисковые системы распознают шифровки Методы информационного поиска - реферат юзера и искомого веб-сайта, но скооперировать их удается не всегда.

Еще одна особенность русской части сети - ее непостоянность. Повсевременно меняются адреса и структура веб-сайтов, они возникают и исчезают, и поисковые системы не успевают обновлять свои базы индексированных данных, потому значимая часть перечня документов, выданного Методы информационного поиска - реферат вам машиной, возможно окажется труднодоступной. Возникновение в сентябре 1997 г. системы Яndex-Web, обновляющей свои данные раз в неделю, обозначило высококачественный скачок вперед в решении этой трудности.


metodi-i-formi-nauchnogo-poznaniya.html
metodi-i-formi-organizacii-raboti-s-roditelyami-mladshih-shkolnikov-2-chasa.html
metodi-i-formi-regulirovaniya-estestvennih-monopolij.html