![]() |
|
сделать стартовой | добавить в избранное |
![]() |
Компьютеры, Программирование
Компьютерные сети
Стратегия поиска в автоматизированных информационных системах |
КАЗАНСКИЙ ГОСУДАРСТВЕННЫЙ УНИВЕРСИТЕТ КУЛЬТУРЫ И ИСКУССТВКафедра информатикиВступительный реферат по теме:Стратегия поиска в Автоматизированных информационно-поисковых системах Выполнил: Султанов Ильнур ИльдусовичКазань, 2004 Содержание Введение4 Проблемы поиска информации6 Поисковые алгоритмы8 Оценка качества17 Дополнительные возможности предоставляемые поисковыми машинами19 Лингвистика21 Заключение23 Список литературы24 Глоссарий:25 Введение Проблема поиска и сбора информации одна из важнейших проблем информационно поисковых систем. Конечно, нельзя сравнивать в этом отношении, скажем, средние века, когда поиск информации был проблемой потому, что этой информации было мало, и требовались усилия только для того, чтобы найти хоть что-то по более или менее значительному интересующему вопросу. Проблема поиска информации приобрела новый характер в 20-м столетии, с началом развития века информационных технологий. Теперь она заключается не в том, что информации мало и поэтому ее трудно найти, а в том, что ее теперь наоборот становится все больше и больше, и от этого найти ответ на интересующий вопрос может оказаться тоже довольно сложной задачей . Так, сначала появилась возможность пойти в библиотеку и, потратив там время на выбор нужной книги по каталогу, найти необходимую информацию. Но каталоги не решают полностью проблем поиска информации даже в рамках одной библиотеки, так как в каталожную запись входит относительно мало информации: заголовок, автор, место издания и т.п. Проблема поиска информации значительно усложняется при использование виртуальных источников. Здесь используется технология онлайновых каталогов, в результате применения которой пользователь имеет возможность выполнять поиск в каталогах сразу нескольких библиотек, чем, на самом деле, еще больше усложняет себе задачу, но, с другой стороны, увеличивает шансы решить ее . На современном этапе все информационное пространство, в котором мы живем, все больше погружается в Интернет. Интернет становится основной формой существования информации, не отменив традиционных, такие как журналы, радио, телевидение, телефон, всевозможные справочные службы. В данной работе объектом исследования является Автоматизированная информационно поисковая система. Это система где хранится информационный массив, из которого пользователю выдается нужная информация, осуществляющаяся либо автоматически, либо вручную. Предмет исследования включает в себя те свойства, стороны и отношения объекта исследования, которые необходимо изучить. Предмет обозначает границы, в пределах которых объект изучается в данном конкретном исследовании. Предметом исследования является стратегия информационного поиска. Цель исследования: Цель исследования ставится, обзор и выявление поисковых сервисов (возможностей предоставляемые на сегодняшний день), написание рекомендации к проведению поиска, анализ развития поисковых систем. Для выполнения поставленной цели в рамках исследования необходимо решение следующих задач: аналитический обзор поисковых систем; определение механизма поиска в поисковых системах; создание информационной системы, по АИПС; оценка эффективности созданной системы; разработка рекомендаций к проведению поиска используя информационную систему.
Проблемы поиска информации Ключ проблемы заключается в том, что выросло количество пользователей не обладающие профессиональными навыками при поиске информации на языке запросов. Естественно с такой проблемой столкнулся не только интернет, но и электронные библиотеки (ЭБ) и электронные каталоги (ЭК). К таким системам относятся библиотеки НЭБ-НСН, Интегрум - Техно в России, Лексис-Нексис, Рейтер на Западе. Более строгая организация каталогов в библиотеках, полное единство форматов (или почти полное) внутри одной библиотеки не является решением проблемы современных поисковых систем. Поиск это искусство. Ясно, что в области искусства нельзя добиться гарантированного, или массового результата. Существует убеждение, что каждое новое поколение программ поиска совершенней предыдущего. И иная точка зрения, что «все новое - это хорошо забытое старое». Думаю, что применительно к поисковым системам истина лежит где-то посередине. Но что же поменялось в действительности за последние годы? Не алгоритмы и не структуры данных, не математические модели. Поменялась парадигма использования систем. Системой поиска стали пользоваться пользователи не имеющие профессиональные навыки. Особенно поисковые системы стали востребованы с возникновением интернета. В процессе эволюции поисковых систем, стали очевидны следующие изменения. Во-первых, люди не только «думают словами», но и «ищут словами». В ответе системы они ожидают увидеть слово, набранное в строке запроса. Второе: «человека ищущего» трудно «переучить искать», так же как трудно переучить говорить или писать. Научная мысль 60-х – 80-х об итеративном уточнении запросов, о понимании естественного языка, о поиске по смыслу, о генерации связного ответа на вопрос, пока не удаётся создать и не выдерживает критики. Поисковые алгоритмы Как и любая программа, поисковая система оперирует со структурами данных и исполняет алгоритм. Есть четыре класса поисковых алгоритмов. Три алгоритма из четырех требуют «индексирования», предварительной обработки документов, при котором создаются вспомогательный файл, сиречь «индекс», призванный упростить и ускорить сам поиск. Это алгоритмы инвертированных файлов, суффиксных деревьев, сигнатур. В вырожденном случае предварительный этап индексирования отсутствует, а поиск происходит при помощи последовательного просмотра документов. Такой поиск называется прямым. Прямой поиск Ниже представлена простейшая его версия знакома многим. char s rs r(char big, char li le) { char x, y, z; for (x = big; x; x ) { for (y = li le, z = x; y; y, z) { if ( y != z) break; } if (! y) re ur x; } re ur 0;} ПРЯМОЙ ПОИСК ТЕКСТА.В этой функции языка C текст строки big просматривают слева направо и для каждой позиции x запускают последовательное сравнение с искомой подстрокой li le. Для этого, двигая одновременно два указателя y и z, попарно сравнивают все символы. Если мы успешно дошли до конца искомой подстроки, значит она найдена! Несмотря на кажущуюся простоту, последние 30 лет прямой поиск интенсивно развивается. Было выдвинуто немалое число идей, сокращающих время поиска в разы.
При этом надо учесть, что новые алгоритмы и их улучшенные варианты появляются постоянно. Хотя прямой просмотр всех текстов – довольно медленное занятие, не следует думать, что алгоритмы прямого поиска не применяются в интернете. Норвежская поисковая система Fas (www.fas search.com) использовала чип, реализующий логику прямого поиска упрощенных регулярных выражений, и разместила 256 таких чипов на одной плате. Это позволяло Fas -у обслуживать довольно большое количество запросов в единицу времени. Кроме того, есть масса программ, комбинирующих индексный поиск для нахождения блока текста с дальнейшим прямым поиском внутри блока. Например, весьма популярный, в том числе и в Рунете, glimpse. У прямых алгоритмов есть положительные черты. Например, неограниченные возможности по приближенному и нечеткому поиску. Ведь любое индексирование всегда сопряжено с упрощением и нормализацией терминов, а, следовательно, с потерей информации. Прямой же поиск работает непосредственно по оригинальным документам безо всяких искажений. Инвертированный файл Эта простейшая структура данных. Первая категория людей знает, что это такое, по «конкордансам» - алфавитно упорядоченным исчерпывающим спискам слов из одного текста или принадлежащих одному автору (например «Конкорданс к стихам А. С. Пушкина», «Словарь-конкорданс публицистики Ф. М. Достоевского»). Вторые имеют дело с той или иной формой инвертированного списка всякий раз, когда строят или используют «индекс БД по ключевому полю». П роиллюстрируем эту структуру при помощи замечательного русского конкорданса - «Симфонии», выпущенной московской патриархией по тексту синодального перевода Библии . Рис. 1 Перед нами упорядоченный по алфавиту список слов. Для каждого слова перечислены все «позиции», в которых это слово встретилось. Поисковый алгоритм состоит в отыскании нужного слова и загрузке в память уже развернутого списка позиций. Чтобы сэкономить на дисковом пространстве и ускорить поиск, обычно прибегают к двум приемам. Во-первых, подробность самой позиции. Чем подробнее задана такая позиции, например, в случае с «Симофонией» это «книга глава стих», тем больше места потребуется для хранения инвертированного файла. В наиподробнейшем варианте в инвертированном файле можно хранить и номер слова, и смещение в байтах от начала текста, и цвет и размер шрифта, да много чего еще. Чаще же просто указывают только номер документа, скажем, книгу Библии, и число употреблений этого слова в нем. Именно такая упрощенная структура считается основной в классической теории информационного поиска – I forma io Re rieval (IR). Второй (никак не связанный с первым) способ сжатия: упорядочить позиции для каждого слова по возрастанию адресов и для каждой позиции хранить не полный ее адрес, а разницу от предыдущего. Вот как будет выглядеть такой список для нашей странички в предположении, что мы запоминаем позицию вплоть до номера главы: ЖЕНЩИНА: ,. Дополнительно на разностный способ хранения адресов накладывают какой-нибудь способ упаковки: зачем отводить небольшому целому числу фиксированное «огромное» количество байт, ведь можно отвести ему почти столько байт, сколько оно заслуживает.
Но, как это случается, вложившему душу в дело создания действенной и глобальной АИС автоматизированной информационной системы Рябову места в ней не нашлось. Заниматься вопросами компьютерного учета Рябов начал после того, как именем английской королевы спецслужбы Англии отказали ему во въезде в страну, лишив лондонскую резидентуру талантливого руководителя. И через многие годы я слышал характерный голос Рябова смесь баса и фальцета: «Думай, парень, о прикрытии, как оно работает на тебя, а значит, на разведку» С годами мой профессионализм развивался по двум направлениям разведывательному и внешнеторговому. Но многие мысли, хорошо продуманные, часто не получали поддержку руководства, разве что ближайшего начальника. В НТР станут насаждаться чиновничье-бюрократические порядки, результатом которых будет снижение общей эффективности при видимой активности, разбухания штатов в центральном аппарате и в резидентурах. Мне же пришлось работать в условиях, сформулированных великим полководцем Михаилом Кутузовым: от момента, когда ты познал истину, до времени, когда истина восторжествует, может не хватить и жизни
1. Разработка автоматизированной информационной системы учёта товародвижения в торговле
2. Разработка автоматизированной информационной системы для управления портфелем реальных инвестиций
4. Концепция создания автоматизированной информационной системы "Спорт"
5. Автоматизированная информационная система Учет экономической деятельности мукомольного цеха
9. Методы поиска информации в сети интернет. Информационно-поисковые системы
10. Проектирование и создание автоматизированной информационной системы "Поликлиника"
11. Разработка автоматизированной информационной системы "Библиотека ВУЗа"
13. Разработка автоматизированной информационной системы. Система учета ОАО "ЮТК"
14. Виды защиты, используемые в автоматизированных информационных системах
15. Автоматизированные информационные системы в экономике
16. Автоматизированные информационные системы управления персоналом предприятия
17. Единая автоматизированная информационная система таможенных служб Сообщества
18. Автоматизированные информационные системы в экономике
19. Автоматизированное управление в технических системах
20. Системы автоматизированного проектирования и PLM-системы
21. Автоматизация информационного взаимодействия в системе органов государственного финансового контроля
25. Автоматизированная информационная технология по учету денежных операций по кассе
26. Интеллектуальные информационные технологии и системы: генетические алгоритмы
27. Модели жизненного цикла автоматизированных информационных систем
28. Политика информационной безопасности для системы "Учет ремонта и ТО автотранспорта"
29. Техническое обеспечение автоматизированных информационных систем
30. Информационные технологии в системах управления гостиничным предприятием
31. Информационные технологии в системе управления организацией
32. Анализ информационно-технического обеспечения системы управления персоналом
33. Автоматизированные информационные технологии в налоговой службе
36. Межкультурная коммуникация в электронной среде и поиск информации в сети Интернет
37. Страхование - важнейшая система финансовой системы
41. Организация хранения и поиска информации в сети Internet
42. Поиск информации в Интернете
43. Поиск информации в Интернете по теме "Учет движения основных средств"
44. Системы, эквивалентные системам с известным типом точек покоя
45. Пищеварительная система. Выделительная система
46. Методы сбора и поиска информации, применяемые в современной этнологии
47. Создание автоматизированной системы обработки экономической информации
48. Система автоматизированной обработки статистической информации
49. Автоматизированные системы обработки экономической информации
52. Автоматизированная справочно-информационная система учета и контроля поставок на предприятии
53. Автоматизированные системы обработки экономической информации
57. Защита информации в автоматизированных системах обработки данных: развитие, итоги, перспективы
58. Автоматизированные экономические информационные системы и их элементы
59. Форматы баз данных в автоматизированных библиографических системах
60. Разработка автоматизированной системы учета выбывших из стационара
61. Автоматизированная система распределения мест и оценок качества олимпиадных заданий
62. Система автоматизированного проектирования P-CAD
63. Автоматизированная система распределения мест и оценок качества олимпиадных заданий
64. Автоматизированные Банковские Системы (АБС). Разработка системы "Обменный пункт"
65. Разработка автоматизированной системы складского учета
66. Автоматизированная система управления санаторным комплексом. Подсистема "Диетпитание"
67. Автоматизированные системы управления техническими средствами
68. Автоматизированные системы бронирования
69. Автоматизированная система защиты и диагностики парка электродвигателей промышленного предприятия
73. Автоматизированная система для исследования кинетики быстрых химических реакций
74. Автоматизированная система бухгалтерского учета Министерства здравоохранения
75. Опыт автоматизированного построения границ марок угля с использованием экспертной системы
76. Автоматизированные обучающие системы
77. Автоматизированные системы ведения истории болезни
78. Математическое обеспечение комплекса задач “Автоматизированная система документооборота учереждения
80. Новая автоматизированная система оптимизации рационов питания спортсменов
81. Автоматизированные системы документооборота
82. Автоматизированная банковская система "Диасофт"
83. Автоматизированная система "Библиотека"
84. Автоматизированная система документационного обеспечения управления
85. Автоматизированная система обработки структур данных
89. Автоматизированная система учета абонентов библиотеки
90. Автоматизированная система учета оборота товаров в телекоммуникационной фирме
91. Автоматизированные системы управления предприятием
92. Обработка данных в автоматизированных системах
94. Разработка автоматизированной системы "Библиотека"
95. Разработка автоматизированной системы управления торговым предприятием
96. Разработка системы автоматизированного электронного документооборота для предприятия
97. Системы автоматизированного проектирования
98. Автоматизированная обучающая система по дисциплине "Программирование"
99. Автоматизированная система изучения тепловых режимов устройств ЭВС