Відмінності між версіями «6 Пошукові сервери»

Поточна версія на 13:32, 26 червня 2013

Пошуковий сервер — це достатньо складна програма, точніше комплекс програм, які використовують спеціальні алгоритми аналізу вмісту веб-сайтів в масштабах всього Інтернету Для організації пошуку в Інтернеті існують спеціалізовані служби, що називаються пошуковими серверами. На практиці — це веб-сайти, де можна набрати в відповідному рядку ключові слова і отримати багато посилань на ресурси з потрібною інформацією. Наприклад, на запит “домашні тварини” пошуковий сервер “Яндекс” видасть більше 14 000 000 посилань на веб-сторінки менш ніж за пів секунди, що містять потрібно інформації. Проте не все так гладко, при відвідувані деяких знайдених веб-сторінок можна побачити, що інформації, яка шукалася не достатньо або і зовсім немає.Пошукові сервери постійно досліджують Інтернет з метою поповнення своїх баз даних документів. Зазвичай це не потребує жодних зусиль з боку людини. ПС складається з трьох основних частин: робота, індекса і обробника запитів. Робот (Crawler, Bot, Robot) – це програма, що відкриває web-сторінки, зчитує (індексує) їх вміст і далі слідує за посиланнями, знайденими на цій сторінці. Робот повертається через певні проміжки часу (наприклад, щомісяця) і знову індексує сторінку. Все, що знаходить і зчитує робот потрапляє у індекси ПС. Індекси являють собою величезне сховище інформації, де зберігаються копії текстової складової усіх відвіданих і проіндексованих web-сторінок. Обробник запитів – це програма, яка у відповідності з поданим запитом перебирає індекси ПС в пошуках інформації, що цікавить користувача і видає йому в порядку зменшення релевантності (відповідності запиту) знайдені документи. Для того, щоб зрозуміти як пошуковий сервер повернув стільки сторінок на введений запит менш ніж за пів секунди, потрібно знати принципи роботи пошукових серверів. Принципи роботи пошукових серверів Спеціальна програма “Павук” завантажує вміст веб-сайтів. Її завдання передавати вміст веб-сторінок іншій програмі “Мандрівному павуку”. Завдання “Мандрівного павука” — виявлення із завантаженої веб-сторінки посилань на інші веб-сторінки, по яким знову направляється програма “Павук”. Цей цикл повторяється неперервно. На цьому робота не закінчується. За справу береться програма-індексатор, яка використовує певні правила для аналізу отриманих “павуками” веб-сторінок і формує складну базу даних пошукового сервера. Ця база даних і видає результати пошуку, що проявляються після обробки введеного запиту. Принцип роботи індексатора потрібно описати детальніше, оскільки від нього залежать то, що ввійде в результати пошуку. В основі роботи більшості сучасних пошукових серверів лежить індекс цитування, який обчислюється індексатором в результаті аналізу посилань на поточну веб-сторінку з інших веб-сторінок Інтернету. Чи їх більше, тим вище індекс цитування веб-сторінки, що аналізується і тим вище ця сторінка буде відображатися в результатах пошуку. Крім цього, враховується індекс цитування веб-сторінок, які посилаються на сторінку, що аналізується індексатором. Крім індексу цитування враховуються також наступні параметри:

наявність слів, що шукаються в заголовку веб-сторінки або назві сайту;
частота повторення слів, що шукаються на сторінці;
розмір шрифту, яким на сторінці написані слова із пошукового запиту, а також виділення цих слів шрифтами і стилями;
тематика сайтів, що посилаються та деякі інші.

Після обробки запиту користувача за справу береться система видачі результатів. В результаті аналізу і зіставлення згаданих вище показників, система виявляє степінь відповідності вмісту веб-сторінки умовам запиту. Чим більше ця степінь, тим вище веб-сторінка буде представлена в списку знайдених веб-сторінок. Такий спосіб має очевидний недолік, який полягає в тому, що вміст веб-сторінок може з часом змінитися, а “павук” не буде встигати знаходити і обробляти, отже, результати пошуку будуть неточними. Час, що необхідний пошуковому серверу для індексації всього Інтернету становить від декількох днів до декількох неділь в залежності від алгоритму обробки інформації, апаратних засобів тощо. Тому сайти, що появилися в Інтернеті недавно, в результатах пошуку представлені не будуть. Розробники пошукових серверів борються з цими різними способами з різним успіхом. Наприклад, більшість сучасних пошукових серверів надають такий сервіс як пошук по новинним стрічкам, які оновляються кожні декілька хвилин, тому вони частіше індексуються пошуковими серверами.

@@ Рядок 1: / Рядок 1: @@
-Коли кількість сайтів в інтернеті збільшилась до великої кількості, стало зрозумілим, що описати кожен сайт неможливо і виникла проблема пошуку інформації на сайтах. Для цього і придумали пошукові сервери.
+Пошуковий сервер — це достатньо складна програма, точніше комплекс програм, які використовують спеціальні алгоритми аналізу вмісту веб-сайтів в масштабах всього Інтернету
-Якщо розглядати пошуковий сайт, варто трошки включити уяву. Сучасні пошукові сервери складаються мінімум з трьох компонентів (комп'ютерів). Це сам пошуковий сайт, база даних, та робот - програма, що навмання переглядає сайти і зберігає про них інформацію у цій базі даних.
+Для організації пошуку в Інтернеті існують спеціалізовані служби, що називаються пошуковими серверами. На практиці — це веб-сайти, де можна набрати в відповідному рядку ключові слова і отримати багато посилань на ресурси з потрібною інформацією. Наприклад, на запит “домашні тварини” пошуковий сервер “Яндекс” видасть більше 14 000 000 посилань на веб-сторінки менш ніж за пів секунди, що містять потрібно інформації. Проте не все так гладко, при відвідувані деяких знайдених веб-сторінок можна побачити, що інформації, яка шукалася не достатньо або і зовсім немає.Пошукові сервери постійно досліджують Інтернет з метою поповнення своїх баз даних документів. Зазвичай це не потребує жодних зусиль з боку людини.
+ПС складається з трьох основних частин: робота, індекса і обробника запитів.
-Робот завантажує сторінки та аналізує їх. Мабуть ви розумієте, що не одноразове використання в тексті певних слів дозволяє роботу визначити тему тексту. Іншими словами, для кожної сторінки визначаються, так звані, ключові слова. Це слова, що найчастіше зістрічаються в тексті. Після чого робот зберігає в базі даних відповідну інформацію про дану сторінку. Можливо щось на подобі цієї:
+Робот (Crawler, Bot, Robot) – це програма, що відкриває web-сторінки, зчитує (індексує) їх вміст і далі слідує за посиланнями, знайденими на цій сторінці. Робот повертається через певні проміжки часу (наприклад, щомісяця) і знову індексує сторінку. Все, що знаходить і зчитує робот потрапляє у індекси ПС. Індекси являють собою величезне сховище інформації, де зберігаються копії текстової складової усіх відвіданих і проіндексованих web-сторінок.
-Ключові слова	Адреса	час скачування	рейтинг	...
+Обробник запитів – це програма, яка у відповідності з поданим запитом перебирає індекси ПС в пошуках інформації, що цікавить користувача і видає йому в порядку зменшення релевантності (відповідності запиту) знайдені документи.
-Браузер, сторінка, сервер,...
+Для того, щоб зрозуміти як пошуковий сервер повернув стільки сторінок на введений запит менш ніж за пів секунди, потрібно знати принципи роботи пошукових серверів.
-http://www.eduforme.org/course/	0,21	3	...
+Принципи роботи пошукових серверів Спеціальна програма “Павук” завантажує вміст веб-сайтів. Її завдання передавати вміст веб-сторінок іншій програмі “Мандрівному павуку”. Завдання “Мандрівного павука” — виявлення із завантаженої веб-сторінки посилань на інші веб-сторінки, по яким знову направляється програма “Павук”. Цей цикл повторяється неперервно.
-...	...	...	...	...
+На цьому робота не закінчується. За справу береться програма-індексатор, яка використовує певні правила для аналізу отриманих “павуками” веб-сторінок і формує складну базу даних пошукового сервера. Ця база даних і видає результати пошуку, що проявляються після обробки введеного запиту. Принцип роботи індексатора потрібно описати детальніше, оскільки від нього залежать то, що ввійде в результати пошуку.
-Коли користувач на сторінці пошукового сервера набирає відповідне слово чи фразу, на екрані з'являється список сторінок де найчастіше зустрічається відповідна фраза. Список сторінок з часом може змінюватись, це свідчить про різні критерії його формування.Нижче наведено список, на нашу думку, най відоміших пошукових серверів.
+В основі роботи більшості сучасних пошукових серверів лежить індекс цитування, який обчислюється індексатором в результаті аналізу посилань на поточну веб-сторінку з інших веб-сторінок Інтернету. Чи їх більше, тим вище індекс цитування веб-сторінки, що аналізується і тим вище ця сторінка буде відображатися в результатах пошуку. Крім цього, враховується індекс цитування веб-сторінок, які посилаються на сторінку, що аналізується індексатором.
-•	http://www.google.com.ua/
+Крім індексу цитування враховуються також наступні параметри:
-•	http://meta.ua/
+*наявність слів, що шукаються в заголовку веб-сторінки або назві сайту;
-•	http://www.yandex.ua/
+*частота повторення слів, що шукаються на сторінці;
-•	http://www.aport.ru/
+*розмір шрифту, яким на сторінці написані слова із пошукового запиту, а також виділення цих слів шрифтами і стилями;
-•	http://www.rambler.ru/
+*тематика сайтів, що посилаються та деякі інші.
-•	http://www.yahoo.com/
+Після обробки запиту користувача за справу береться система видачі результатів. В результаті аналізу і зіставлення згаданих вище показників, система виявляє степінь відповідності вмісту веб-сторінки умовам запиту. Чим більше ця степінь, тим вище веб-сторінка буде представлена в списку знайдених веб-сторінок.
-У всіх ви побачите вгорі сторінки чи посередині рядок пошуку з кнопкою "Пошук", "Найти" чи "Search". Саме в цей рядок потрібно ввести ключове слово чи фразу для пошуку. Мені найбільш імпонує пошукова система Google, тому зосереджу вашу увагу на ній.
+Такий спосіб має очевидний недолік, який полягає в тому, що вміст веб-сторінок може з часом змінитися, а “павук” не буде встигати знаходити і обробляти, отже, результати пошуку будуть неточними. Час, що необхідний пошуковому серверу для індексації всього Інтернету становить від декількох днів до декількох неділь в залежності від алгоритму обробки інформації, апаратних засобів тощо. Тому сайти, що появилися в Інтернеті недавно, в результатах пошуку представлені не будуть.
-В рядку пошуку введіть текст "Навчальний портал" та клікніть мишею по кнопці пошуку. За секунду на екрані з'явиться список сторінок сайтів, що найбільш відповідають шуканій фразі. Майте на увазі, що різні пошукові системи по різному формують список стрінок. Мабуть це і добре, бо якщо ви не знайшли потрібної інформації за допомогою одного пошукового сервера, варто скористатись пошуком на іншому. Але уважно розглянемо, що ж знайдено.
+Розробники пошукових серверів борються з цими різними способами з різним успіхом. Наприклад, більшість сучасних пошукових серверів надають такий сервіс як пошук по новинним стрічкам, які оновляються кожні декілька хвилин, тому вони частіше індексуються пошуковими серверами.
-Знайдені сторінки зформовано блогами по 4-5 рядків.
-Перший рядок синього кольору це заголовок сторінки і посилання на неї. Якщо клікнете по ньому - перейдете на відповідну сторінку.
-Другий та третій (може бути й четвертий) чорного кольору це текст сторінки в якому знайдено шукане слово.
-Останній рядок в блоці зеленого кольору. Це адреса сторінки. Біля адреси можна побачити слово "Кеш". Якщо клікнути по ньому, з'явиться сторінка, котру зберіг в базі даних робот (може не відповідати сьогоднішній).
-Для зацікавлення прошу спробувати знайти інформацію про себе. Тобто в рядку пошуку введіть своє ім'я та прізвище. Якщо не знайдете інформацію про себе, то про однофамільців - точно.
-Помилки пошуку
-Для вдалого і швидкого пошуку варто навчитись правильно підбирати пошукові слова. У першу чергу спробуйте вгадати, які слова найчастіше зустрічаються в тій інформації, що шукаєте.
-Інколи варто задуматись чи шукане слово відповідає лише шуканій тематиці. Наприклад учень для пошуку інформації про автомобілі використав слово "Авто". Звичайно окрім шуканих сторінок будуть і сторінки з описом автоматизації чи автоматів...
-Коли задаю студентам знайти сайти університетів, декілька з них пробує шукати сайти за словом "Університети". Цю помилку також варто враховувати, оскільки швидше за все вони отримають сторінки зі списком університетів, а не самі сайти університетів. Потрібно вводити слово "Університет" в однині.

Відмінності між версіями «6 Пошукові сервери»

Поточна версія на 13:32, 26 червня 2013

Особисті інструменти

Простори назв

Варіанти

Перегляди

Дії

Пошук

Навігація

Інструменти