Відмінності між версіями «6 Пошукові сервери»

Матеріал з Wiki TNEU
Перейти до: навігація, пошук
м (Захист на 6 Пошукові сервери встановлено (‎[edit=sysop] (безстроково) ‎[move=sysop] (безстроково)))
Рядок 1: Рядок 1:
Коли кількість сайтів в інтернеті збільшилась до великої кількості, стало зрозумілим, що описати кожен сайт неможливо і виникла проблема пошуку інформації на сайтах. Для цього і придумали пошукові сервери.
+
Пошуковий сервер — це достатньо складна програма, точніше комплекс програм, які використовують спеціальні алгоритми аналізу вмісту веб-сайтів в масштабах всього Інтернету
Якщо розглядати пошуковий сайт, варто трошки включити уяву. Сучасні пошукові сервери складаються мінімум з трьох компонентів (комп'ютерів). Це сам пошуковий сайт, база даних, та робот - програма, що навмання переглядає сайти і зберігає про них інформацію у цій базі даних.
+
 
+
Для організації пошуку в Інтернеті існують спеціалізовані служби, що називаються пошуковими серверами. На практиці — це веб-сайти, де можна набрати в відповідному рядку ключові слова і отримати багато посилань на ресурси з потрібною інформацією. Наприклад, на запит “домашні тварини” пошуковий сервер “Яндекс” видасть більше 14 000 000 посилань на веб-сторінки менш ніж за пів секунди, що містять потрібно інформації. Проте не все так гладко, при відвідувані деяких знайдених веб-сторінок можна побачити, що інформації, яка шукалася не достатньо або і зовсім немає.
Робот завантажує сторінки та аналізує їх. Мабуть ви розумієте, що не одноразове використання в тексті певних слів дозволяє роботу визначити тему тексту. Іншими словами, для кожної сторінки визначаються, так звані, ключові слова. Це слова, що найчастіше зістрічаються в тексті. Після чого робот зберігає в базі даних відповідну інформацію про дану сторінку. Можливо щось на подобі цієї:
+
 
Ключові слова Адреса час скачування рейтинг ...
+
Для того, щоб зрозуміти як пошуковий сервер повернув стільки сторінок на введений запит  менш ніж за пів секунди, потрібно знати принципи роботи пошукових серверів.
Браузер, сторінка, сервер,...
+
http://www.eduforme.org/course/ 0,21 3 ...
+
Принципи роботи пошукових серверів
... ... ... ... ...
+
Спеціальна програма “Павук” завантажує вміст веб-сайтів. Її завдання передавати вміст веб-сторінок іншій програмі “Мандрівному павуку”. Завдання “Мандрівного павука” — виявлення із завантаженої веб-сторінки посилань на інші веб-сторінки, по яким знову направляється програма “Павук”. Цей цикл повторяється неперервно.
Коли користувач на сторінці пошукового сервера набирає відповідне слово чи фразу, на екрані з'являється список сторінок де найчастіше зустрічається відповідна фраза. Список сторінок з часом може змінюватись, це свідчить про різні критерії його формування.Нижче наведено список, на нашу думку, най відоміших пошукових серверів.
+
 
• http://www.google.com.ua/
+
На цьому робота не закінчується. За справу береться програма-індексатор, яка використовує певні правила для аналізу отриманих “павуками” веб-сторінок і формує складну базу даних пошукового сервера. Ця база даних і видає результати пошуку, що проявляються після обробки введеного запиту. Принцип роботи індексатора потрібно описати детальніше, оскільки від нього залежать то, що ввійде  в результати пошуку.
• http://meta.ua/
+
 
• http://www.yandex.ua/
+
В основі роботи більшості сучасних пошукових серверів лежить індекс цитування, який обчислюється індексатором в результаті аналізу посилань на поточну веб-сторінку з інших веб-сторінок Інтернету. Чи їх більше, тим вище індекс цитування веб-сторінки, що аналізується і тим вище ця сторінка буде відображатися в результатах пошуку. Крім цього, враховується індекс цитування веб-сторінок, які посилаються на сторінку, що аналізується індексатором.
• http://www.aport.ru/
+
 
• http://www.rambler.ru/
+
Крім індексу цитування враховуються також наступні параметри:
• http://www.yahoo.com/
+
 
У всіх ви побачите вгорі сторінки чи посередині рядок пошуку з кнопкою "Пошук", "Найти" чи "Search". Саме в цей рядок потрібно ввести ключове слово чи фразу для пошуку. Мені найбільш імпонує пошукова система Google, тому зосереджу вашу увагу на ній.
+
 наявність слів, що шукаються в заголовку веб-сторінки або назві сайту;
В рядку пошуку введіть текст "Навчальний портал" та клікніть мишею по кнопці пошуку. За секунду на екрані з'явиться список сторінок сайтів, що найбільш відповідають шуканій фразі. Майте на увазі, що різні пошукові системи по різному формують список стрінок. Мабуть це і добре, бо якщо ви не знайшли потрібної інформації за допомогою одного пошукового сервера, варто скористатись пошуком на іншому. Але уважно розглянемо, що ж знайдено.
+
 
+
 частота повторення слів, що шукаються на сторінці;
Знайдені сторінки зформовано блогами по 4-5 рядків.
+
 
Перший рядок синього кольору це заголовок сторінки і посилання на неї. Якщо клікнете по ньому - перейдете на відповідну сторінку.
+
 розмір шрифту, яким на сторінці написані слова із пошукового запиту, а також виділення цих слів шрифтами і стилями;
Другий та третій (може бути й четвертий) чорного кольору це текст сторінки в якому знайдено шукане слово.
+
 
Останній рядок в блоці зеленого кольору. Це адреса сторінки. Біля адреси можна побачити слово "Кеш". Якщо клікнути по ньому, з'явиться сторінка, котру зберіг в базі даних робот (може не відповідати сьогоднішній).
+
 тематика сайтів, що посилаються та деякі інші.
Для зацікавлення прошу спробувати знайти інформацію про себе. Тобто в рядку пошуку введіть своє ім'я та прізвище. Якщо не знайдете інформацію про себе, то про однофамільців - точно.
+
 
Помилки пошуку
+
Після обробки запиту користувача за справу береться система видачі результатів. В результаті  аналізу і зіставлення згаданих вище показників, система виявляє степінь відповідності вмісту веб-сторінки умовам запиту. Чим більше ця степінь, тим вище веб-сторінка буде представлена в списку знайдених веб-сторінок.
Для вдалого і швидкого пошуку варто навчитись правильно підбирати пошукові слова. У першу чергу спробуйте вгадати, які слова найчастіше зустрічаються в тій інформації, що шукаєте.
+
 
Інколи варто задуматись чи шукане слово відповідає лише шуканій тематиці. Наприклад учень для пошуку інформації про автомобілі використав слово "Авто". Звичайно окрім шуканих сторінок будуть і сторінки з описом автоматизації чи автоматів...
+
Такий спосіб має очевидний недолік, який полягає в тому, що вміст веб-сторінок може з часом змінитися, а “павук” не буде встигати знаходити і обробляти, отже, результати пошуку будуть неточними. Час, що необхідний пошуковому серверу для  індексації всього Інтернету становить від декількох днів до декількох неділь в залежності від алгоритму обробки інформації, апаратних засобів тощо. Тому сайти, що появилися в Інтернеті недавно, в результатах пошуку представлені не будуть.
Коли задаю студентам знайти сайти університетів, декілька з них пробує шукати сайти за словом "Університети". Цю помилку також варто враховувати, оскільки швидше за все вони отримають сторінки зі списком університетів, а не самі сайти університетів. Потрібно вводити слово "Університет" в однині.
+
 
 +
Розробники пошукових серверів борються з цими різними способами з різним успіхом. Наприклад, більшість сучасних пошукових серверів надають такий сервіс як пошук по новинним стрічкам, які оновляються кожні декілька хвилин, тому вони частіше індексуються пошуковими серверами.
 +
 
 +
Як би там не було, сьогодні не існує кращого способу, ніж попередня індексації веб-сторінок.

Версія за 02:09, 24 грудня 2012

Пошуковий сервер — це достатньо складна програма, точніше комплекс програм, які використовують спеціальні алгоритми аналізу вмісту веб-сайтів в масштабах всього Інтернету

Для організації пошуку в Інтернеті існують спеціалізовані служби, що називаються пошуковими серверами. На практиці — це веб-сайти, де можна набрати в відповідному рядку ключові слова і отримати багато посилань на ресурси з потрібною інформацією. Наприклад, на запит “домашні тварини” пошуковий сервер “Яндекс” видасть більше 14 000 000 посилань на веб-сторінки менш ніж за пів секунди, що містять потрібно інформації. Проте не все так гладко, при відвідувані деяких знайдених веб-сторінок можна побачити, що інформації, яка шукалася не достатньо або і зовсім немає.

Для того, щоб зрозуміти як пошуковий сервер повернув стільки сторінок на введений запит менш ніж за пів секунди, потрібно знати принципи роботи пошукових серверів.

Принципи роботи пошукових серверів Спеціальна програма “Павук” завантажує вміст веб-сайтів. Її завдання передавати вміст веб-сторінок іншій програмі “Мандрівному павуку”. Завдання “Мандрівного павука” — виявлення із завантаженої веб-сторінки посилань на інші веб-сторінки, по яким знову направляється програма “Павук”. Цей цикл повторяється неперервно.

На цьому робота не закінчується. За справу береться програма-індексатор, яка використовує певні правила для аналізу отриманих “павуками” веб-сторінок і формує складну базу даних пошукового сервера. Ця база даних і видає результати пошуку, що проявляються після обробки введеного запиту. Принцип роботи індексатора потрібно описати детальніше, оскільки від нього залежать то, що ввійде в результати пошуку.

В основі роботи більшості сучасних пошукових серверів лежить індекс цитування, який обчислюється індексатором в результаті аналізу посилань на поточну веб-сторінку з інших веб-сторінок Інтернету. Чи їх більше, тим вище індекс цитування веб-сторінки, що аналізується і тим вище ця сторінка буде відображатися в результатах пошуку. Крім цього, враховується індекс цитування веб-сторінок, які посилаються на сторінку, що аналізується індексатором.

Крім індексу цитування враховуються також наступні параметри:

 наявність слів, що шукаються в заголовку веб-сторінки або назві сайту;

 частота повторення слів, що шукаються на сторінці;

 розмір шрифту, яким на сторінці написані слова із пошукового запиту, а також виділення цих слів шрифтами і стилями;

 тематика сайтів, що посилаються та деякі інші.

Після обробки запиту користувача за справу береться система видачі результатів. В результаті аналізу і зіставлення згаданих вище показників, система виявляє степінь відповідності вмісту веб-сторінки умовам запиту. Чим більше ця степінь, тим вище веб-сторінка буде представлена в списку знайдених веб-сторінок.

Такий спосіб має очевидний недолік, який полягає в тому, що вміст веб-сторінок може з часом змінитися, а “павук” не буде встигати знаходити і обробляти, отже, результати пошуку будуть неточними. Час, що необхідний пошуковому серверу для індексації всього Інтернету становить від декількох днів до декількох неділь в залежності від алгоритму обробки інформації, апаратних засобів тощо. Тому сайти, що появилися в Інтернеті недавно, в результатах пошуку представлені не будуть.

Розробники пошукових серверів борються з цими різними способами з різним успіхом. Наприклад, більшість сучасних пошукових серверів надають такий сервіс як пошук по новинним стрічкам, які оновляються кожні декілька хвилин, тому вони частіше індексуються пошуковими серверами.

Як би там не було, сьогодні не існує кращого способу, ніж попередня індексації веб-сторінок.

Особисті інструменти
Простори назв

Варіанти
Дії
Навігація
Інструменти