Відмінності між версіями «6 Пошукові сервери»
Donserg (Обговорення • внесок) м (Захист на 6 Пошукові сервери встановлено ([edit=sysop] (безстроково) [move=sysop] (безстроково))) |
|||
(Одна проміжна версія одного користувача не показана) | |||
Рядок 1: | Рядок 1: | ||
− | + | Пошуковий сервер — це достатньо складна програма, точніше комплекс програм, які використовують спеціальні алгоритми аналізу вмісту веб-сайтів в масштабах всього Інтернету | |
− | + | Для організації пошуку в Інтернеті існують спеціалізовані служби, що називаються пошуковими серверами. На практиці — це веб-сайти, де можна набрати в відповідному рядку ключові слова і отримати багато посилань на ресурси з потрібною інформацією. Наприклад, на запит “домашні тварини” пошуковий сервер “Яндекс” видасть більше 14 000 000 посилань на веб-сторінки менш ніж за пів секунди, що містять потрібно інформації. Проте не все так гладко, при відвідувані деяких знайдених веб-сторінок можна побачити, що інформації, яка шукалася не достатньо або і зовсім немає.Пошукові сервери постійно досліджують Інтернет з метою поповнення своїх баз даних документів. Зазвичай це не потребує жодних зусиль з боку людини. | |
− | + | ПС складається з трьох основних частин: робота, індекса і обробника запитів. | |
− | Робот | + | Робот (Crawler, Bot, Robot) – це програма, що відкриває web-сторінки, зчитує (індексує) їх вміст і далі слідує за посиланнями, знайденими на цій сторінці. Робот повертається через певні проміжки часу (наприклад, щомісяця) і знову індексує сторінку. Все, що знаходить і зчитує робот потрапляє у індекси ПС. Індекси являють собою величезне сховище інформації, де зберігаються копії текстової складової усіх відвіданих і проіндексованих web-сторінок. |
− | + | Обробник запитів – це програма, яка у відповідності з поданим запитом перебирає індекси ПС в пошуках інформації, що цікавить користувача і видає йому в порядку зменшення релевантності (відповідності запиту) знайдені документи. | |
− | + | Для того, щоб зрозуміти як пошуковий сервер повернув стільки сторінок на введений запит менш ніж за пів секунди, потрібно знати принципи роботи пошукових серверів. | |
− | + | Принципи роботи пошукових серверів Спеціальна програма “Павук” завантажує вміст веб-сайтів. Її завдання передавати вміст веб-сторінок іншій програмі “Мандрівному павуку”. Завдання “Мандрівного павука” — виявлення із завантаженої веб-сторінки посилань на інші веб-сторінки, по яким знову направляється програма “Павук”. Цей цикл повторяється неперервно. | |
− | + | На цьому робота не закінчується. За справу береться програма-індексатор, яка використовує певні правила для аналізу отриманих “павуками” веб-сторінок і формує складну базу даних пошукового сервера. Ця база даних і видає результати пошуку, що проявляються після обробки введеного запиту. Принцип роботи індексатора потрібно описати детальніше, оскільки від нього залежать то, що ввійде в результати пошуку. | |
− | + | В основі роботи більшості сучасних пошукових серверів лежить індекс цитування, який обчислюється індексатором в результаті аналізу посилань на поточну веб-сторінку з інших веб-сторінок Інтернету. Чи їх більше, тим вище індекс цитування веб-сторінки, що аналізується і тим вище ця сторінка буде відображатися в результатах пошуку. Крім цього, враховується індекс цитування веб-сторінок, які посилаються на сторінку, що аналізується індексатором. | |
− | + | Крім індексу цитування враховуються також наступні параметри: | |
− | + | *наявність слів, що шукаються в заголовку веб-сторінки або назві сайту; | |
− | + | *частота повторення слів, що шукаються на сторінці; | |
− | + | *розмір шрифту, яким на сторінці написані слова із пошукового запиту, а також виділення цих слів шрифтами і стилями; | |
− | + | *тематика сайтів, що посилаються та деякі інші. | |
− | + | Після обробки запиту користувача за справу береться система видачі результатів. В результаті аналізу і зіставлення згаданих вище показників, система виявляє степінь відповідності вмісту веб-сторінки умовам запиту. Чим більше ця степінь, тим вище веб-сторінка буде представлена в списку знайдених веб-сторінок. | |
− | + | Такий спосіб має очевидний недолік, який полягає в тому, що вміст веб-сторінок може з часом змінитися, а “павук” не буде встигати знаходити і обробляти, отже, результати пошуку будуть неточними. Час, що необхідний пошуковому серверу для індексації всього Інтернету становить від декількох днів до декількох неділь в залежності від алгоритму обробки інформації, апаратних засобів тощо. Тому сайти, що появилися в Інтернеті недавно, в результатах пошуку представлені не будуть. | |
− | В | + | Розробники пошукових серверів борються з цими різними способами з різним успіхом. Наприклад, більшість сучасних пошукових серверів надають такий сервіс як пошук по новинним стрічкам, які оновляються кожні декілька хвилин, тому вони частіше індексуються пошуковими серверами. |
− | + | ||
− | + | ||
− | + | ||
− | + | ||
− | + | ||
− | + | ||
− | + | ||
− | + | ||
− | + | ||
− | + |
Поточна версія на 13:32, 26 червня 2013
Пошуковий сервер — це достатньо складна програма, точніше комплекс програм, які використовують спеціальні алгоритми аналізу вмісту веб-сайтів в масштабах всього Інтернету Для організації пошуку в Інтернеті існують спеціалізовані служби, що називаються пошуковими серверами. На практиці — це веб-сайти, де можна набрати в відповідному рядку ключові слова і отримати багато посилань на ресурси з потрібною інформацією. Наприклад, на запит “домашні тварини” пошуковий сервер “Яндекс” видасть більше 14 000 000 посилань на веб-сторінки менш ніж за пів секунди, що містять потрібно інформації. Проте не все так гладко, при відвідувані деяких знайдених веб-сторінок можна побачити, що інформації, яка шукалася не достатньо або і зовсім немає.Пошукові сервери постійно досліджують Інтернет з метою поповнення своїх баз даних документів. Зазвичай це не потребує жодних зусиль з боку людини. ПС складається з трьох основних частин: робота, індекса і обробника запитів. Робот (Crawler, Bot, Robot) – це програма, що відкриває web-сторінки, зчитує (індексує) їх вміст і далі слідує за посиланнями, знайденими на цій сторінці. Робот повертається через певні проміжки часу (наприклад, щомісяця) і знову індексує сторінку. Все, що знаходить і зчитує робот потрапляє у індекси ПС. Індекси являють собою величезне сховище інформації, де зберігаються копії текстової складової усіх відвіданих і проіндексованих web-сторінок. Обробник запитів – це програма, яка у відповідності з поданим запитом перебирає індекси ПС в пошуках інформації, що цікавить користувача і видає йому в порядку зменшення релевантності (відповідності запиту) знайдені документи. Для того, щоб зрозуміти як пошуковий сервер повернув стільки сторінок на введений запит менш ніж за пів секунди, потрібно знати принципи роботи пошукових серверів. Принципи роботи пошукових серверів Спеціальна програма “Павук” завантажує вміст веб-сайтів. Її завдання передавати вміст веб-сторінок іншій програмі “Мандрівному павуку”. Завдання “Мандрівного павука” — виявлення із завантаженої веб-сторінки посилань на інші веб-сторінки, по яким знову направляється програма “Павук”. Цей цикл повторяється неперервно. На цьому робота не закінчується. За справу береться програма-індексатор, яка використовує певні правила для аналізу отриманих “павуками” веб-сторінок і формує складну базу даних пошукового сервера. Ця база даних і видає результати пошуку, що проявляються після обробки введеного запиту. Принцип роботи індексатора потрібно описати детальніше, оскільки від нього залежать то, що ввійде в результати пошуку. В основі роботи більшості сучасних пошукових серверів лежить індекс цитування, який обчислюється індексатором в результаті аналізу посилань на поточну веб-сторінку з інших веб-сторінок Інтернету. Чи їх більше, тим вище індекс цитування веб-сторінки, що аналізується і тим вище ця сторінка буде відображатися в результатах пошуку. Крім цього, враховується індекс цитування веб-сторінок, які посилаються на сторінку, що аналізується індексатором. Крім індексу цитування враховуються також наступні параметри:
- наявність слів, що шукаються в заголовку веб-сторінки або назві сайту;
- частота повторення слів, що шукаються на сторінці;
- розмір шрифту, яким на сторінці написані слова із пошукового запиту, а також виділення цих слів шрифтами і стилями;
- тематика сайтів, що посилаються та деякі інші.
Після обробки запиту користувача за справу береться система видачі результатів. В результаті аналізу і зіставлення згаданих вище показників, система виявляє степінь відповідності вмісту веб-сторінки умовам запиту. Чим більше ця степінь, тим вище веб-сторінка буде представлена в списку знайдених веб-сторінок. Такий спосіб має очевидний недолік, який полягає в тому, що вміст веб-сторінок може з часом змінитися, а “павук” не буде встигати знаходити і обробляти, отже, результати пошуку будуть неточними. Час, що необхідний пошуковому серверу для індексації всього Інтернету становить від декількох днів до декількох неділь в залежності від алгоритму обробки інформації, апаратних засобів тощо. Тому сайти, що появилися в Інтернеті недавно, в результатах пошуку представлені не будуть. Розробники пошукових серверів борються з цими різними способами з різним успіхом. Наприклад, більшість сучасних пошукових серверів надають такий сервіс як пошук по новинним стрічкам, які оновляються кожні декілька хвилин, тому вони частіше індексуються пошуковими серверами.