Статус
нашего
сайта:
ICQ Secrets Center is Online  ICQ Information Center


ICQ SHOP
     5-значные
     6-значные
     7-значные
     8-значные
     9-значные
     Rippers List
ОПЛАТА
СТАТЬИ
СЕКРЕТЫ
HELP CENTER
OWNED LIST
РОЗЫСК!New!
ICQ РЕЛИЗЫ
Протоколы ICQ
LOL ;-)
Настройка компьютера
Аватарки
Смайлики
СОФТ
     Mail Checkers
     Bruteforces
     ICQTeam Soft
     8thWonder Soft
     Other Progs
     ICQ Patches
     Miranda ICQ
ФорумАрхив!
ВАШ АККАУНТ
ICQ LiveJournal

Реклама

Наш канал:

irc.icqinfo.ru

Таненбаум Э.- Архитектура компьютера. стр.489


Таненбаум Э.- Архитектура компьютера. стр.489

Чтобы лучше понять, почему архитектура Google стала такой, какая она есть, полезно познакомиться с механизмом обработки запроса, пришедшего в один из информационных центров. Прибыв в центр (шаг 1 на рис. 8.36), запрос переправляется выравнивателем нагрузки к одному из многочисленных обработчиков запросов (2), а также, параллельно, в систему проверки правописания (3) и сервер контекстной рекламы (4). Параллельно выполняется поиск запрошенного слова на индексных серверах (5), на которых хранятся записи о каждом слове в Сети.

Таненбаум Э.- Архитектура компьютера.

Рис. 8.36. Обработка запроса в Google

В каждой такой записи перечислены все содержащие это слово документы (это могут быть веб-страницы, PDF-файлы, презентации PowerPoint и т. д.). Ссылки в этих списках расположены в соответствии с рейтингом страницы — параметром, который вычисляется по сложной формуле. Принцип вычисления рейтинга держится в тайне, но известно, что большое значение имеет количество ссылок на страницу и рейтинги ссылающихся на нее страниц.

Для повышения производительности индекс разбит на фрагменты, поиск в которых ведется параллельно. Согласно этой идее, фрагмент 1 содержит все слова из индекса, и каждому слову сопоставлены идентификаторы п первых по рейтингу страниц. Фрагмент 2 содержит все слова и идентификаторы п следующих по рейтингу страниц и т. д. По мере роста Сети, каждый из этих фрагментов можно дополнительно разделить на несколько частей так, что в первой части будут первые k слов, во второй — следующие k и т. д. Это позволяет достигать еще большего параллелизма при поиске.

Индексные серверы возвращают наборы идентификаторов документов (6), которые затем комбинируются в соответствии с логикой запроса. Например:

+digita +kapibara +dance

При таком запросе на следующий шаг попадут идентификаторы только тех документов, которые имеются во всех трех наборах. На этом шаге Google обращается к самим документам (7), извлекая из них названия, ссылки, а также фрагменты текста, окружающие запрошенные слова. Копии многих документов Сети хранятся на серверах документов всех информационных центров, на настоящее время их объем достигает сотен терабайтов. Для ускорения параллельного поиска документы также поделены на фрагменты. В итоге, хотя для обработки запроса не требуется считывать все содержимое Сети (и обрабатывать десятки терабайтов индексов), при обслуживании рядового запроса все же приходится «переворошить» не менее 100 Мбайт данных.

После того как результаты возвращаются обработчику запроса (8), они объединяются в соответствии с рейтингом страниц. Добавляется информация о возможных ошибках правописания, если они обнаружены (9), и контекстная реклама (10). Включение в результаты запроса тех или иных ключевых слов, купленных рекламодателями (например, «гостиница», или «camcoder»), — это то, за счет чего Google зарабатывает деньги. Наконец, результаты оформляются в формате HTML (HyperText Markup Language — язык разметки гипертекста) и передаются пользователю в виде обычной веб-страницы.


⇐ Предыдущая страница| |Следующая страница ⇒

.