Роль и значение инновационных технологий в формировании феномена Google | Статьи | Главная

Роль и значение инновационных технологий в формировании феномена Google

(№6 [279] 22.05.2014)

Автор: Дмитрий Брень

Поиск путей организации информационных потоков является одной из актуальных проблем современной медиажурналистики. Тенденция к преображению самой структуры Интернета, способов и средств рапространения, хранения и обмена информации, наметилась еще в середине прошлого десятилетия, сегодня мы можем говорить о значительном объеме преобразований, имеющих место в современной медиасреде, лидером которой, по мнению ряда аналитиков, одним из первых среди которых стал еще в 2005 году американский публицист Тим О’Рейли, является интернациональная корпорация Google[9].

Воплощение главной миссии Google – «организовать всю имеющуюся в мире информацию, сделав её доступной и удобной для использования» – без постоянных технологических инноваций была бы неосуществимой в мире, где количество информации удваивается раз в два года, а количество пользователей, имеющих доступ к сети Интернет, постоянно увеличивается [1]. Поэтому все компоненты Google – от приложений и сервисов до программных компонентов и алгоритмов, лежащих в их основе, – подвергаются постоянным обновлениям. И в случае со многими такими нововведениями Google является первопроходцем, задавая своим примером тенденции для других крупных сервисов, таких, как Facebook, Amazon, Microsoft и другие [2]. Говоря о Google, мы чаще всего подразумеваем самое популярное и самое распространенное детище этой корпорации – Google Search, поисковую систему, уже больше десяти лет держащую первенство на аутентичном рынке. Функционирование данной системы невозможно без целого ряда важных технических и научных нововведений, взаимоинтегрированных и объединенных в сложную систему, многие из которых являются уникальными.

Первым техническим нововведением компании Google можно считать инновационный поисковой алгоритм PageRank (дословно с английского языка это слово может быть переведено как «рейтинг страницы») – разработке Ларри Пейджа и Сергея Брина. Рассмотрим его подробнее.

Известно, что всякая поисковая система состоит из нескольких основных взаимосвязанных компонентов: модуль сканирования, база данных, модуль индексирования, модуль поиска и модуль ранжирования. Модуль сканирования состоит из программ, основным предназначением которых является сканирование страниц на ссылки и занесение их в базу данных поисковой системы. Таких программ (роботов или просто «ботов») три.

Spider, или робот-паук, скачивает ту или иную интернет-страницу в виде кода HTML и выделяет из ее тела все внутренние ссылки. В задачи паука входит также анализ служебной информации о стране. Некоторые пауки обрабатывают не только ссылки, но и так называемые «редиректы» – переадресации с сайта на сайт. Crawler, или путешествующий паук, автоматически переходит по всем этим ссылкам и таким образом формирует базу новых, еще не знакомых поисковой системе компонентов. Наконец, Indexer, или робот-индексатор, анализирует результаты, выданные первыми двумя программами, разбивая файл на составные части – заголовок, тело и т.п., подсчитывает частоту использования тех или иных слов, обращает внимание на стилевые и структурные особенности текста. Результаты работы этот робот заносит в специальный файл-индекс поисковой системы [3]. Страницы, посещенные роботами, хранятся в базе данных поисковой системы, из которой можно легко получить доступ к любой странице для последующего взаимодействия с ней.

Модуль индексирования добавляет в базу данных информацию о той или иной странице – ключевые слова, изображения, ссылки, по которым страница доступна и т.п. Модуль поиска берет своей целью получение и обработку запросов пользователей, для чего обращается к базе данных. И, наконец, модуль ранжирования сортирует страницы по релевантности, то есть, упорядочивает их так, чтобы первыми в результатах поиска оказывались наиболее соответствующие запросам пользователей страницы.

Такая архитектура, привычная для большинства поисковых систем, тем не менее, оставляет нерешенным большое количество проблем, связанных с поиском данных. Во-первых, ранжирование по анализу идентичности текста страницы и текста запроса оставляет лазейку администраторам сайтов, в желании продвинуть свои страницы активно использующих такое понятие, как поисковый спам. При использовании подобного рода махинаций администратор мог запросто поднять рейтинг сайта, заполняя текстовое содержимое ключевыми словами без изменений или просто добавляя в HTML-код страницы наиболее популярные поисковые запросы, хотя никакой информации по ним страница могла и не содержать. Кроме того, отдельным вопросом остается так называемая «глубокая паутина» (англ. Invisible web) – страницы, не индексируемые поисковыми системами. В «глубокую паутину» входят, например, веб-страницы, динамически генерируемые по запросам к онлайн-базам данных[4].

Борьба с «глубокой паутиной» и поисковым спамом – это отдельная проблема, над решением которой специалисты работают уже не первый год. Однако в начале нового века, на заре своего существования, Google предложил в качестве средства борьбы с поисковым спамом и организацией использование так называемого «индекса цитирования» - показателя поисковой системы, вычисляемый на основе числа ссылок на данный ресурс с других ресурсов Интернета. На основе индекса цитирования Google проводит процедуру ссылочного ранжирования найденных страниц, сортируя их по релевантности, т.е. по семантическому соответствию поискового запроса и поискового образа документа. Google был первой поисковой системой, в механизме поиска которой был задействован этот метод [5].

Обновление Caffeine, объявление о завершении работы над которым появилось в официальном блоге Google 9 июня 2010 года, предложило пользователям широкий ассортимент нововведений. Обновление коснулось не только алгоритма поиска, но и всей поисковой системы, которая расширила результаты выдач по запросам за счет добавления в результаты поиска мультимедийных материалов (фотографий и видеофайлов), а также за счет поиска по социальным сетям, таким, как Facebook и Twitter. Введение Caffeine потребовало полной переработки файловой системы Google, существующей без изменений с последнего десятилетия прошлого века: на место старой GFS (Google File System) пришла система GFS2, основным принципом работы которой стала высокая скорость отклика на пользовательский запрос. Ранее этот принцип приносился в жертву обеспечению высокой пропускной способности. Введение Caffeine и обновление файловой системы обусловило существование поисковой системы Google в том виде, в котором она известна сегодня, и сделало возможным внедрение множества новых функций и сервисов [6], описание которых – тема для отдельной статьи.

Последнее масштабное обновление поискового механизма – Google Panda – учитывает впридачу к авторитетности ресурсов, скорости их загрузки и распространенности упоминаний о них в Сети еще и качество размещаемого на них контента. Показатель качества Panda высчитывает с учетом большого количества факторов, среди которых количество оригинального и контента на странице, релевантность размещенной рекламы, соответствие содержания, заголовка страницы и ключевых слов поисковому запросу, качество текста на странице и многое другое[8]. Полный список факторов, влияющих на ранжирование сайтов согласно алгоритму Panda, составляет больше сотни одновременно анализируемых параметров.

Таким образом, следует отметить, что совершенствование и доработка поискового механизма – это неотъемлемая часть политики Google с самого начала существования этой компании. Использование сложных и взаимосвязанных систем, при поисковой выдаче учитывающих большое количество самых разнообразных факторов, и практически полная независимость этих факторов от человеческого влияния делает Google привлекательным для рядового пользователя – совокупность работы множества инноваций в рамках единого поискового алгоритма на выходе дает наиболее релевантный результат.

Еще одно революционное новшество корпорации Google - Google File System (или GFS), уникальная разработка Google, чьей целью является оптимизированное хранение данных на носителях сверхбольшого объема. Разработка GFS была необходимым условием функционирования поисковой системы Google Search – ибо корректная работа алгоритма PageRank требовала создания файловой системы, способной одновременно удерживать и обрабатывать огромные массивы данных. Основными критериями при создании GFS явились:

Обеспечение стабильности хранения и взаимодействия с файлами, расположенными на недорогих машинах. В самом деле – файловые хранилища сверхбольших объемов строятся на основе значительного количества носителей, которые, как правило, являются недорогими, а следовательно, нередко дают сбои, грозящие потерей информации [7].
Высокая производительность при работе как с самыми большими (в сотни гигабайт), так и с самыми маленькими (в несколько килобайт) файлами – причем в больших количествах.
Способность оперативно и без сбоев считывать данные как в виде непрерывного потока, так и в виде отдельных сегментов.
Отсутствие проблем в дозаписи обновленных данных в произвольные участки конкретных файлов.
Адекватная обработка одновременных запросов нескольких пользователей к одному и тому же файлу или его отдельному сегменту. Если дело касается масштабов GFS, счет таких запросов может идти на сотни и тысячи. Решение этой задачи заключается в использовании атомарности операций добавления данных в каждый конкретный файл с обеспечением между этими действиями своеобразной иерархии, при которой запросы на чтение файла, например, будут выполняться после запросов на запись [7].
Высокая пропускная способность, которая является более предпочтительной, чем маленькая задержка.

Архитектура файловой системы Google представляет собой множество серверов, хранящих фрагменты данных (так называемых чанк-серверов – от английского слова “chunk”, что в переводе означает «кусок», «фрагмент»), связанных между собой единым мастер-сервером (или просто мастером), хранящим метаданные: названия файлов, сведения о доступе к ним и об их расположении. Особая роль в функционировании файловой системы Google уделена клиенту – службе, осуществляющей запрос к файлам, хранящимся на чанк-машинах [7]. Следует отметить отдельно факт того, что клиентом в GFS является именно программная служба, а не пользователь – файловая система Google несовместима с операционными системами и используется для автоматизированного взаимодействия между вычислительными системами корпорации – человеческий фактор здесь отсутствует. Взаимодействие между клиентом и чанками происходит напрямую – мастер-сервер в данном случае лишь выполняет роль своеобразного контроллера, перенаправляющего пользователя к необходимому сегменту данных. Кроме того, важной функцией мастер-сервера является хранение и обработка метаданных: помимо названий и адресов файлов, о которых уже было сказано, эти метаданные включают в себя также историю изменений, внесенных в каждый из чанков. По этой истории мастером ведется журнал взаимодействия между пользователем и файловой системой, в результате чего в случае необходимости можно совершить откат на несколько последних действий.

Массивные объемы постоянно изменяющихся данных файловая система Google защищает от сбоев двумя взаимосвязанными способами: через репликацию и быстрое восстановление. Репликация данных проходит автоматически – каждый чанк троекратно копируется на свободные серверы, после чего мастер-сервер может обратиться к ближайшей копии, если оригинал запрашиваемых данных по той или иной причине окажется поврежден. Поиск и восстановление поврежденных кластеров, равно как и вообще любой запрос к информации, хранящейся в файловой системе, осуществляется за небольшое время по команде мастера – эту функцию до недавнего времени брал на себя механизм MapReduce. Этот алгоритм является еще одной инновационной разработкой Google, представляющей собой модель распределенных вычислений над сверхбольшими объемами данных, одним из которых как раз является GFS. Принцип действия MapReduce заключается в большом количестве одновременных процессов: соответственно map – просмотра списка файлов, - и reduce – свертывания этого списка с возвращением мастер-серверу информации о выявленных проблемах [7].

Развитие файловой и поисковой системы Google всегда были взаимосвязаны, и в 2009 году, с выходом поискового алгоритма Caffeine, сервисы Google претерпели значительные изменения, что потребовало обновления GFS. На место старой файловой системы пришла GFS2, получившая кодовое название «Google Colossus». Алгоритм MapReduce был признан устаревшим и вытеснен базой данных BigTable, для использования в связке с которой было разработано обновление Google Colossus. Как уже было сказано выше, основным различием между прежней GFS и ее обновлением было принципиально иное распределение приоритетов: такие приложения, как Gmail или Google Maps, не существовавшие во времена оригинальной GFS, требовали возможности обработки данных в реальном времени, без чего вполне можно было обойтись в те времена, когда файловая система Google обслуживала лишь поисковой механизм.

Таким образом, файловая система Google обеспечивает данным на носителях сверхбольшого объема не только возможность быстрой обработки, но и безопасность хранения. Оптимизированная в 2009 году, GFS стала единой основой для всех сервисов Google, система которых постоянно увеличивается, дорабатывается и дополняется.

Говоря о технологиях, лежащих в основе Google, нельзя обойти стороной относительно недавно появившуюся мобильную сторону этой корпорации – операционную систему Android, контролирующую первую по размерам долю рынка смартфонов и уже давно используемую в своих устройствах такими крупнейшими компаниями, как Samsung, Sony, HTC, LG и многие другие.

Следует отдельно отметить, что Android не является инновационной разработкой Google в полном значении этого понятия. Работу над этой операционной системой и приложениям к ней ведет бизнес-объединение Open Handset Alliance (OHA), включающее в себя 84 крупные корпорации, и Google – главная из них. Android является неотъемлемой частью феномена Google, и детальное рассмотрение этой операционной системы в рамках данной статьи позволит лучше понять, как Google позиционирует себя на рынке мобильных устройств – и что ждет эту корпорацию в будущем.

Подтверждением тезису об открытости Android служит также факт того, что работа над обновлениями этой операционной системы ведется не только (и не столько) Google, но и Open Handset Alliance – объединением 86 корпораций, включающим в себя крупных игроков рынка мобильных устройств (среди них, в частности, HTC и Samsung). Заинтересованность такого большого количества крупных компаний, заинтересованных в развитии и продвижении ОС Android, приводит к тому, что эта система установлена на большинстве современных мобильных устройств – от смартфонов до планшетных компьютеров.

Как и в случае с аналогами в Интернете, приложения сервисов Google на устройствах под управлением Android для своей работы требуют привязки к личному Google-аккаунту пользователя – учетной записи, с помощью которой обеспечивается синхронизация всех личных данных. Благодаря авторизации смартфонов на базе Android эта ОС тоже в каком-то смысле становится частью системы сервисов Google, расширяя функциональность приложений за счет возможности их использования без привязки к стационарному компьютеру.

При этом нельзя не отметить, что практика привязки мобильных устройств к личным учетным записям воплощена не только в смартфонах Android. Ближайшие конкуренты Google на рынке мобильных устройств, Apple и Microsoft, активно используют схожие механизмы для авторизации своих продуктов – это Apple ID и Windows Live ID соответственно. Однако ни Apple, ни Microsoft не обладают столь разветвленной системой веб-сервисов, как та, что предлагает Google – сфера использования их идентификаторов ограничена буквально десятком сервисов на каждую корпорацию, причем среди этих сервисов едва ли можно найти полноценные приложения. Средства аутентификации, используемые в Apple и Microsoft, лишь незначительно расширяют функциональность продуктов и программ этих компаний – и лишь у Google идентификатор является полноценным системообразующим механизмом, без которого невозможно не только взаимодействие большинства сервисов в рамках индивидуальных потребностей владельца аккаунта, но и зачастую вообще их полноценное функционирование.

Итак, операционная система Android завоевала лидирующее положение на рынке мобильных устройств и стала полноценным компонентом феномена Google в мировом информационном пространстве.

Таким образом, подход Google к развитию своих продуктов и продвижению на рынке связан главным образом с наукоемкими алгоритмами, которые никто в такой мере и в таком объеме еще не применял. Многие из технологий, положенных в основу сервисов Google, засекречены, многие – сугубо утилитарны и не представляют интереса для рассмотрения в данной работе. В нашем исследовании мы сделали попытку анализа основных аппаратных и программных инноваций Google, которые были столь революционны и впечатляющи, что в значительной мере изменили законы медиасреды и определили ее дальнейшее развитие.

Литература

Маркелов Р. Количество интернет-пользователей в России увеличилось до 46,5 миллиона человек [Электронный ресурс] // Российская газета: сайт.- URL: http://www.rg.ru/2011/04/25/site-site-anons.html (дата обращения: 15.05.2011)
Если Xerox PARC изобрела PC, то Google изобрел интернет [Электронный ресурс] // Хабрахабр: сайт.- URL: http://habrahabr.ru/post/151190/ (дата обращения 02.06.2013)
Поисковые системы: состав, функции, принцип работы [Электронный ресурс]. - Режим доступа: http://www.seonews.ru/masterclasses/poiskovyie-siste... (дата обращения: 22.05.2013)
Шестаков Д. Структура русскоязычной части глубинного Веба // Интернет-математика 2005. Автоматическая обработка веб-данных. - М., 2005. - С. 320-341.
Проекты, изменившие интернет [Электронный ресурс]. - Режим доступа: http://1webcent.ru/proekty_izmenivshie_internet/ (дата обращения: 13.03.2014)
Д. Брень. Google как система веб-приложений: типологическая характеристика и перспективы развития [Электронный ресурс]. – Режим доступа: http://www.relga.ru/Environ/WebObjects/tgu-www.woa/w...;level1=main&level2=articles (дата обращения: 25.03.2014)
Распределенная файловая система GFS (Google File System) [Электронный ресурс] // Хабрахабр: сайт.- URL: http://habrahabr.ru/post/73673 (дата обращения 02.06.2013)
Новый поисковой алгоритм Google Panda пришел в рунет. Чего ожидать? [Электронный ресурс]. - Режим доступа: http://www.interface.ru/home.asp?artId=26352 (дата обращения: 17.05.2013)
O'Reilly T. What Is Web 2.0 [Электронный ресурс] // O’Reilly Media: сайт.- URL: http://oreilly.com/web2/archive/what-is-web-20.html (дата обращения: 11.05.2011)