Техническая библиотека CITForum.ru CITKIT.ru - все об Open Source Форумы Курилка
Все новости / Все статьи Деловая газета - шквал(!) IT-новостей :: CITCITY.RU
Первая полоса ИТ-Инфраструктура Телекоммуникации Безопасность BI Интеграционные платформы КИС IT-бизнес Ширпотреб Точка зрения

24.03.2017

Новости:


Все новости

Business Intelligence, IT-бизнес, Точка зрения

Облака спускаются на землю

23-24 апреля 2009 г. уже в четырнадцатый раз была проведена конференция «Корпоративные базы данных». Традиционно она проходила в новом здании Президиума РАН на Ленинском процессе. Конференция организовывалась компанией CitForum и Институтом системного программирования РАН при поддержке Российского фонда фундаментальных исследований (грант № 09-07-06018) и партнерстве компаний InterSystems и РЕЛЭКС.

При формировании программы задумывалось, что в 2009 г. основными темами конференции будут серверные платформы управления данными, бизнес-аналитика и управление данными в облачной инфраструктуре (clouds computing).

Базовые средства (и облака)

Алексей ШуленинПоначалу казалось, что потенциальные российские докладчики пока не очень готовы к обсуждению «облачной» темы, однако, к счастью, это ощущение было ошибочным, и это выяснилось на первом же докладе Алексея Шуленина (Microsoft) «Microsoft SQL Data Services».

SQL Data Services является одним из основных компонентов «облачной» платформы Microsoft Azure, которая опирается на адаптированном к clouds варианте Windows 7 – Windows Azure и включает, помимо SQL Data Services, службы Live Services, .NET Services, Microsoft Dynamic CRM Services и Microsoft SharePoint Services. Служба SQL Data Services (SDS) в настоящее время базируется на Microsoft SQL Server 2008 и опирается на возможности самооптимизации, самонастройки, самоизлечения этой системы, на ее способность к построению и использованию параллельных баз данных на основе кластеров.

Доклад Алексея Шуленина, главным образом, был посвящен средствам разработки облачных приложений с использованием SQL Data Services (SDS SDK). До последнего времени доступ к SQL Data Services можно было производить на основе протоколов REST и SOAP, и об этом говорилось в большей части доклада. Однако на конференции MIX’09 в марте 2009 г. было объявлено, что SDS будут поддерживать произвольный доступ к SDS по обычному протоколу TDS. В последней части доклада обсуждались открывающиеся в связи с этим возможности.

Получилось так, что темы доклада А. Шуленина были продолжены в докладе представителей компании Google 24 апреля. Однако в этой заметке я хочу рассказать о конференции в порядке хронологии, и поэтому вернусь к облакам позже. Вслед на Шулениным выступил Сергей Данилов (Oracle), доклад которого назывался «Обзор Oracle Exadata and Database Machine».

Сергей ДаниловПри работе со сверхбольшими (объемнее десятков терабайт) хранилищами данных узким местом архитектуры RAC (Real Application Cluster) компании Oracle становится подсеть, связывающая устройства хранения данных с узлами кластера. Особенно часто это проявляется при последовательном просмотре огромных таблиц, а эта операция часто встречается в планах выполнения запросов к хранилищам данных. Идея Oracle Database Machine вполне традиционна и заключается в том, чтобы обеспечить возможность фильтрации и проецирования сканируемых таблиц до их передачи в узлы кластера.

Это обеспечивается за счет совместной разработки компаний Oracle и Hewlett Packard HP Oracle Exadata Storage Server, образующих Data Grid, в котором и размещаются разделенные базы данных Oracle. Ячейка Exadata Storage Server с аппаратной точки зрения представляет собой обычный двухъядерный процессор с SAS- или SATA-дисковыми устройствами. В каждой ячейке устанавливается урезанный вариант СУБД Oracle Database 11g, предназначенный только для последовательного просмотра таблиц с проецированием и фильтрацией. В результате в узлы кластера передаются только те данные, которые требуются для выполнения запроса. Утверждается, что применение Exadata Storage Server (и технологии InfiniBand для передачи данных в узлы кластера) позволяет поднять эффективность выполнения запросов более чем в 70 раз.

Сергей ЛихаревСледующим на конференции выступал Сергей Лихарев (IBM), представивший доклад «Семейство СУБД IBM: обзор возможностей». Свой доклад Сергей начал с представления текущей иерархии программных средств управления информацией, обеспечиваемых IBM. Основой иерархии являются системы управления данными и контентом. Над ними базируются средства интеграции информации, управления хранилищами данных и нормативно-справочной информацией. Верхушку айсберга образуют средства интеллектуального анализа данных, финансового анализа и управления эффективностью бизнеса. В своем первом докладе (второй доклад был представлен 24-го апреля) Сергей Лихарев остановился на базовых средствах управления данными.

В IBM настоящее время поддерживаются и развиваются пять разных семейств СУБД: DB2, Informix, IMS, solidDB и U2. Полагая, что первые три названия давно известны читателям, скажу лишь, что solidDB – это система управления базами данных в основной памяти, ставшая продуктом IBM после поглощения ей в 2007 г. компании Solid Information Technology, а семейство U2 включает системы UniVerse и UniData, основанные на Pick-технологии и перешедшие к IBM после покупки в 2001 г. компании Informix, которая, в свою очередь, приобрела их вместе с компанией Ardent Software в 2000 г. (более древней истории этих систем касаться не буду).

Сергей Лихарев, естественно, больше говорил о флагманском продукте управления данными компании IBM – DB2. Компания IBM недавно объявила в выпуске следующей версии DB2 с кодовым названием Corba. Однако пока сотрудникам IBM запрещено публично рассказывать о технических деталях этой версии. Поэтому Лихарев ограничился общими характеристиками:

  • настройка и конфигурирование системы с минимальным участием администратора;
  • применение усовершенствованных методов сжатия данных;
  • полная поддержка XML, включая аналитические запросы;
  • поддержка дополнительных моделей транзакций;
  • обеспечение возможностей слабой типизации данных.

Что касается СУБД Informix, то наиболее важным является то, что IBM взяла курс на полномасштабное самостоятельное развитие этого продукта (сразу после приобретения Informix предполагалось постепенное слияние этой системы с DB2). Главным приоритетом в развитии Informix является надежность и готовность системы. Кроме того, для достижения максимальной эффективности при работе с данными предполагается использование solidDB для организации кэширования в основной памяти баз данных, поддерживаемых на дисках СУБД Informix.

В заключение своего доклада Сергей Лихарев кратко рассказал о возможностях интеграции данных, обеспечиваемых системой Optim.

Олег ОленинС докладом «InterSystems Cache. Промышленная СУБД для Web 2.0» выступил сотрудник компании InterSystems Олег Оленин. Фактически, его доклад сводился к демонстрации удобств использования Cache для разработки Web-приложений нового поколения, для которых, по мнению InterSystems, не хватает возможностей традиционных SQL-ориентированных СУБД. Докладчик постоянно подчеркивал, что он говорит с позиции разработчика приложений, и отмечал в качество одного из основных преимуществ Cache то, что эта система сочетает возможности сервера баз данных и сервера приложений.

Интересным заявлением Оленина было то, что InterSystems в обозримом будущем планирует выпустить на основе Cache специальный продукт для поддержки персистентных Java-объектов, который будет являться самой быстрой в мире Java-ориентированной ООСУБД. Кроме того, в докладе делался большой упор на применение Cache в области медицины, что, по-видимому, объясняется как традиционными преференциями InterSystems, так и ее недавним приобретением дополнительного медицинского программного обеспечения.

После долгого перерыва в этом году на конференции была представлена компания Sybase. С докладами о продуктах этой компании в оба дня работы конференции выступал Андрей Хромов. Его доклад 23-го апреля назывался «Sybase ASE 15. Решения для управления данными». В первой части доклада Андрей рассказал про историю компании Sybase и ее продуктов управления базами данных, подчеркивая наличие устойчивой и лояльной клиентской базы этой компании.

Вторая часть выступления посвящалась новым возможностям самого свежего релиза основного продукта компании – ASE 15. Здесь, прежде всего, отмечались возможности поддержки сверхбольших баз данных за счет применения технологии разделения горизонтального данных (partitioning). За счет применения методов шифрования повышена безопасность баз данных. Наибольшей эффективности при работе с данными можно достичь путем применения кластерного решения – ASE 15 Cluster Edition, которое, судя по докладу, архитектурно напоминает Oracle Real Application Cluster. В заключение доклада Андрей Хромов привел несколько примеров типовых схем решений на основе ASE.

Доклад Александра Мухина (РЕЛЭКС) «Новые средства СУБД ЛИНТЕР» был полностью посвящен одному аспекту – средствам полнотекстового поиска в СУБД ЛИНТЕР. Подсистема полнотекстового поиска в СУБД ЛИНТЕР существует уже почти 10 лет. В последнее время в ней появились новые возможности, и за счет оптимизации повышена скорость поиска.

В системе организован специальный пул для работы с полнотекстовыми индексами. При запуске ядра можно указать объём памяти, доступный для подсистемы полнотекстового поиска. При желании его можно установить равным нулю, при этом возможности индексации и поиска будут временно отключены. Появилась возможность отката к предыдущему состоянию индекса в случае сбоя в процессе перестройки. В новой версии поддерживается большее число форматов документов, появилась возможность автоматического определения кодировки текста.

Поддерживается механизм мандатной защиты. Каждый документ (ячейка таблицы) может иметь свой собственный уровень доступа. Документы, выдаваемые в результате полнотекстового поиска, проверяются на соответствие привилегиям пользователя, подавшего запрос. В результате исключается возможность косвенного раскрытия содержимого конфиденциальных документов при помощи запросов полнотекстового поиска.

Значительные усилия были направлены на увеличение скорости индексации и поиска. В результате профилирования были выявлены узкие места, итогом устранения которых явилось многократное увеличение скорости работы. С целью увеличения числа параллельно обрабатываемых запросов работа с диском теперь производится асинхронно, в неблокирующем режиме.

Последние три доклада первого дня работы конференции посвящались СУБД с открытыми исходными текстами. Доклад «MySQL: состояние и перспективы» представил Виталий Титов (Sun Microsystems). Этот доклад оставил двойственное впечатление. С одной стороны, Виталий достаточно уверенно говорил о текущих достижениях MySQL (в частности, о существенном продвижении в оценочной оптимизации запросов), о непрерывно возрастающей популярности MySQL среди разработчиков приложений, о планах на будущее (в частности, о планах создания варианта системы, который можно эффективно использовать в «облачной» инфраструктуре). И все это звучало убедительно и оптимистически.

С другой стороны, и докладчик, и слушатели понимали, что после поглощения компании Sun Microsystems компанией Oracle ситуация вокруг MySQL является пока не слишком определенной, и планы развития системы могут решительно измениться. Например, насколько мне известно, Oracle в настоящее время очень прохладно относится к самой идее систем управления данными, работающих в среде clouds. И это понятно, поскольку архитектура RAC просто так в облака не переносится. Захочет ли компания изменять свою тактику (или стратегию?) ради MySQL, совершенно непонятно.

Возможно, еще более важным для MySQL является InnoDB, транзакционное ядро системы, от зависимости от которого компания MySQL на протяжении нескольких лет пыталась освободиться. Но теперь и InnoDB, и MySQL принадлежат Oracle. Вроде бы напрашивается очевидное решение вернуться к прошлому. Но будет ли так? В общем, подождем следующей конференции, на которой, будем надеяться, нам удастся найти ответы на эти и другие вопросы.

С докладом «Firebird сегодня: версия 2.5 и вектор дальнейшего развития» выступил Дмитрий Еманов, лидер Firebird Project и, по всей видимости, наиболее авторитетный эксперт по отношению к этой системе. В его докладе говорилось о наиболее важных новшествах в последнем стабильном релизе системы 2.1, о назначении и особенностях промежуточного релиза 2.5, находящегося в настоящее время в состоянии бета-версии, и об ожидаемых возможностях релиза 3.0, выход бета-версии которого предполагается в конце 2009 г.

В релизе 2.1 мне наиболее интересной показалась поддержка рекурсивных запросов в соответствии со стандартом SQL:2003. По утверждению докладчика, средства рекурсивных запросов были включены в систему по требованию пользователей. Кроме того, в системе обеспечивается механизм триггеров уровня базы данных, поддерживаются глобальные временные таблицы, реализован оператор MERGE и новые разновидности операторов соединения.

Релизе 2.5 является переходным от 2.1 к 3.0. В частности, в нем изменена архитектура системы для улучшенной поддержки многоядерных аппаратных средств. Среди наиболее заметных функциональных новшеств полная поддержка предиката SIMILAR TO для текстового поиска по шаблонам, задаваемым регулярными выражениями, а также реализация расширенных средств динамического SQL, включающих запросы к удаленным базам данных.

В релизе 3.0 будет окончательно введена новая внешняя и внутренняя архитектура системы. Будет поддерживаться возможность внешней реализации хранимых процедур, функций и триггеров, появится механизм триггеров для операций определения схемы базы данных, будет реализован ряд аналитических функций и т.д. В планах на будущее поддержка механизма разделения баз данных, реализация полнотекстового поиска, обеспечение кластерных решений.

От имени сообщества PostgreSQL в этом году выступал Федор Сигаев с докладом «Новости в мире PostgreSQL». Основная часть доклада посвящалась возможностям релиза системы 8.4. Наиболее важна поддержка:

  • аналитических функций (суммирование в подвыборке, накопительное суммирование);
  • рекурсивных запросов;
  • привилегий доступа на уровне столбцов таблиц;
  • отслеживания статистики вызовов функций.

Кроме того, в релизе 8.4 поддерживаются возможность определения значений параметров функций по умолчанию, функции с переменным числом параметров. За счет реализации механизма антисоединений существенно повышена производительность запросов с предикатами EXISTS/NOT EXIST. И т.д.

Во второй части доклала Федор рассказал о существующих специальных версиях PostgreSQL, об отдельных проектах, основанных на использовании PostgreSQL, и о пакетах расширений системы.

Аналитика (и облака)

Второй день работы конференции снова начался с доклада Алексея Шуленина «SQL Server Reporting Services: новые возможности эффективного (и эффектного) отображения данных». Свой доклад Алексей начал с истории, общей архитектуры и компонентного состава службы SQL Server Reporting Services (SSRS), входящей по умолчанию во все основные редакции SQL Server. Затем он сконцентрировался на основных новых возможностях SSRS 2008:

  • архитектура – отсутствие потребности в IIS, собственная служба аутентификации, собственная журнализация HTTP-запросов и т.д.;
  • средства разработки отчетов – применение шаблонов Report Designer в Visual Studio, поддержка Report Builder 2.0;
  • средства визуализации отчетов на основе технологии компании Dundas Data Visualization, поглощенной компанией Microsoft в 2007 г.;
  • новые типы графиков и т.д.

В заключение Алексей рассказал о возможностях, которые ожидаются в следующих версиях продукта:

  • полноценный экспорт графиков их Excel;
  • разработка отчетов непосредственно в средах Word и Excel;
  • подписка по условию;
  • карты в отчетах и т.д.

Следующий доклад – «Технологическая платформа IBM для создания аналитических хранилищ данных» – представил Сергей Лихарев. В этом докладе говорилось про средний уровень иерархии программных средств IBM, предназначенных для управления информацией, а более конкретно, про семейство продуктов IBM InfoSphere Warehouse 9.5, в центре которого находится DB2.

DB2 позволяет создавать высокоэффективные и масштабируемые хранилища данных за счет наличия развитого оптимизатора запросов, максимально распараллеливающего их выполнение, и поддержки массивно-параллельной архитектуры без совместного использования ресурсов. Наличие в составе InfoSphere Warehouse службы Cubing Services обеспечивает возможность работы над хранилищами данных аналитических приложений без потребности в копировании данных.

Средства Data и Next Mining встроены в сервер баз данных DB2. По утверждению докладчика, в этом состоит принципиальная позиция IBM – средства массовой обработки данных должны быть максимально приближены к месту хранения данных. Однако лично для меня осталось непонятно, каким образом DB2 ухитряется эффективно делить ограниченные ресурсы сервера баз данных между средствами выполнения запросов и механизмами интеллектуального анализа данных и текста, которые, как известно, очень требовательны к вычислительной мощности и основной памяти.

Сергей Лихарев также кратко остановился на средствах управления эффективностью бизнеса и других возможностях InfoSphere Warehouse.

С докладом «Многомерный анализ данных на основе Oracle Essbase» выступил Андрей Сахаров (Oracle). Многомерная СУБД Essbase стала собственностью Oracle после поглощения компании Hiperion в 2007 г. В свою очередь, в ведение Hiperion эта система перешла в 1998 г. после поглощения этой компанией компании Arbor Software, исходного разработчика Essbase.

В докладе рассказывалось о месте Essbase в составе семейства средств BI компании Oracle, об общей архитектуре системы, о ее основных возможностях. Кратко обсуждались варианты хранения данных: Block Storage Option, Aggregate Storage Option и XOLAP – eXtending OLAP on Relational Database. Отмечались возможности использования Essbase в режиме, близком к реальному времени, работа с изменяющимися атрибутами, средства поддержки жизненного аналитических данных.

Доклад «InterSystems DeepSee: Embedded Real-Time Business Intelligence» представил Сергей Кудинов (InterSystems). Про DeepSee докладчики из InterSystems немного говорили еще на прошлогодней конференции, когда этот продукт только появился в составе программного обеспечения компании. За прошедший год DeepSee успешно внедрен в ряде ответственных приложений (насколько я понял, главным образом, в области медицины).

DeepSee – это средство построения анализа данных, встраиваемое в приложения. Аналитика ведется над данными, поступающими из оперативных баз данных (в основном, баз данных Cache, хотя возможно использование и других источников). Как отмечал докладчик, это не означает полное отсутствие очистки и согласование данных. Некоторый аналог процедуры ETL обеспечивается на основе использования ограничений целостности.

В составе DeepSee имеются четыре основных компонента:

  • Architect, обеспечивающий средства определения аналитических моделей данных;
  • Analyzer, поддерживающий доступ к данным, их агрегацию, детализацию и т.д.;
  • Designer, предоставляющий возможности создания специализированных интерфейсов с конечными пользователями и
  • Connector, поддерживающий доступ к внешним источникам данных.

В следующем докладе «Sybase IQ 15: уникальные возможности для вашего BI» Андрей Хромов в основном рассказывал о преимуществах использования продукта IQ для организации хранилищ данных. В общем-то, для читателей, интересующихся архитектурами табличных СУБД с поколоночным хранением данных, эти преимущества должны быть сравнительно очевидны:

  • в хранилищах данных обычно сохраняются таблицы с очень большим числом столбцов, а в запросах, как правило, выбирается лишь малая их часть; при поколоночном хранении с диска считываются только полезные данные;
  • гораздо дешевле, чем в базах данных с хранением по строкам, вычисляются агрегатные функции;
  • при хранении данных по столбцам применимы эффективные методы сжатия данных, позволяющие значительно сократить объем хранилища данных.

Как утверждал Андрей Хромов, особым достоинством Sybase IQ является применение запантентованной компанией технологии индексации данных, которая обеспечивает дополнительную эффективность хранилищ данных. Однако выяснить, какими особыми качествами обладают применяемые побитовые индексы, мне пока не удалось. Конкретно о IQ 15 в докладе почти не говорилось. Докладчик лишь показал пару слайдов с перечнем новых возможностей системы.

Первый раз за многолетнюю историю нашей конференции в ее работе приняли участие докладчики из компании Google. С докладом «App Engine: Cloud Computing платформа от Google» выступили Михаил Дайчик и Петр Чардин.

Первую часть доклада делал Дайчик. Он начал с того, что в настоящее время отсутствует точное и одинаково всеми понимаемое определение «облачных» вычислений и привел собственное определение, основанное на концепциях software as a service, infrastructure as a service и platform as a service. Затем он кратко описал состояние дел в области программного обеспечения облачной инфраструктуры, рассказал о причинах, по которым компаниям, подобным Google, требуется такая инфраструктура и охарактеризовал платформу cloud computing компании Google:

  • платформа предоставляет динамический веб-сервер с поддержкой многих распространенных веб-технологий;
  • обеспечивается автоматическая масштабируемость и балансировка нагрузки;
  • для хранения данных используется технология BigTable;
  • поддерживается API для интеграции приложений с учетными записями Google.

Во второй части доклада Петр Чардин рассказал о средствах разработки облачных приложений в инфрастуктуре Google и привел пример разработки простого приложения.

Михаил Петровский из лаборатории технологий программирования ф-та ВМиК МГУ представил доклад «Методы интеллектуального анализа данных и некоторые их приложения». В начале доклада он охарактеризовал в целом область интеллектуального анализа данных (data mining), описал типичный процесс анализа данных, описал типичные задачи, в которых используются методы data mining.

Затем он описал несколько проектов разработки приложений интеллектуального анализа данных, выполнявшихся и выполняемых в лаборатории:

  • в области безопасности:
    • обнаружение внешних и внутренних вторжений;
    • моделирование и анализ поведения пользователей;
  • в области электронного документооборота:
    • анализ и фильтрация электронной почты и Web-трафика;
    • рубрикация и аннотирование электронных документов;
  • в области управления технологическими процессами и производством:
    • выявление нештатных ситуаций;
    • прогнозирование качества продукции;
  • в области поддержки принятия решений:
    • поддержка деятельности ситуационных центров.

С докладом «BI в облаках» выступил Юрий Кудрявцев (ф-т ВМиК МГУ). Этот доклад частично основывался на статье Будущее BI в облаках, опубликованной автором в середине прошлого года. За прошедшее время многое изменилось. Автор рассказал о трех тенденциях, свойственных, по его мнению, развитию аналитики на основе инфраструктуры clouds: предоставление аналитики как сервиса; использование «облаков» как платформы для масштабирования хранилищ данных и противопоставление алгоритмов map/reduce и масштабируемых хранилищ данных при решении аналитических задач. Кроме того, докладчик кратко описал свою собственную работу по созданию системы построения аналитических кубов на основе map/reduce.

Сергей КузнецовНаконец, последним на конференции с докладом «Проблемы исследований и разработок в области управления данными» выступил ваш покорный слуга. Доклад основывался на материалах Клермонтского отчета об исследованиях в области баз данных и сопровождался многочисленными отступлениями, аналогиями и ассоциациями, что делает для меня невозможным его пересказ (трудно пересказать собственную импровизацию). Презентация доклада имеется в материалах конференции.

С моей точки зрения, конференция в этом году получилась очень интересной. Большинство докладов очень удалось, слушатели были активны, задавали много вопросов (и почти всегда по делу). Надеюсь, что пятнадцатая конференция «Корпоративные базы данных», которая состоится в 2010 г., получится не хуже.



CitCity

Комментарии

Ну и?, Thu Sep 3 19:13:07 2009:
Ну и? А где "облака" то? Много шума, а толком про Cloud computing буквально пару слов и фсе..
Олег Оленин, Fri May 8 12:07:15 2009:
Сергею - много чего разрабатывается, как я и говорил, это явный тренд сейчас - создание СУБД или виртуальных так скажем СУБД, которые используют нереляционные подходы. Если интересно, напишите мне.
Super, Wed Apr 29 21:04:41 2009:
Сергей Кузнецов:
разработка систем, опирающихся на не реляционные модели данных, вместо того, чтобы «впихивать» эти данные в таблицы;

И что у нас кроме Cache в этом плане разрабатывается?
Речка Бо, Wed Apr 29 19:39:08 2009:
Дай Бог, что 15 конференция действительно состоялась. Мы год назад тоже были полны оптимизма по поводу "тяжелой" (больше $10.000) электронной коммерции. А потом вышел указ Правительства...

Комментарии заморожены.

Последние комментарии:

Самое интересное:


© 2004–2009 Проект CITCITY.ru