Техническая библиотека CITForum.ru CITKIT.ru - все об Open Source Форумы Курилка
Все новости / Все статьи Деловая газета - шквал(!) IT-новостей :: CITCITY.RU
Первая полоса ИТ-Инфраструктура Телекоммуникации Безопасность BI Интеграционные платформы КИС IT-бизнес Ширпотреб Точка зрения

16.12.2018

Новости:


Все новости

Точка зрения

Дэвид Девитт высказывается о переосмыслении учебного плана в области компьютерной науки, о том, почему сообществу баз данных следует гордиться, почему не работает оптимизация запросов, как временами плохо тратятся деньги, предназначенные для развития суперкомпьютинга, как так получилось, что он не является хорошим кодировщиком и недостаточно умен для занятий теорией баз данных, и о многом другом

Дэвид Девитт является одним из крупнейших представителей сообщества баз данных. Ему принадлежат пионерские работы в области эталонного тестирования производительности систем баз данных и параллельных СУБД. Школа Девитта в Висконсинском университете является одной из наиболее престижных во всем мире. Предлагаю вашему вниманию перевод интервью Дэвида, данного Мэрианн Винслетт для журнала ACM SIGMOD Record.

Сергей Кузнецов

Меня зовут Мэрианн Винслетт, и я приглашаю вас в этот выпуск серии интервью ACM SIGMOD Record с выдающими членами сообщества баз данных. Сегодня наш гость Дэвид Девитт, Моргриджевский профессор (John P. Morgridge Professor) и заведующий кафедрой компьютерных наук в Винконсинском университите в Мэдисоне. Он является членом Национальной академии инженерии (National Academy of Engineering) и почетным членом ACM; в этом году он является председателем локального организационного комитета конференции SIGMOD/PODS. Известность ему принесли работы в области оценки производительности и параллельных баз данных. Итак, добро пожаловать, Девитт!

Я хотела бы начать с нескольких вопросов о жизни в академических организациях. Вы сделали карьеру в области, тесно связанной с индустрией, в месте, где отсутствует какая-либо индустрия баз данных. Посоветовали ли бы Вы молодым исследователям в области баз данных быть поближе к индустрии, или это не имеет значения?

Я не думаю, что это так уж существенно. Я думаю, что главное – это найти организацию, которая поддерживает вас и готова пойти на образование новой группы. Я думаю, что сильную группу можно создать в любом университете, который поддерживает такие начинания. Мне кажется, что здесь в Висконсине мы показали, что можно достаточно эффективно заниматься базами данных в средней части страны. Есть и другие сильные группы в местах, не расположенных на восточном или западном побережье.

Если говорить об организации группы, специализирующейся в области баз данных, то в большинстве академических подразделений имеется один или два человека, выполняющих исследования в области баз данных, но в Висконсине на протяжении многих лет такого рода исследования выполняются более чем пятью людьми. Происходят ли какие-нибудь качественные изменения при возрастании числа людей, или меняется только количество?

Я думаю, в этой области наличие в группе четырех или пяти членов профессорско-преподавательского состава является определенным преимуществом. На кафедре в Висконсине мы стараемся организовывать все группы из четырех-пяти преподавателей. Я думаю, двух человек в группе недостаточно, потому что время от времени они не хотят работать вместе, хотя, конечно, иногда они делают это с удовольствием. Но когда нас на кафедре компьютерных наук в Висконсине пятеро – Майк Кэри (Mike Carey), Джефф Нотон (Jeff Naughton), я, Раджу Рамакришнан (Raghu Ramakrishnan), Янис Ионнидис (Yannis Ionnides) плюс Мирон Ливни (Miron Livny) (а до всех них в Висконсине работал Тони Клуг (Tony Klug)) – , в совместной работе возможны различные перестановки. Так что хорошо иметь в группе пятерых преподавателей, намного лучше, чем двух. Я думаю, что разница здесь не только количественная, но и качественная.

Вы руководите в академии крупными софтверными проектами, что не совсем обычно: много денег, много людей. Как Вы разделяете усилия при выполнении такого рода работы на те, которые требуются для написания статей, и на те, которые нужны для производства программного обеспечения?

Я думаю, что это разделение труда между написанием статей и созданием программного обеспечения происходит чисто случайным образом. Я вспоминаю два свои последние проекта: Paradise и Niagara. Проект Paradise – если посмотреть на число посвященных ему статей – был совсем негодным. Мы создали отличное программное обеспечение, потратили на это много времени; в отдельные промежутки времени на проект работало до 25 человек, и студенты-дипломники, и штатные сотрудники. Для академии этот проект был слишком большим. Однако было написано очень мало статей, отношение объема затраченных на проект денежных средств к числу написанных статей было очень высоким. В то же время в проекте Niagara мы испытывали трудности при создании надежного программного обеспечения, но написали много статей. Я думаю, что это невозможно планировать; нужно плыть по течению, и иногда получается хорошее программное обеспечение, иногда – много статей, а изредка выходит и то, и другое, как было в проекте Gamma. Но проект Gamma в этом отношении являлся исключением.

Что в проектах такого рода оказывает большее влияние – статьи или полученное программное обеспечение?

В зависимости от того, что вы пытаетесь продвигать.

И что же Вы пытались продвигать в этих трех проектах?

В проекте Gamma мы старались доказать правильность концепции. В конце концов, мы с Нотоном оказались последними программистами, работавшими над программным обеспечением. Джефф разрабатывал эксперименты, а я писал код. Я не очень хороший кодировщик, и программное обеспечение в то время, когда им занимались мы, было непригодным для использования.

Но оно доказало правильность концепции?

Оно доказало правильность концепции. Что оказывает большее влияние, статьи или программное обеспечение, созданные при выполнении проекта, зависит от студентов, участвующих в проекте, от квалификации студентов. Иногда имеются хорошие идеи, которые оборачиваются хорошим программным обеспечением, но иногда идеи являются плохими. Я думаю, что нужно учитывать текущий состав и качество студентов – их способности к разработке программного обеспечения и исследованиям.

Если слегка сменить тему, что следует включать во вводный курс по компьютерной науке для студентов, которые выбрали свою специализацию?

Боже, это хороший вопрос, провокационный вопрос. Мы постоянно озабочены этим вопросом, поскольку число студенток, посещающих вводный курс по компьютерной науке, очень мало (по крайней мере, в Висконсине). И вопрос состоит в том, почему их так мало?

И сколько же их?

Я думаю, что на вводном курсе около 22% студентов женского пола, но число тех, которые выбрали специализацию, падает до 10-15%.

У нас на кафедре их еще меньше.

И спрашивается, почему? Я не знаю, почему. У меня две дочери, одна из которых специализируется в области химии, а другая – в математике. Ни одна из дочерей не прошла курс по компьютерной науке, хотя для специализации в области математики это требуется. Но что-то отпугивает девушек в высшей школе от любых курсов по компьютерной науке, несмотря на то, что они обладают всеми требуемыми способностями. Я не знаю, в чем здесь дело; я не знаю, связано ли это с тем, что компьютерная наука считается чересчур мужской областью, или же она кажется им просто скучной. Я думаю, частично проблема кроется в том, что мы сначала учим программированию. И я думаю, что для многих людей программирование оказывается скучным, и оно не отражает существо компьютерной науки. Например, изучение химии начинается с неорганической химии, количественный анализ представляет собой очень небольшую часть вводного курса; вводный курс является общим обзором неорганической химии. Наши вводные курсы могли бы включать что-то про архитектуры, что-то из теории, может быть, что-то из области систем баз данных. Но в них не должны быть только структуры данных и программирование.

Должны ли эти курсы быть практическими?

Может быть, да, может быть, нет. В любом случае, я не думаю, что программирование является большой частью компьютерной науки. Я думаю, что в этой области можно заниматься многими вещами, для которых не требуются навыки программирования. Я думаю, что нам следует попытаться что-то изменить и посмотреть, как это повлияет на число студенток. Конечно, это может и не подействовать.

Испытывали ли Вы этот новый подход к вводным курсам в Висконсине?

Нет, но у нас имеется рабочая группа по учебным планам, в которую входят молодые преподаватели, только что получившие степень PhD, и совсем нет представителей старшего поколения. Мы не меняли свои курсы в течение почти 25 лет. Последовательность материала во вводных курсах остается одной и той же. Поэтому мы пытаемся побудить молодых преподавателей придумать что-нибудь другое. Мы пытаемся сделать совсем другой вводный курс с минимальным объемом программирования.

Интересно. Я буду с нетерпением ожидать результатов.

На самом деле, мне бы хотелось, чтобы это проделал кто-то другой, чтобы мы могли просто скопировать их курс.

Вы можете стать для всех нас первопроходцем.

Много лет тому назад Вы стали одним из авторов одного из первых популярных эталонных тестовых наборов – Висконсинского тестового набора. Можете ли Вы что-нибудь рассказать про Висконсинские эталонные тестовые наборы?

Только не записывайте это на видео!

На самом деле, это был интересный опыт. Он привлек внимание многих людей. Многих людей, включая наших друзей, он очень рассердил. Я помню, что однажды Майкл Стоунбрейкер просто вышел из себя, поскольку мы показали, что Ingres не очень хорошо справляется с некоторым видом запросов. Я думаю, что многие люди слишком эмоционально реагировали на результаты тестирования вместо того, чтобы попробовать взять эти результаты и использовать их по назначению, для определения мест, где система работает хорошо, а где плохо.

А в одном случае – я подозреваю, что это лучшая история – очень рассердился Ларри Эллисон и попытался выгнать меня с работы. Он не совсем понимал концепцию постоянной должности, не понимал, что кафедра не выгонит меня за то, что я не сказал про Oracle очень хорошие вещи. Но я думаю, что в целом тестовые наборы сослужили сообществу хорошую службу. Я думаю, что они помогли разработчикам сконцентрироваться. И вообще, я думаю, что вся работа с эталонными тестовыми наборами оказалась очень полезной для сообщества.

Полагаете ли Вы, что профессорам не следует работать над тестовыми наборами, пока у них нет постоянной должности?

(Смеется.) Да, я думаю, что это так! Печально то, что для каждого продукта управления базами данных (видимо, за исключением DB2) имеется положение, возникшее, по существу, из-за Висконсинских тестовых наборов, в котором говорится, что никто, кроме поставщика, не имеет права публиковать численные результаты тестирования. Я думаю, что это действительно печально. Я думаю, что промышленной компании глупо занимать такую позицию. Если вы продаете продукт, у людей должна иметься возможность его оценивать. Похоже, что поставщики систем баз данных просто боятся людей, оценивающих их продукты.

Но результаты тестовых испытанию, публикуемые поставщиками, обычно подвергаются независимому аудиту.

Нет, они больше никогда не проверяются. Имеются некоторые правила, которым должны следовать поставщики при предоставлении отчетов о числовых показателях своих тестовых испытаний, но я думаю, что за их соблюдением не следят ни пользователи, ни поставщики.

По-видимому, верно следующее утверждение: результаты тестовых испытаний, публикуемые поставщиком, гарантируют, что в своей системе баз данных вы никогда не получите более высокой производительности.

Это верно, результаты тестовых испытаний действительно дают верхнюю границу.

Я думаю, что это ограничение позволяет поставщикам концентрироваться на одном конкретном тестовом наборе, TPC-A, -B, -C, -D или –H, но это вредит сообществу или пользователям в целом, поскольку пользователи не могут производить собственные измерения и публиковать их результаты. Это позволяет производителям концентрировать свои усилия на одном тестовом наборе, и я думаю, что это неправильно.

Ну, так можно поступать, если соответственно называть системы баз данных A, B, --

C или D. Да, это стандартная уловка для того, чтобы схитрить, но, тем не менее …

Хороша или плоха для академии болезнь стартапов?

Я думаю, что она плоха тем, что лучшие студенты не остаются в университете для подготовки диссертации PhD. А хороша она тем, что некоторые люди из академии очень хорошо устраивают свое финансовое положение. Я думаю, что, в общем, эта болезнь не является ни плохой, ни хорошей. Я бы сказал, что она вредит качеству PhD.

А как Вы относитесь к тому, что в настоящее время эта болезнь сходит на нет?

Я думаю, что это здорово. Теперь каждый студент захочет остаться в университете и получить степень PhD. Я думаю, что маятник качнется в другую сторону, и студенты будут более осторожно относиться к уходу из университета после получения магистерской степени. Я думаю, что на пару лет для академии это будет хорошо.

Что Вы думаете про недавний экономический спад в США? Как он повлияет на академию?

Я думаю, что произойдет что-то в том же духе. Я думаю, что будет больше заявлений в аспирантуру. Я думаю, что поступающие студенты будут лучше. Я думаю, что они будут оставаться в университетах на более долгое время. Мы будем выпускать более качественных PhD, и, будем надеяться, большее число студентов будет заинтересовано в продолжении своего пребывания в академии.

А что насчет финансирования исследований? Ведь студенты оплачиваются за счет этого.

Я думаю, что реальный вопрос состоит в том, сможет ли правительство после 11 сентября позволить себе финансировать все, что требуется финансировать? И приведет ли это к эффекту постепенного стимулирования некоторых фундаментальных видов исследований? Я думаю, да, если вы работаете в области безопасности – сейчас самое время работать в этой области. Сейчас неплохое время и для систем баз данных, поскольку им потребуется управлять массой информации. Вопрос просто состоит в том, сможет ли правительство позволить себе финансировать все требуемые работы, и ответа на этот вопрос я не знаю. Системы баз данных и управление информацией будут становиться все более важными, поскольку правительство пытается собирать больше информации. И, очевидно, имеются проблемы конфиденциальности, которые должны нас заботить. Я думаю, что в отношении финансирования для сообщества баз данных время может оказаться хорошим.

Продолжу вопросы про финансирование области баз данных. Я знаю, что Вы являетесь членом консультативного комитета CISE в Национальном научном фонде США, и CISE – это основной источник финансирования NFS в области исследований баз данных, как и во многих других областях. Считаете ли Вы, что NFS должен финансировать людей или же конкретные исследовательские проекты?

Я думаю, что им следует финансировать больше вещей, чем они делают это сейчас. Иногда правильно финансировать людей. Иногда заявки являются слишком узкими. Но я думаю, что нужно иметь возможность финансировать новых преподавателей, поэтому иногда требуется финансировать заявки. Но финансирование людей также весьма целесообразно.

Я не считаю, что консультативный комитет CISE оказывает большое влияние на деятельность CISE, так что не стоит думать, что я могу много сказать о том, кто получает финансирование.

И как же вы их тогда консультируете?

Они не слушают наших советов, независимо от того, что мы говорим. Я не знаю, зачем в CISE имеется консультативный совет, поскольку, я считаю, нас все время игнорируют.

Вы сказали, что, по Вашему мнению, NSF CISE следует финансировать больше проектов, но Вы также сказали, что некоторые заявки на проект являются слишком узкими.

Если вы говорите, что хотите работать над темой X, и тема X является действительно широкой, то, я думаю, получить финансирование проекта труднее. Типичной стратегией получения гранта является выполнение исследовательской работы с последующим написанием заявки, в которой предлагается выполнить это исследование – и это мне кажется плачевным. Я думаю, что у людей должны иметься возможность сказать, что они хотят работать над более широкой темой, и, может быть, именно это я понимаю под финансированием людей.

Я думаю, что общая ситуация с финансированием, даже с учетом программы ITR (Information Technology Research for National Priorities), является расхолаживающей. Раньше имелась программа Coordinated Experimental Research (CER), по которой в конце 1970-х гг. выделялись гранты объемом около миллиона долларов в год, и на эти деньги можно было выполнять существенные разработки программного обеспечения. Сегодня, наибольший грант программы ITR также ограничен миллионом долларов – но прошло уже двадцать лет! За сегодняшний миллион можно получить гораздо меньше, чем за миллион двадцатилетней давности. Я думаю, что это очень прискорбно. Лично я думаю, что CISE вкладывает слишком много денег в суперкомпьютеры, GRID и все прочие вещи, которыми занимаются в университете Иллинойса в Урбане-Шампэйн (University of Illinois at Urbana-Champaign, UIUC).

И мы действительно являемся очагом этих исследований и этого финансирования?

Я думаю, что это не является финансированием компьютерной науки; это финансирование физиков, а не компьютерных ученых.

Но они же финансируют меня, т.е. направления баз данных и безопасности, которые Вы упоминали.

Ну, это хорошо, это правильно. Я думаю, что на этот вид финансирования тратится чересчур много денег. Я думаю, что строить кластер их 2000 узлов и обзывать это компьютерной наукой – это нонсенс.

Т.е. Вы не хотите, чтобы они могли моделировать ядерное оружие вместо того, чтобы проводить его наземные испытания и прочее?

Я думаю, что происходит финансирование физиков, это не финансирование исследований в области компьютерной науки.

Хорошо, но мне кажется, что им нужна большая помощь для построения системы моделирования ядерного оружия, такую систему сделать очень трудно.

Я думаю, что во имя суперкомпьютеров тратится очень много фальшивых денег. Я считаю, что идеальным примером неправильного расходования денег была программа PACI (National Science Foundation Partnership for Advanced Computational Infrastructure).

И все они попали в цель в Иллинойсе! [PACI является основным источником финансирования Национального центра суперкомпьютерных приложений (National Center for Supercomputing Applications, NCSA) в UIUC.]

У меня такое ощущение, как будто интервью берете Вы, Вы задаете вопросы.

Да нет, все хорошо, все хорошо. Хотели ли бы Вы получить от PACI какие-то конкретные результаты, которые не были получены, или Вы думаете, что все направление …?

Я думаю, что большие железяки [т.е. суперкомпьютеры] являются идеальной целью финансирования, поскольку нужно иметь национальные центры, такие как NCSA в Иллинойсе, Питтсбугский суперкомпьютерный центр, суперкомпьютерный центр в Сан-Диего; я думаю, что нужно иметь национальные центры, в которых люди могут заниматься вычислениями без использования больших суперкомпьютеров в правительственных лабораториях. Но я не думаю, что следует связывать финансирование железа с финансированием исследований. В этом состоит моя проблема в связи с программой PACI. В этой программе делается попытка связать финансирование железа с финансированием исследований и приложений, а мне кажется, что эти виды финансирования следует разделить. На самом деле, мне больше нравится модель Питтсбургского суперкомпьютерного центра с раздельным финансированием железа и исследований, а не финансирование всего сразу в виде большой единовременно выплачиваемой суммы – поскольку первый подход кажется мне более отслеживаемым.

Я почти что собралась спросить, почему, но Вы уже сказали: более отслеживаемый подход.

Его может в большей степени отслеживать финансирующая организация.

И значит, Вы имеете в виду, например, что если они успешно построили железо, то могут назвать весь проект успешным, даже если …

Я не думаю, что при построении железа имеются существенные исследования. Нужно всего лишь купить кучу машин, поставить их в машинный зал, соединить их в кластер, подключить их к GRID. Только я думаю, что использование финансирования должно ограничиваться покупкой аппаратуры. Очевидно, если вы покупаете аппаратуру, то вы ее должны и поддерживать; но из этого не следует, что люди, получающие грант, должны быть одновременно людьми, определяющими, какие исследовательские проекты следует финансировать. Мне не нравится эта модель, и поэтому я перестал участвовать в программе PACI.

Понятно. Интересно.

Я не думаю, что все это будет интересно сообществу SIGMOD.

Ну, мне-то это интересно. Это мир, в котором я живу. Если это окажется слишком скучным для сообщества SIGMOD, я могу просто внести сокращения в печатный вариант интервью.

Традиционные исследовательские направления области баз данных финансируются не так хорошо, как прежде. Является ли это признаком зрелости нашей области, или мы упускаем какие-то направления, в которых требовалось бы выполнить дополнительные исследования?

Я думаю, что мы упускаем некоторые направления, в которых стоило бы произвести дополнительные исследования?

Во-первых, позвольте мне заметить, что я, безусловно, считаю нашу область зрелой. У нас теперь имеются весьма искусные системы, и сообщество может гордиться этим достижением. Я думаю, что и академические исследователи, и люди из индустрии проделали огромную работу. Системы являются надежными, масштабируемыми, они обеспечивают высокую производительность. Я думаю, что в нашей области проделана просто потрясающая работа, и каждый может этим гордиться.

Однако я думаю, что имеются некоторые базовые направления, заслуживающие дополнительного внимания. Я думаю, что большие изъяны имеются в области оптимизации запросов, в области ввода-вывода. Я думаю, что слишком много народа полезло в горячие зоны. Некоторое время такой зоной была обработка рекурсивных запросов, потом – объектно-ориентированные базы данных, потом – кубы данных, поскольку Джим Грей (Jim Gray) написал эту действительно отличную статью про кубы данных, в результате чего мы получили три сотни человек, пишущих статьи про кубы данных. Теперь такой зоной является интеллектуальный анализ данных, и конференция Knowledge Discovery from Data (KDD) собирает семьсот участников.

Базовые исследования в области баз данных финансируются очень незначительно. Агентство перспективного планирования научно-исследовательских работ министерства обороны США (US Defense Advanced Research Projects Agency, DARPA) уже много-много лет не проявляет к этому интереса; в DARPA не происходит ничего, относящегося к базам данных, хотя эта ситуация может и измениться. И NSF тоже не интересуется базами данных, так что добыть деньги на базовые исследования почти невозможно.

Вы сказали, что требуются дополнительные исследования в области оптимизации запросов. Над какой частью оптимизации запросов людям стоило бы дополнительно поработать?

Надо всеми! Области оптимизации запросов уже 22 года. И все делают одно и то же, все основываются на подходе, созданном Пат Селинджер (Pat Selinger) и группой System R, а этот подход уже не работает. Системы стали как никогда мощными. Теперь пользователи систем баз данных могут выполнять запросы с 10 соединениями, могут выполнять запросы из тестового набора TPC-H (а это чрезвычайно сложные запросы) над огромными наборами данных на масштабируемых машинах, и оптимизаторы запросов производят огромную работу по генерации надежных, правильных планов выполнения таких запросов без сложной настройки. Я думаю, что нам нужно полностью пересмотреть подход к оптимизации запросов, поскольку все остальное в технологии баз данных подверглось совершенствованию, а технология оптимизации запросов осталась на прежнем уровне.

Есть ли у Вас конкретные предложения по поводу того, как следует теперь производить оптимизацию запросов?

У меня имеется идея, которая отчасти связана с тем, как выполнялась обработка запросов в Ingres, где, по существу, фазы оптимизации и выполнения циклически повторялись. Теперь же способ функционирования систем баз данных состоит в том, что сначала производится оптимизация, а потом – выполнение. Мы полностью оптимизируем планы с девятью или десятью соединениями на основе нелепых предположений о статистике данных. Реальность состоит в том, что выполнения пары соединений у вас нет никакой информации о числе кортежей, которые войдут в результат. Вы даже не знаете, имеется ли корреляция между значениями атрибутов соединяемых столбцов; вы не знаете, точны ли ваши гистограммы – у вас могут вообще отсутствовать гистограммы. Поэтому в оптимизаторах запросов предположения о соединениях на пятом или шестом уровнях дерева применяются на основе всего лишь принятия желаемого за действительное.

Моя личная точка зрения состоит в том, что нам нужно пересмотреть подход к оптимизации и выполнению. Сейчас мы оптимизируем, а потом выполняем. Вместо этого, я думаю, нам нужно, например, немного пооптимизировать, немного выполнить, еще немного пооптимизировать и еще немного выполнить. Нам следует попробовать применить какие-то совсем другие подходы, поскольку эта часть технологии не совершенствовалась.

И я совсем не хочу сказать, что Пат Селинджер, выполнив свою работу, не внесла огромный вклад. Если одна написанная статья закрывает целую область, то эта статья, безусловно, является суперстатьей, а Пат – настоящая суперзвезда! Но теперь у нас появились настолько мощные возможности по части выполнения запросов, что нужно вернуться и пересмотреть подход к оптимизации. Я не знаю, как это сделать, но считаю это направление важным.

Когда Вы выделяли оптимизацию запросов и ввод-вывод, что Вы имели в виду под вводом-выводом?

Под вводом-выводом я имел в виду то, что диски продолжают становиться все более и более медленными. Если посмотреть на скорость передачи, то кажется, что они становятся более быстрыми, но если поделить скорость передачи на емкость, то результат покажет, что диски, на самом деле, становятся более медленными. Некоторые люди скажут, что нужно поместить в контроллер диска процессор SQL, создавая, тем самым, интеллектуальный диск. Я думаю, что это не поможет решить проблему; я считаю, что интеллектуальный диск – это всего лишь подобие старой машины баз данных, в которой имелся процессор вместе с диском.

В Висконсине мы ищем подход к решению этой проблемы: мы изучаем возможности вертикального разделения. Это очень старая идея; она применялась в проекте MCC Bubba под названием модели хранения декомпозиции. Идея состоит в том, что если вам требуются не все столбцы таблицы, то зачем нужно считывать с диска всю таблицу? Вертикальное разбиение позволяет очень хорошо использовать аппаратное кэширование; оно позволяет упростить сжатие данных; оно может существенно повысить эффективность устройства ввода-вывода, которое вы пытаетесь использовать.

Очевидно, что люди из сообщества баз данных не могут изменить способ производства дисков. Мы вынуждены жить с обычными дисками. А они через пару лет будут объемом в полтерабайта, еще через два года – в терабайт; к 2010 г. их объем, вероятно, достигнет пары терабайт. Объемы баз данных растут не так быстро, как объемы дисков, если только не сохраняются изображения или видео.

В целом, я думаю, что ввод-вывод является большой проблемой, и сейчас производители дисков только усугубляют проблему, поскольку диски становятся все более дешевыми. Может быть, у нас получится что-то интересное в области ввода-вывода.

Какие другие базовые направления заслуживают, по Вашему мнению, дополнительного внимания?

Я уверен, что они имеются, но в настоящее время я размышляю об оптимизации запросов и вводе-выводе.

Есть ли у Вас любимые горячие зоны? Популярные партии, на сторону которых перебегают люди?

Очевидно, горячей зоной является XML. Я думаю, что XML интересен тем, что сообщество баз данных потерпело неудачу при создании распределенных реляционных систем баз данных, и XML подходит для этих целей, потому что, если это действительно произойдет, и люди обеспечат поддержку XQuery над XML и своими Web-сайтами, то можно будет подумать о построении поверх всего этого гигантской распределенной системы баз данных. Я думаю, что сообщество баз данных может войти в эту довольно увлекательную область. Я думаю, что решение проблем построения распределенных баз данных гигантского масштаба будет для всех нас интересным вызовом в течение следующих нескольких лет. Но в области XML и баз XML-данных уже работает слишком много людей.

Базы XML-данных не являются базовой областью, но я полагаю, что это горячая зона, которую я бы выделил, как очень интересную. И это приводит к вопросу, можем ли мы сделать в отношение семантики что-нибудь, объединяющее нас с сообществом искусственного интеллекта? С использованием одного лишь XML невозможно обеспечить какую-либо интеллектуальную обработку больших объемов данных, которые требуется интегрировать.

У некоторых людей в сообществе баз данных имеется мнение, что студенты публикуют дельта-статей* больше, чем обычно, потому что проще добиться принятия на конференцию именно дельта-статьи, поскольку в дельта-статье проще устранить все прорехи, к которым может придраться рецензент, и студентам требуется иметь больше, чем обычно, публикаций, чтобы получить хорошую работу. Это действительно происходит? Действительно теперь стало больше дельта-статей, и, если это так, означает ли это наличие какой-то проблемы, и, если такая проблема имеется, то в чем она состоит?

Я не уверен, что дельта-статей стало намного больше.

Я думаю, что фундаментальной проблемой является способ рецензирование докладов, представленных на конференции SIGMOD и VLDB. Недавно у меня был доклад, отвергнутый на SIGMOD и признанный лучшим докладом на VLDB. Между этими двумя представлениями текст доклада, по существу, не менялся. Есть что-то неправильное в том, что доклад отвергается на одной конференции и признается лучшим на другой конференции. Я не знаю, что происходит неправильно в процессе рецензирования. Я думаю, что принятие или отвержение доклада становятся случайными событиями. Я думаю, что либо нужно ввести в процесс рецензирования цикл обратной связи, в котором вы представляете доклад, программный комитет его рецензирует, возвращает вам свои комментарии и дает вам возможность ответить на замечания до собрания программного комитета; либо нужен процесс из нескольких туров.

Я думаю, что теперешний процесс принятия докладов является игрой в кости. Он очень тяжел для молодых преподавателей. Будучи преподавателем старшего поколения, я расстраиваюсь, когда мои доклады не принимаются, но это не оказывает влияния на мои рабочие планы! Я являюсь заведующим кафедрой, зарплату мне повышает декан (без контроля со стороны моих коллег), а декана не заботит то, что два моих доклада на VLDB отвергнуты. Но молодого человека без постоянной должности должно очень нервировать, когда доклады, которые он считает хорошими, отвергаются без понятных оснований.

Упомянутой Вами положение дел во многом свойственно и процессу рецензирования в журналах. Считаете ли Вы, что SIGMOD превращается, скажем, в TODS?

Определенно нет, поскольку в настоящее в TODS нет ничего, кроме теоретических статей.

Надеюсь, что это не так!

Процесс рецензирования в журналах допускает поправки, а процесс рецензирования в программных комитетах поправок не допускает. Временная шкала выглядит нелепым образом. Мы представляем доклады в ноябре, и они публикуются в июне. По моим подсчетам, проходит восемь месяцев. Мы все знаем, что статьи уже набраны. Процесс продвижения от оригинал-макета к производству беден событиями. В течение этого времени происходит процесс рецензирования. Он не похож на журнальный процесс, поскольку включает только один тур рецензирования и обсуждения. Вы представляете свои статьи; вы получаете замечания от рецензентов из программного комитета; у вас имеется возможность написать рецензентам свои контрдоводы; и в течение этого процесса вы не можете поменять текст. И затем комитет принимает решение.

Я предлагаю эту альтернативу, поскольку мне кажется, что иногда члены программного комитета либо рецензируют статьи в областях, которые они не очень хорошо знают, либо они неверно истолковывают авторские тексты. Я думаю, что нам следует постараться делать это как-то по-другому, потому что в процессе принятия или непринятия докладов присутствует слишком много неопределенностей.

Я также считаю, что нам следует принимать больше докладов. Некоторые люди говорят хорошо, некоторые – плохо. Я думаю, что не была бы вреда, если бы из 250 докладов, представленных на SIGMOD, 75 или 100 докладов принимались для публикации в трудах конференции (а не 50, как сейчас), а 25-30 докладов представлялись бы авторами на самой конференции. Мне кажется, что совсем не обязательно представлять на конференции все принятые доклады. Некоторые доклады могут быть лучше представлены, чем другие.

А как отобрать доклады, авторы которых могут их действительно хорошо представить?

Я не знаю. Я просто думаю, что нужно делать что-то по-другому! Это похоже на вводные курсы в области компьютерной науки: я участвую в конференциях SIGMOD c 1979 г., и мы всегда делаем одно и то же – давайте сделаем что-нибудь по-другому!

Поможет ли увеличение вдвое числа принимаемых на SIGMOD докладов; сделает ли это процесс принятия докладов менее случайным?

Я думаю, что помогло бы проведение конференций SIGMOD два раза в год, или выбор мест для проведения конференций VLDB, более приемлемых, чем Гонконг, который слишком далеко расположен.

Но этот выбор очень разумен для тех, кто живет в Гонконге.

Для, тех, кто живет в Гонконге, это место очень удобно, но большинство людей приезжает из Соединенных Штатов и Европы. Организация двух конференций SIGMOD в год при существующей системе была бы затруднительна, поскольку каждая конференция SIGMOD проводится в новом месте. В больших организациях проводятся специализированные выставки, и они нанимают людей для проведения своих специализированных выставок, которые часто проводятся много лет в одном и том же месте. Организация программной части SIGMOD или VLDB не представляет труда. Трудности представляют местные организационные дела. Я думаю, что в нашей области достаточно много людей, и мы могли бы выдержать проведение ежегодной дополнительной конференции в Соединенных Штатах.

Это звучит интересно.

Найдутся ли у Вас какие-либо напутственные слова для начинающих исследователей и практиков баз данных?

Я думаю, что мои напутствия не будут отличаться от того, что бы я сказал любому молодому преподавателю. (Будучи заведующим кафедрой, я должен заботиться о таких вещах.) Я думаю, что важно выбрать одну или две области и выполнять в выбранных областях хорошую работу. Я считаю, что для молодого преподавателя хуже всего разбрасываться между несколькими областями. Если вы хотите заниматься интеллектуальным анализом данных, становитесь одним из лучших в этой области. Не пытайтесь сразу заниматься анализом данных, кубами, XML и системами баз данных в основной памяти. Выберите одну или две области и сконцентрируйте на них свои усилия.

Другая часть моего напутствия состоит в том, чтобы не брать себе сразу слишком много студентов. Я думаю, что молодому преподавателю не следует иметь больше трех-четырех студентов, поскольку студенты являются ценным ресурсом, и, если у вас их слишком много, вы не сможете работать с ними эффективным образом.

А сколько обычно студентов у Вас?

Слишком много! Сейчас у меня семь или восемь студентов, и я пытаюсь сократить это число до трех-четырех.

Семь или восемь студентов PhD?

В основном студенты PhD и пара младшекурсников. Я начинаю брать к себе больше и больше младшекурсников.

Иногда они могут быть полезны.

Они могут быть очень полезны.

Если бы Вы могли заняться еще одной работой в дополнение к тому, что делаете сейчас, что бы это было?

У меня нет хорошего ответа на этот вопрос … разве что пошел бы в бассейн поплавать?

Если бы Вы могли изменить в себе, как исследователе в области компьютерной науки, одну черту, что бы Вы выбрали?

Мне бы хотелось иметь более сильную математическую подготовку. Я думаю, что имеется много вещей, которые я не понимаю, а хотел бы понимать. На младших курсах я специализировался в области химии и прослушал не так уж много курсов по математике. Я думаю, что имеется ряд исследовательских работ, в которых я просто не могу участвовать. Я полагаю, что именно это я бы хотел изменить.

Вы имеете в виду, что, если бы у Вас была эта подготовка, то Вы бы больше работали в области теории баз данных?

Возможно. У меня никогда не было возможности заниматься такой работой. Я никогда не был достаточно умен для работы в области теории баз данных. У меня есть одна статья в PODS, за которую иногда люди меня высмеивают. Но это была студенческая статья, это бы не я.

Большое спасибо за то, что Вы сегодня были с нами.

Спасибо за гостеприимство.


* По поводу исследований и публикаций категории «дельта-x» см. Асиломарский отчет



Последние комментарии:

Самое интересное:


© 2004–2009 Проект CITCITY.ru