The OpenNET Project / Index page

[ новости /+++ | форум | теги | ]

форумы  помощь  поиск  регистрация  майллист  вход/выход  слежка  RSS
"Компания Yahoo выпустила свободный дистрибутив платформы Apa..."
Вариант для распечатки  
Пред. тема | След. тема 
Форумы Разговоры, обсуждение новостей (Public)
Изначальное сообщение [ Отслеживать ]

"Компания Yahoo выпустила свободный дистрибутив платформы Apa..."  +/
Сообщение от opennews (??) on 12-Июн-09, 13:51 
Компания Yahoo объявила (http://finance.yahoo.com/news/Yahoo-Raises-Commitment-to-bw-...) о выпуске собственной версии (http://developer.yahoo.com/hadoop/) дистрибутива платформы Apache Hadoop (http://lucene.apache.org/hadoop/), предназначенной для организации распределенной обработки больших (петабайты) объемов данных с использованием парадигмы map/reduce, когда задача делится на множество более мелких обособленных фрагментов, каждый из которых может быть запущен на отдельном узле кластера. Дистрибутив включает в себя набор подготовленных в недрах Yahoo дополнений и улучшений, используется в компании непосредственно в работе поискового движка и распространяется только в исходных текстах. Код Hadoop и новый дистрибутив Yahoo распространяются под лицензией Apache 2.0.


Представленный код отличается высоким качеством и всесторонне протестирован в промышленной эксплуатации, так как непосредственно используется в самых больших из существующих Hadoop кластеров (Hadoop клас...

URL: http://finance.yahoo.com/news/Yahoo-Raises-Commitment-to-bw-...
Новость: http://www.opennet.dev/opennews/art.shtml?num=22130

Высказать мнение | Ответить | Правка | Cообщить модератору

 Оглавление

Сообщения по теме [Сортировка по времени | RSS]


2. "Компания Yahoo выпустила свободный дистрибутив платформы Apa..."  +1 +/
Сообщение от аноним on 12-Июн-09, 13:54 
А что же микрософт собственную систему не осилила?
Высказать мнение | Ответить | Правка | Наверх | Cообщить модератору

3. "Компания Yahoo выпустила свободный дистрибутив платформы Apa..."  +/
Сообщение от Аноним (??) on 12-Июн-09, 14:39 
Зачем? Бизнес же.
Высказать мнение | Ответить | Правка | Наверх | Cообщить модератору

9. "Компания Yahoo выпустила свободный дистрибутив платформы Apa..."  +/
Сообщение от ra (??) on 13-Июн-09, 05:37 
Они купят себе какую-нибудь контору и делов-то. Девелоперов потом почикают, названием сменят - все как обычно.
Высказать мнение | Ответить | Правка | Наверх | Cообщить модератору

10. "Компания Yahoo выпустила свободный дистрибутив платформы Apa..."  +/
Сообщение от User294 (ok) on 13-Июн-09, 09:08 
Хорошо подмечено.Стандартная MSовская практика.
Высказать мнение | Ответить | Правка | Наверх | Cообщить модератору

6. "Компания Yahoo выпустила свободный дистрибутив платформы Apa..."  +/
Сообщение от uZver (??) on 12-Июн-09, 22:40 
SQoop - утопия. Не получится заменить SQL-БД на распределенные. максимум это применение для некритичных данных - типа обработка веба и постороение поискового индекса.
Высказать мнение | Ответить | Правка | Наверх | Cообщить модератору

7. "Компания Yahoo выпустила свободный дистрибутив платформы Apa..."  +/
Сообщение от Щекн Итрч (ok) on 12-Июн-09, 23:54 
>SQoop - утопия. Не получится заменить SQL-БД на распределенные. максимум это применение
>для некритичных данных - типа обработка веба и постороение поискового индекса.
>

Получится :)
"типа обработка веба" - "некритичные" данные??? :)
А вебморда к петабайтному OLAPу - тоже "некритична" в таком случае? Вместе с базой?

Высказать мнение | Ответить | Правка | Наверх | Cообщить модератору

8. "Компания Yahoo выпустила свободный дистрибутив платформы Apa..."  +/
Сообщение от uZver (??) on 13-Июн-09, 01:23 
>>SQoop - утопия. Не получится заменить SQL-БД на распределенные. максимум это применение
>>для некритичных данных - типа обработка веба и постороение поискового индекса.
>>
>
>Получится :)

В общем тут ты прав :)

>"типа обработка веба" - "некритичные" данные??? :)

Зависит от задач. Google поисковик не критичен к потере (не учете) одной страницы в индексе. А бух. учет и управление складом - критичны. Наверное правильнее сказать, что есть задачи которые можно решить без транзакций. И те которые нет. OLAP - можно сделать на Hadoop, а городить поверх MapReduce OLTP - это сразу диагноз.

>А вебморда к петабайтному OLAPу - тоже "некритична" в таком случае? Вместе
>с базой?

OLAP не критичен к транзакциям. Чаще всего OLAP вообще через ETL делают - какие нафиг транзакции. А вот OLTP смогут нормально работать поверх SQL.


Утопия в том, что Hadoop нужен только пока hardware не позволяет реализовать эту обработку на РСУБД. Раньше 1Gb было много для СУБД. А сейчас легко до 10-20Gb одной оперативы + огромные винты - можно намного бОльшие задачи решить на СУБД. В итоге по мере технического прогресса РСУБД будут вытеснять другие подходы ввиду простоты и универсальности.

PS будут оставаться микро-области где применяются специальные системы хранения и обработки, но РСУБД как были на уровне охвата 90% задач так и останутся. Может даже отъедят еще 5% от Массово-параллельных систем (топа Hadoop)

Высказать мнение | Ответить | Правка | Наверх | Cообщить модератору

11. "Компания Yahoo выпустила свободный дистрибутив платформы Apa..."  +/
Сообщение от Щекн Итрч (ok) on 14-Июн-09, 00:03 
>>>SQoop - утопия. Не получится заменить SQL-БД на распределенные. максимум это применение
>>>для некритичных данных - типа обработка веба и постороение поискового индекса.
>>>
>>
>>Получится :)
>
>В общем тут ты прав :)

Ну, а критики мапредуса правы, конечно же, в том, что стоимость его развертывания втрое превышает стоимость всего их бизнеса, обеих почек на продажу и бабушкиной квартиры :)
И вместо того, чтобы этот факт признать и подчеркнуть - "утопией" обзываются!
Пойду, гляну в словаре, что это за слово такое, "утопия"... Явно что-то нехорошее... :)

Высказать мнение | Ответить | Правка | Наверх | Cообщить модератору

12. "Компания Yahoo выпустила свободный дистрибутив платформы Apa..."  +/
Сообщение от pro100master (ok) on 14-Июн-09, 10:37 
>Зависит от задач. Google поисковик не критичен к потере (не учете) одной страницы в индексе

особенно, если это страница майкрософт дот ком при запросе майкрософт уиндовс :)))
Google как раз заботится о своих данных.

Высказать мнение | Ответить | Правка | Наверх | Cообщить модератору

13. "Компания Yahoo выпустила свободный дистрибутив платформы Apa..."  +/
Сообщение от uZver (??) on 15-Июн-09, 11:35 
>> Зависит от задач. Google поисковик не критичен к потере (не учете) одной страницы в индексе
> особенно, если это страница майкрософт дот ком при запросе майкрософт уиндовс :)))

Google как раз заботится о своих данных.

проблема не в "заботе о данных", а в транзакционной консистентности. Как этого добиться на основе MapReduce?

Высказать мнение | Ответить | Правка | Наверх | Cообщить модератору

14. "Компания Yahoo выпустила свободный дистрибутив платформы Apa..."  +1 +/
Сообщение от Аноним (??) on 15-Июн-09, 11:43 
да вы хоть читали что такое MapReduce, чтобы о транзакционной целостности говорить?! MapReduce - это всего лишь способ обработки данных, при котором обаботка происходит в два этапа - разбитие данных на пары ключ/значение и их агрегация. Способ хранения никак не оговаривается. Просто в Yahoo для хранения используют файловую систему HDFS и базу HBase, которая поверх этой фс работает. Все три компонента и составляют дистрибутив Hadoop. Так вот в HBase есть поддержка транзакций, но не по стандарту SQL, как мы к этому привыкли. А целостность достигается за счет использования HDFS с избытоной репликацией.
Высказать мнение | Ответить | Правка | Наверх | Cообщить модератору

15. "Компания Yahoo выпустила свободный дистрибутив платформы Apa..."  +/
Сообщение от uZver (??) on 16-Июн-09, 13:43 
>да вы хоть читали что такое MapReduce, чтобы о транзакционной целостности говорить?!

Да, читал и даже тестировал :)

>MapReduce - это всего лишь способ обработки данных, при котором обаботка
>происходит в два этапа - разбитие данных на пары ключ/значение и
>их агрегация.

В принципе да, только делать MR поверх одной СУБД - потеря скорости, даже по отношению к хранимкам. Преимущество MR достигается на параллельной работе с ЛОКАЛЬНЫМ (для каждого нода) данными.

> Способ хранения никак не оговаривается.

Да, но без HDFS или другой распределенной ФС MR будет медленнее PL/SQL.

> Просто в Yahoo для
>хранения используют файловую систему HDFS и базу HBase, которая поверх этой
>фс работает. Все три компонента и составляют дистрибутив Hadoop. Так вот
>в HBase есть поддержка транзакций, но не по стандарту SQL, как
>мы к этому привыкли.

А по какому стандарту идет поддержка транзакций в HBase? Сколько я не читал ни разу не видел записи о том, что HBase имеет поддержку транзакций.

Специально зашел к гуглу - у них тоже ни разу не значится Big Table как транзакционная система. Только fault-tolerance.

> А целостность достигается за счет использования HDFS
>с избытоной репликацией.

Тут опять ошибка. HDFS обеспечивает файловую целостность. А мне нужна целостность данных, т.е. целостность между данными внутри файла(ов). К примеру это гарантия что внешний ключ ВСЕГДА указывает на существующую запись. И т.п. репликация HDFS никаким образом не спасет от нарушения логической целостности внутри файла данных.

Высказать мнение | Ответить | Правка | Наверх | Cообщить модератору

Архив | Удалить

Индекс форумов | Темы | Пред. тема | След. тема
Оцените тред (1=ужас, 5=супер)? [ 1 | 2 | 3 | 4 | 5 ] [Рекомендовать для помещения в FAQ]




Партнёры:
PostgresPro
Inferno Solutions
Hosting by Hoster.ru
Хостинг:

Закладки на сайте
Проследить за страницей
Created 1996-2024 by Maxim Chirkov
Добавить, Поддержать, Вебмастеру