forum.opennet.ru - "Выпуск платформы для распределённой обработки данных Apache ..." (8)

"Выпуск платформы для распределённой обработки данных Apache ..."

Форум Разговоры, обсуждение новостей
Вариант для распечатки		Пред. тема \| След. тема
Изначальное сообщение		[ Отслеживать ]

"Выпуск платформы для распределённой обработки данных Apache ..."	+/–
Сообщение от opennews (??) on 07-Июн-17, 13:40
После двух лет разработки организация Apache Software Foundation опубликовала (https://blogs.apache.org/foundation/entry/the-apache-softwar...) релиз Apache Hadoop 2.8 (http://hadoop.apache.org), свободной платформы для организации распределённой обработки больших объёмов данных с использованием парадигмы map/reduce (http://ru.wikipedia.org/wiki/MapReduce), при которой задача делится на множество более мелких обособленных фрагментов, каждый из которых может быть запущен на отдельном узле кластера. Хранилище на базе Hadoop может охватывать тысячи узлов и содержать эксабайты данных. В состав Hadoop входит реализация распределенной файловой системы Hadoop Distributed Filesystem (HDFS), автоматически обеспечивающей резервирование данных и оптимизированной для работы MapReduce-приложений. Для упрощения доступа к данным в Hadoop хранилище разработана БД HBase и SQL-подобный язык Pig, который является своего рода SQL для MapReduce, запросы которого могут быть распараллелены и обработаны несколькими Hadoop-платформами. Проект оценивается как полностью стабильный и готовый для промышленной эксплуатции. Hadoop активно используется в крупных промышленных проектах, предоставляя возможности, аналогичные платформе Google Bigtable/GFS/MapReduce, при этом компания Google официально делегировала (https://www.opennet.dev/opennews/art.shtml?num=26398) Hadoop и другим проектам Apache право использования технологий, на которые распространяются патенты, связанные с методом MapReduce. Основные изменения в Apache Hadoop 2.8: - Проведена работа по увеличению средств защиты, в том числе добавлены средства для блокирования атак XFS (Cross-Frame Scripting, загрузка web-интерфейса в iframe) и CSRF (Cross Site Request Forgery, подстановка скрытых обращений к REST API); - Для улучшения интеграции с другими приложениями представлен отдельный jar-архив hadoop-hdfs-client с компонентами клиента HDFS, который в отличие от архива hadoop-hdfs не содержит кода, связанного с обеспечением работы сервера, и требует меньше зависимостей; - Добавлена поддержка сервиса Microsoft Azure Data Lake в качестве источника и приёмника данных; - S3A, клиент для работы с данными, хранимыми в Amazon S3, существенно улучшен в плане масштабирования, производительности и безопасности. Судя по тестам Apache Hive TCP-DS, при работе с данными в хранилище S3 производительность Apache Hadoop теперь выше, чем у проприетарного коннектора Amazon EMR; - Серия улучшений, связанных с WebHDFS, включая интегрированный фильтр для защиты от атак CSRF, поддержку OAuth2 и управление разрешением/запретом снапшотов; - Добавлена возможность реконфигурации ресурсов YARN NodeManager через CLI-интерфейс RM Admin, что позволяет использовать более гибкую модель распределения ресурсов в кластерах, построенных поверх облачных систем. URL: https://blogs.apache.org/foundation/entry/the-apache-softwar... Новость: http://www.opennet.dev/opennews/art.shtml?num=46665
Ответить \| Правка \| Cообщить модератору

Оглавление

Выпуск платформы для распределённой обработки данных Apache ..., Аноним, 13:40 , 07-Июн-17, (1) –1

Выпуск платформы для распределённой обработки данных Apache ..., Аноним, 14:16 , 07-Июн-17, (2)

Выпуск платформы для распределённой обработки данных Apache ..., Аноним, 15:58 , 07-Июн-17, (3) –2

Выпуск платформы для распределённой обработки данных Apache ..., Аноним, 16:02 , 07-Июн-17, (4)
Выпуск платформы для распределённой обработки данных Apache ..., Борщдрайвен бигдата, 20:02 , 07-Июн-17, (5) –1
Выпуск платформы для распределённой обработки данных Apache ..., Stax, 21:17 , 07-Июн-17, (7) –1

Выпуск платформы для распределённой обработки данных Apache ..., Борщдрайвен бигдата, 13:33 , 08-Июн-17, (8) +1

Выпуск платформы для распределённой обработки данных Apache ..., Борщдрайвен бигдата, 20:11 , 07-Июн-17, (6) –1

Сообщения по теме [Сортировка по времени | RSS]

1. "Выпуск платформы для распределённой обработки данных Apache ..." –1 +/–

Сообщение от Аноним (??) on 07-Июн-17, 13:40

>патенты, связанные с методом MapReduce.
Ничего себе, только узнал, а это какие?

Ответить | Правка | ^ к родителю #0 | Наверх | Cообщить модератору

2. "Выпуск платформы для распределённой обработки данных Apache ..." +/–

Сообщение от Аноним (??) on 07-Июн-17, 14:16

https://arstechnica.com/information-technology/2010/01/googl.../
https://www.google.com/patents/opnpledge/patents/
US 2012/0254193     Processing data in a MapReduce framework
US 2012/0278323     Joining tables in a MapReduce procedure
US 7590620     System and method for analyzing data records
US 7650331     System and method for efficient large-scale data processing
US 7756919     Large-scale data processing in a distributed and parallel processing environment

Ответить | Правка | ^ к родителю #1 | Наверх | Cообщить модератору

3. "Выпуск платформы для распределённой обработки данных Apache ..." –2 +/–

Сообщение от Аноним (??) on 07-Июн-17, 15:58

А когда это, наконец, можно будет собрать из исходников?
См. https://wiki.debian.org/Hadoop
А также https://www.chrisstucchio.com/blog/2013/hadoop_hatred.html

Ответить | Правка | ^ к родителю #0 | Наверх | Cообщить модератору

4. "Выпуск платформы для распределённой обработки данных Apache ..." +/–

Сообщение от Аноним (??) on 07-Июн-17, 16:02

https://m.slashdot.org/story/324121

Ответить | Правка | ^ к родителю #3 | Наверх | Cообщить модератору

5. "Выпуск платформы для распределённой обработки данных Apache ..." –1 +/–

Сообщение от Борщдрайвен бигдата on 07-Июн-17, 20:02

Оно уже несколько лет собирается в два с половиной шага: установка зависимостей, mvn package и походом за чай, пока собирается. Для особых ценителей есть BUILDING.txt
На каких слоупоков рассчитан наброс выше — непонятно.

Ответить | Правка | ^ к родителю #3 | Наверх | Cообщить модератору

7. "Выпуск платформы для распределённой обработки данных Apache ..." –1 +/–

Сообщение от Stax (ok) on 07-Июн-17, 21:17

Возьмите CDH и не парьте себе и другим мозг. Вы что, собрались в реальном продакшене использовать собственные сборки и тестировать/обслуживать обновления?

Ответить | Правка | ^ к родителю #3 | Наверх | Cообщить модератору

8. "Выпуск платформы для распределённой обработки данных Apache ..." +1 +/–

Сообщение от Борщдрайвен бигдата on 08-Июн-17, 13:33

Вообще, можно. Иногда приходится мейнтейнить свои патчи. Удовольствие ниже среднего, но порой такой подход — единственно приемлемый.

Ответить | Правка | ^ к родителю #7 | Наверх | Cообщить модератору

6. "Выпуск платформы для распределённой обработки данных Apache ..." –1 +/–

Сообщение от Борщдрайвен бигдата on 07-Июн-17, 20:11

Неплохо, неплохо.
Но вот обновляться слегка рано. Во-первых, не всё _совсем_ гладко после миграции на новую схему раскладки блоков в DataNode (есть репорты, что при очень кривых руках можно поломать вообще всё и сразу), во-вторых, не решены пару проблем с HA, в-третьих, чуть-чуть сломали ACL и FairScheduler в YARN'е.

Ответить | Правка | ^ к родителю #0 | Наверх | Cообщить модератору

Архив | Удалить

Рекомендовать для помещения в FAQ | Индекс форумов | Темы | Пред. тема | След. тема

Партнёры:

Хостинг:

Закладки на сайте
Проследить за страницей

Created 1996-2025 by Maxim Chirkov
Добавить, Поддержать, Вебмастеру

1. "Выпуск платформы для распределённой обработки данных Apache ..."	–1 +/–
Сообщение от Аноним (??) on 07-Июн-17, 13:40
>патенты, связанные с методом MapReduce. Ничего себе, только узнал, а это какие?
Ответить \| Правка \| ^ к родителю #0 \| Наверх \| Cообщить модератору


	2. "Выпуск платформы для распределённой обработки данных Apache ..."	+/–
	Сообщение от Аноним (??) on 07-Июн-17, 14:16
	https://arstechnica.com/information-technology/2010/01/googl.../ https://www.google.com/patents/opnpledge/patents/ US 2012/0254193 Processing data in a MapReduce framework US 2012/0278323 Joining tables in a MapReduce procedure US 7590620 System and method for analyzing data records US 7650331 System and method for efficient large-scale data processing US 7756919 Large-scale data processing in a distributed and parallel processing environment
	Ответить \| Правка \| ^ к родителю #1 \| Наверх \| Cообщить модератору

3. "Выпуск платформы для распределённой обработки данных Apache ..."	–2 +/–
Сообщение от Аноним (??) on 07-Июн-17, 15:58
А когда это, наконец, можно будет собрать из исходников? См. https://wiki.debian.org/Hadoop А также https://www.chrisstucchio.com/blog/2013/hadoop_hatred.html
Ответить \| Правка \| ^ к родителю #0 \| Наверх \| Cообщить модератору


	4. "Выпуск платформы для распределённой обработки данных Apache ..."	+/–
	Сообщение от Аноним (??) on 07-Июн-17, 16:02
	https://m.slashdot.org/story/324121
	Ответить \| Правка \| ^ к родителю #3 \| Наверх \| Cообщить модератору


	5. "Выпуск платформы для распределённой обработки данных Apache ..."	–1 +/–
	Сообщение от Борщдрайвен бигдата on 07-Июн-17, 20:02
	Оно уже несколько лет собирается в два с половиной шага: установка зависимостей, mvn package и походом за чай, пока собирается. Для особых ценителей есть BUILDING.txt На каких слоупоков рассчитан наброс выше — непонятно.
	Ответить \| Правка \| ^ к родителю #3 \| Наверх \| Cообщить модератору


	7. "Выпуск платформы для распределённой обработки данных Apache ..."	–1 +/–
	Сообщение от Stax (ok) on 07-Июн-17, 21:17
	Возьмите CDH и не парьте себе и другим мозг. Вы что, собрались в реальном продакшене использовать собственные сборки и тестировать/обслуживать обновления?
	Ответить \| Правка \| ^ к родителю #3 \| Наверх \| Cообщить модератору


	8. "Выпуск платформы для распределённой обработки данных Apache ..."	+1 +/–
	Сообщение от Борщдрайвен бигдата on 08-Июн-17, 13:33
	Вообще, можно. Иногда приходится мейнтейнить свои патчи. Удовольствие ниже среднего, но порой такой подход — единственно приемлемый.
	Ответить \| Правка \| ^ к родителю #7 \| Наверх \| Cообщить модератору

6. "Выпуск платформы для распределённой обработки данных Apache ..."	–1 +/–
Сообщение от Борщдрайвен бигдата on 07-Июн-17, 20:11
Неплохо, неплохо. Но вот обновляться слегка рано. Во-первых, не всё _совсем_ гладко после миграции на новую схему раскладки блоков в DataNode (есть репорты, что при очень кривых руках можно поломать вообще всё и сразу), во-вторых, не решены пару проблем с HA, в-третьих, чуть-чуть сломали ACL и FairScheduler в YARN'е.
Ответить \| Правка \| ^ к родителю #0 \| Наверх \| Cообщить модератору