URL: https://www.opennet.dev/cgi-bin/openforum/vsluhboard.cgi
Форум: vsluhforumID3
Нить номер: 116419
[ Назад ]

Исходное сообщение
"Релиз платформы для распределённой обработки данных Apache H..."

Отправлено opennews , 28-Янв-19 11:47 
Организация Apache Software Foundation опубликовала (https://blogs.apache.org/foundation/entry/the-apache-softwar... релиз Apache Hadoop 3.2 (http://hadoop.apache.org), свободной платформы для организации распределённой обработки больших объёмов данных с использованием парадигмы map/reduce (http://ru.wikipedia.org/wiki/MapReduce), при которой задача делится на множество более мелких обособленных фрагментов, каждый из которых может быть запущен на отдельном узле кластера. Хранилище на базе Hadoop может охватывать тысячи узлов и  содержать эксабайты данных.


В состав Hadoop входит реализация распределенной файловой системы Hadoop Distributed Filesystem (HDFS), автоматически обеспечивающей резервирование данных и оптимизированной для работы MapReduce-приложений. Для упрощения доступа к данным в Hadoop хранилище разработана БД HBase и SQL-подобный язык Pig, который является своего рода SQL для MapReduce, запросы которого могут быть распараллелены и обработаны несколькими Hadoop-платформами. Проект оценивается как полностью стабильный и готовый для промышленной эксплуатции.  Hadoop активно используется в крупных промышленных проектах, предоставляя возможности, аналогичные платформе Google Bigtable/GFS/MapReduce, при этом компания Google официально делегировала (https://www.opennet.dev/opennews/art.shtml?num=26398) Hadoop и другим проектам Apache  право использования технологий, на которые распространяются патенты, связанные с методом MapReduce.


Hadoop занимает первое место среди репозиториев Apache по числу вносимых изменений и пятое место по размеру кодовой базы (около 4 млн строк кода). Из крупных внедрений Hadoop отмечаются хранилища Netflix (сохраняется более 500 миллиардов событий в день), Twitter (кластер из 10 тысяч узлов в режиме реального времени хранит более зетабайта данных и обрабатывает более 5 миллиардов сеансов в день), Facebook (кластер из  4 тысяч узлов хранит более 300 петабайт и ежедневно увеличивается на 4 Пб в день).


Основные изменения в Apache Hadoop 3.2:

-  Добавлен коннектор для файловой системы ABFS, поддерживающий  хранилища Azure Datalake Gen2;
-  Расширены возможности коннектора S3A, в котором обеспечена корректная обработка урезанных конфигураций AWS S3 и DynamoDB IO;
-  В  YARN (Yet Another Resource Negotiator) добавлена поддержка атрибутов узлов, позволяющая прикреплять разные метки к узлам и размещать контейнеры с учётом данных меток;

-  Реализован SPS (Storage Policy Satisfier), позволяющий создавать расширения для HDFS (Hadoop Distributed File System), перемещающие блоки между различными типами хранилищ на основе политик хранения, заданных для файлов и каталогов;
-  Представлен инструмент Hadoop Submarine для упрощения разработки, тренировки и развёртывания моделей глубинного машинного обучения на базе фреймворка TensorFlow в одном кластере Hadoop YARN;

-  Добавлен HDFS-клиент на C++ с поддержкой асинхронного ввода/вывода
для HDFS;

-  Обеспечена возможность обновления начинки контейнеров через CLI-интерфейс или API YARN Native Service  без остановки работы связанных с ними длительно работающих сервисов.

Дополнительно можно отметить выявление уязвимости (https://www.openwall.com/lists/oss-security/2019/01/24/3) в коде авторизации HDFS, позволяющей узнать значения расширенных атрибутов через выполнение  операции listXAttrs. Проблема вызвана тем, что при проверке полномочий учитывался только доступ к операциям просмотра каталогов на уровне файловых путей, но не выполнялась проверка прав на чтение содержимого.


Кроме того, приводятся сведения об обнаружении (https://www.securonix.com/securonix-threat-research-detectin... вредоносного ПО, поражающего незащищённые хранилища на базе Hadoop. Для внедрения вредоносного ПО в сети отыскиваются необновлённые серверы, содержащие неисправленные известные уязвимости в Hadoop YARN (https://www.rapid7.com/db/modules/exploit/linux/http/hadoop_... а также в Redis (https://packetstormsecurity.com/files/134200/Redis-Remote-Co... и ActiveMQ (https://nvd.nist.gov/vuln/detail/CVE-2016-3088), позволяющие выполнить код в системе.  В случае успешной эксплуатации уязвимостей на сервере в большинстве случаев запускается (https://www.digitalocean.com/community/questions/what-is-thi... код для майнинга криптовалют, организации слежки в локальной сети или кражи корпоративных закрытых данных. В отдельных случаях зафиксировано применение вредоносного ПО Xbash, которое поддерживает сканирование сети для выявления новых уязвимых жертв, выполняет чистку содержимого БД и  требует выкуп за восстановление данных (указывается, что данные зашифрованы, но на деле они просто удаляются).


URL: https://blogs.apache.org/foundation/entry/the-apache-softwar...
Новость: https://www.opennet.dev/opennews/art.shtml?num=50038


Содержание

Сообщения в этом обсуждении
"Релиз платформы для распределённой обработки данных Apache H..."
Отправлено лютый жабист__ , 28-Янв-19 12:42 
Мда, а местные эксперты недавно уверяли, что вся бигдата с жабки уже давно ушла.

"Релиз платформы для распределённой обработки данных Apache H..."
Отправлено Аноним , 28-Янв-19 12:48 
Бигдата ушла, а легаси остался.

"Релиз платформы для распределённой обработки данных Apache H..."
Отправлено Аноним , 28-Янв-19 14:25 
Согласен, это именно легаси. Вы только посмотрите, на какой старой платформе Cloudera базирует свою учебную виртуальную машину для курсов по Hadoop: это CentOS 6. 6, Карл! Там даже нет Java 8, только 1.7 от Oracle. И почему-то другие организации проводят курсы по Hadoop на таком же старье, как будто оно ни на чем другом не работает.

P.S. курсы не проходил, но помогал организовывать.


"Релиз платформы для распределённой обработки данных Apache H..."
Отправлено Аноним , 28-Янв-19 14:28 
Зато стабильность.

"Релиз платформы для распределённой обработки данных Apache H..."
Отправлено Лапчатый девляпс бубунтёнок , 28-Янв-19 15:18 
Не, ну когда я в cиcькe арботал, эта проблема была, мы тогда клаудеру безуспешно пытались спрашивать. А сейчас вроде и седьмую чентозь добавили. В предверии выхода 8-й: https://www.cloudera.com/documentation/enterprise/5-7-x/PDF/...
Они не спешат....

"Релиз платформы для распределённой обработки данных Apache H..."
Отправлено Bonch , 28-Янв-19 15:48 
Насколько я знаю, QuickStart VM для новых версий CDH больше не релизят (последняя VM доступна для релиза 2017го года). В новых версиях (CDH6) перешли на java 8, но QuickStart-ов для них больше не будет.

"Релиз платформы для распределённой обработки данных Apache H..."
Отправлено Анонэйм , 28-Янв-19 23:08 
Ну, будучи в универе, у меня был курс с Hadoop, мне было влом держать этот CentOs в виртуальной машине, и я установил Hadoop напрямую в MacOS, проблем с установкой и разработкой замечено не было.

"Релиз платформы для распределённой обработки данных Apache H..."
Отправлено лютый жабист__ , 29-Янв-19 07:58 
>свою учебную виртуальную машину для курсов по Hadoop: это CentOS 6. 6, Карл! Там даже нет Java 8, только 1.7 от Oracle.

Не болтай ерундой.

java-1.8.0-openjdk-1.8.0.171-8.b10.el6_9.x86_64.rpm

Cloudera who?


"Релиз платформы для распределённой обработки данных Apache H..."
Отправлено Аноним , 29-Янв-19 13:07 
Я не про CentOS 6, а про QuickStart VM.

"Релиз платформы для распределённой обработки данных Apache H..."
Отправлено Киль Комаров , 28-Янв-19 15:52 
А куда ушла Бигдата?

"Релиз платформы для распределённой обработки данных Apache H..."
Отправлено YetAnotherOnanym , 28-Янв-19 17:42 
В закат же!

"Релиз платформы для распределённой обработки данных Apache H..."
Отправлено лютый жабист__ , 28-Янв-19 12:46 
<наивный буратина моде он>
Скоро перепишут на плюсах и настанет ой всё!
</наивный буратина моде он>

Из крупных внедрений Hadoop отмечаются хранилища Netflix (сохраняется более 500 миллиардов событий в день), Twitter (кластер из 10 тысяч узлов в режиме реального времени хранит более зетабайта данных и обрабатывает более 5 миллиардов сеансов в день), Facebook (кластер из 4 тысяч узлов хранит более 300 петабайт и ежедневно увеличивается на 4 Пб в день).


"Релиз платформы для распределённой обработки данных Apache H..."
Отправлено Аноним , 28-Янв-19 12:50 
А куда им бежать с подводной лодки?

"Релиз платформы для распределённой обработки данных Apache H..."
Отправлено FedeX , 28-Янв-19 12:54 
Ну дык данные нынче -товар. Чем больше ПБ тем дороже, главное покупателей кому оно надо найти. Так шо это не подводная лодка, а воздушный шар.

"Релиз платформы для распределённой обработки данных Apache H..."
Отправлено имя , 28-Янв-19 13:45 
пох, перелогинься

"Релиз платформы для распределённой обработки данных Apache H..."
Отправлено пох , 28-Янв-19 21:59 
а я тут причем? Я просто молчу в а...е, от того сколько ж они о вас накопали. Что там не котиков нифига 4 петабайта в день, да и не в hadoop'е те котики - по-моему, очевидно.

А у нетфликсы и котиков-то никаких нет...


"Релиз платформы для распределённой обработки данных Apache H..."
Отправлено Аноним , 28-Янв-19 14:03 
Посчитать осталось, сколько лишней электроэнергии уходит впустую на джаву. Пересчитать сколько вреда от этого экологии и заставить Oracle платить компенсацию за вред окружающей среде. Или вычитать из зарплаты как налог у тех кто пишет на Java.

"Релиз платформы для распределённой обработки данных Apache H..."
Отправлено Аноним , 28-Янв-19 14:28 
В корпоративном мире чем больше ты потратил тем ты круче.

"Релиз платформы для распределённой обработки данных Apache H..."
Отправлено лютый жабист__ , 29-Янв-19 11:26 
>В корпоративном мире чем больше ты потратил тем ты круче.

В корпоративном мире бюджет формируют за год, а то и два. Знаешь ты сколько тебе через 2 года надо ресурсов, не знаешь, никого не ебстит. Поэтому пишешь от балды x4. Половину зарежут на совете директоров, зато оставшихся x2 хватит на жабу и даже на помайнить.


"Релиз платформы для распределённой обработки данных Apache H..."
Отправлено Аноним , 29-Янв-19 00:16 
> Facebook (кластер из 4 тысяч узлов хранит более 300 петабайт и ежедневно увеличивается на 4 Пб в день).

А тут не опечатка - "ежедневно увеличивается на 4 Пб в день"?
Это что, сегодня 4 добавилось, завтра 8, послезавтра 12?

И на какую дату данные?
Ведь по 4 Пб в день (а сейчас уже 300) это через год 1760 петабайт будет.


"Релиз платформы для распределённой обработки данных Apache H..."
Отправлено лютый жабист__ , 29-Янв-19 08:01 
Глючишь? "ежедневно увеличивается на 4 Пб в день" означает линейное увеличение на 4 в день. А не какую-то прогрессию.

"Релиз платформы для распределённой обработки данных Apache H..."
Отправлено erthink , 29-Янв-19 11:03 
> Глючишь? "ежедневно увеличивается на 4 Пб в день" означает линейное увеличение на 4 в день. А не какую-то прогрессию.

1) "ежедневно увеличивается на 4 Пб в день" = арифметическая прогрессия.
2) 300 + 4*365 = 1760

ява в голове - это диагноз навсегда ;)


"Релиз платформы для распределённой обработки данных Apache H..."
Отправлено лютый жабист__ , 29-Янв-19 11:22 
>ява в голове - это диагноз навсегда ;)

сишникам лишь бы пюкнуть против жабы и в кусты, пилить могучее ненужно.

300ПБ всего vs 4ПБ прироста это действительно на ошибку в статье похоже, скорее всего в месяц.


"Релиз платформы для распределённой обработки данных Apache H..."
Отправлено Аноним , 29-Янв-19 11:31 
> 300ПБ всего vs 4ПБ прироста это действительно на ошибку в статье похоже, скорее всего в месяц.

Скорее всего ошибка, но может именно в хадупе в кластере на 4тыс узлов растет какая-то вспомогательная новая, свеженькая база, не основное хранилище.


"Релиз платформы для распределённой обработки данных Apache H..."
Отправлено Аноним , 29-Янв-19 11:26 
>> Facebook (кластер из 4 тысяч узлов хранит более 300 петабайт и ежедневно увеличивается на 4 Пб в день).
> А тут не опечатка - "ежедневно увеличивается на 4 Пб в день"?
> Это что, сегодня 4 добавилось, завтра 8, послезавтра 12?

Очевидно же из фразы - увеличивается не ежедневная порция добавляемых данных, а сама база данных.