Организация Apache Software Foundation опубликовала (https://blogs.apache.org/foundation/entry/the-apache-softwar... релиз Apache Hadoop 3.2 (http://hadoop.apache.org), свободной платформы для организации распределённой обработки больших объёмов данных с использованием парадигмы map/reduce (http://ru.wikipedia.org/wiki/MapReduce), при которой задача делится на множество более мелких обособленных фрагментов, каждый из которых может быть запущен на отдельном узле кластера. Хранилище на базе Hadoop может охватывать тысячи узлов и содержать эксабайты данных.
В состав Hadoop входит реализация распределенной файловой системы Hadoop Distributed Filesystem (HDFS), автоматически обеспечивающей резервирование данных и оптимизированной для работы MapReduce-приложений. Для упрощения доступа к данным в Hadoop хранилище разработана БД HBase и SQL-подобный язык Pig, который является своего рода SQL для MapReduce, запросы которого могут быть распараллелены и обработаны несколькими Hadoop-платформами. Проект оценивается как полностью стабильный и готовый для промышленной эксплуатции. Hadoop активно используется в крупных промышленных проектах, предоставляя возможности, аналогичные платформе Google Bigtable/GFS/MapReduce, при этом компания Google официально делегировала (https://www.opennet.dev/opennews/art.shtml?num=26398) Hadoop и другим проектам Apache право использования технологий, на которые распространяются патенты, связанные с методом MapReduce.
Hadoop занимает первое место среди репозиториев Apache по числу вносимых изменений и пятое место по размеру кодовой базы (около 4 млн строк кода). Из крупных внедрений Hadoop отмечаются хранилища Netflix (сохраняется более 500 миллиардов событий в день), Twitter (кластер из 10 тысяч узлов в режиме реального времени хранит более зетабайта данных и обрабатывает более 5 миллиардов сеансов в день), Facebook (кластер из 4 тысяч узлов хранит более 300 петабайт и ежедневно увеличивается на 4 Пб в день).
Основные изменения в Apache Hadoop 3.2:- Добавлен коннектор для файловой системы ABFS, поддерживающий хранилища Azure Datalake Gen2;
- Расширены возможности коннектора S3A, в котором обеспечена корректная обработка урезанных конфигураций AWS S3 и DynamoDB IO;
- В YARN (Yet Another Resource Negotiator) добавлена поддержка атрибутов узлов, позволяющая прикреплять разные метки к узлам и размещать контейнеры с учётом данных меток;- Реализован SPS (Storage Policy Satisfier), позволяющий создавать расширения для HDFS (Hadoop Distributed File System), перемещающие блоки между различными типами хранилищ на основе политик хранения, заданных для файлов и каталогов;
- Представлен инструмент Hadoop Submarine для упрощения разработки, тренировки и развёртывания моделей глубинного машинного обучения на базе фреймворка TensorFlow в одном кластере Hadoop YARN;- Добавлен HDFS-клиент на C++ с поддержкой асинхронного ввода/вывода
для HDFS;- Обеспечена возможность обновления начинки контейнеров через CLI-интерфейс или API YARN Native Service без остановки работы связанных с ними длительно работающих сервисов.
Дополнительно можно отметить выявление уязвимости (https://www.openwall.com/lists/oss-security/2019/01/24/3) в коде авторизации HDFS, позволяющей узнать значения расширенных атрибутов через выполнение операции listXAttrs. Проблема вызвана тем, что при проверке полномочий учитывался только доступ к операциям просмотра каталогов на уровне файловых путей, но не выполнялась проверка прав на чтение содержимого.
Кроме того, приводятся сведения об обнаружении (https://www.securonix.com/securonix-threat-research-detectin... вредоносного ПО, поражающего незащищённые хранилища на базе Hadoop. Для внедрения вредоносного ПО в сети отыскиваются необновлённые серверы, содержащие неисправленные известные уязвимости в Hadoop YARN (https://www.rapid7.com/db/modules/exploit/linux/http/hadoop_... а также в Redis (https://packetstormsecurity.com/files/134200/Redis-Remote-Co... и ActiveMQ (https://nvd.nist.gov/vuln/detail/CVE-2016-3088), позволяющие выполнить код в системе. В случае успешной эксплуатации уязвимостей на сервере в большинстве случаев запускается (https://www.digitalocean.com/community/questions/what-is-thi... код для майнинга криптовалют, организации слежки в локальной сети или кражи корпоративных закрытых данных. В отдельных случаях зафиксировано применение вредоносного ПО Xbash, которое поддерживает сканирование сети для выявления новых уязвимых жертв, выполняет чистку содержимого БД и требует выкуп за восстановление данных (указывается, что данные зашифрованы, но на деле они просто удаляются).
URL: https://blogs.apache.org/foundation/entry/the-apache-softwar...
Новость: https://www.opennet.dev/opennews/art.shtml?num=50038
Мда, а местные эксперты недавно уверяли, что вся бигдата с жабки уже давно ушла.
Бигдата ушла, а легаси остался.
Согласен, это именно легаси. Вы только посмотрите, на какой старой платформе Cloudera базирует свою учебную виртуальную машину для курсов по Hadoop: это CentOS 6. 6, Карл! Там даже нет Java 8, только 1.7 от Oracle. И почему-то другие организации проводят курсы по Hadoop на таком же старье, как будто оно ни на чем другом не работает.P.S. курсы не проходил, но помогал организовывать.
Зато стабильность.
Не, ну когда я в cиcькe арботал, эта проблема была, мы тогда клаудеру безуспешно пытались спрашивать. А сейчас вроде и седьмую чентозь добавили. В предверии выхода 8-й: https://www.cloudera.com/documentation/enterprise/5-7-x/PDF/...
Они не спешат....
Насколько я знаю, QuickStart VM для новых версий CDH больше не релизят (последняя VM доступна для релиза 2017го года). В новых версиях (CDH6) перешли на java 8, но QuickStart-ов для них больше не будет.
Ну, будучи в универе, у меня был курс с Hadoop, мне было влом держать этот CentOs в виртуальной машине, и я установил Hadoop напрямую в MacOS, проблем с установкой и разработкой замечено не было.
>свою учебную виртуальную машину для курсов по Hadoop: это CentOS 6. 6, Карл! Там даже нет Java 8, только 1.7 от Oracle.Не болтай ерундой.
java-1.8.0-openjdk-1.8.0.171-8.b10.el6_9.x86_64.rpm
Cloudera who?
Я не про CentOS 6, а про QuickStart VM.
А куда ушла Бигдата?
В закат же!
<наивный буратина моде он>
Скоро перепишут на плюсах и настанет ой всё!
</наивный буратина моде он>Из крупных внедрений Hadoop отмечаются хранилища Netflix (сохраняется более 500 миллиардов событий в день), Twitter (кластер из 10 тысяч узлов в режиме реального времени хранит более зетабайта данных и обрабатывает более 5 миллиардов сеансов в день), Facebook (кластер из 4 тысяч узлов хранит более 300 петабайт и ежедневно увеличивается на 4 Пб в день).
А куда им бежать с подводной лодки?
Ну дык данные нынче -товар. Чем больше ПБ тем дороже, главное покупателей кому оно надо найти. Так шо это не подводная лодка, а воздушный шар.
пох, перелогинься
а я тут причем? Я просто молчу в а...е, от того сколько ж они о вас накопали. Что там не котиков нифига 4 петабайта в день, да и не в hadoop'е те котики - по-моему, очевидно.А у нетфликсы и котиков-то никаких нет...
Посчитать осталось, сколько лишней электроэнергии уходит впустую на джаву. Пересчитать сколько вреда от этого экологии и заставить Oracle платить компенсацию за вред окружающей среде. Или вычитать из зарплаты как налог у тех кто пишет на Java.
В корпоративном мире чем больше ты потратил тем ты круче.
>В корпоративном мире чем больше ты потратил тем ты круче.В корпоративном мире бюджет формируют за год, а то и два. Знаешь ты сколько тебе через 2 года надо ресурсов, не знаешь, никого не ебстит. Поэтому пишешь от балды x4. Половину зарежут на совете директоров, зато оставшихся x2 хватит на жабу и даже на помайнить.
> Facebook (кластер из 4 тысяч узлов хранит более 300 петабайт и ежедневно увеличивается на 4 Пб в день).А тут не опечатка - "ежедневно увеличивается на 4 Пб в день"?
Это что, сегодня 4 добавилось, завтра 8, послезавтра 12?И на какую дату данные?
Ведь по 4 Пб в день (а сейчас уже 300) это через год 1760 петабайт будет.
Глючишь? "ежедневно увеличивается на 4 Пб в день" означает линейное увеличение на 4 в день. А не какую-то прогрессию.
> Глючишь? "ежедневно увеличивается на 4 Пб в день" означает линейное увеличение на 4 в день. А не какую-то прогрессию.1) "ежедневно увеличивается на 4 Пб в день" = арифметическая прогрессия.
2) 300 + 4*365 = 1760ява в голове - это диагноз навсегда ;)
>ява в голове - это диагноз навсегда ;)сишникам лишь бы пюкнуть против жабы и в кусты, пилить могучее ненужно.
300ПБ всего vs 4ПБ прироста это действительно на ошибку в статье похоже, скорее всего в месяц.
> 300ПБ всего vs 4ПБ прироста это действительно на ошибку в статье похоже, скорее всего в месяц.Скорее всего ошибка, но может именно в хадупе в кластере на 4тыс узлов растет какая-то вспомогательная новая, свеженькая база, не основное хранилище.
>> Facebook (кластер из 4 тысяч узлов хранит более 300 петабайт и ежедневно увеличивается на 4 Пб в день).
> А тут не опечатка - "ежедневно увеличивается на 4 Пб в день"?
> Это что, сегодня 4 добавилось, завтра 8, послезавтра 12?Очевидно же из фразы - увеличивается не ежедневная порция добавляемых данных, а сама база данных.