Компания Databricks объявила об...Подробнее: https://www.opennet.dev/opennews/art.shtml?num=60911
>кластер из 3072 GPU NVIDIA H100Вот откуда +133%
https://omdia.tech.informa.com/-/media/tech/omdia/marketing/...
Выпустили демона, который уничтожит человечество.
Что ни новая модель, то на 150% лучше всех остальных. А как попросишь ее что-нибудь накодить, то получаешь какую-то дичь с синтаксическими ошибками...
а ты задумывался, почему великий ИИ генерит в языках высокого уровня, желательно без типов, а не сразу в машинных кодах. Зачем все эти промежуточные этапы?а как определить великое произведение от посредственного, есть формальные критерии
ИИ не существует, есть нейронные сетки и языковые модели - думаю ответ стал очевиден на твой вопрос?
Он не должен узнать!
Потому что это не сильный ИИ. Вы путаете виды искусственного интеллекта. Асм может оказаться сложнее и оптимизировать ему труднее, он далёк от полного понимания что он делает и удерживания этого внутри.
У людей частично одинаковые проблемы, поэтому мы придумали языки высокого уровня.
Это ещё что, они однотонное изображение выдать не могут (не говоря уж добавить в него альфа канал) https://www.reddit.com/r/ChatGPT/comments/17hbx8f/prompt_cha.../
А ещё можно поробовать чаты гпт просто молчать.
Чтобы он не отвечал на твои сообщения. у меня не получилось так сделать.
ClosedAI обучили свои модели ВСЕГДА генерировать текст в ответе. Всякие Ламы и Мистрали - нет, и зачастую позволяют такое. Буквально, модель сходу выдает EOS-токен как один из наиболее вероятных (или единственный вероятный, Mixtral и такое умеет), он семплируется, и генерация затыкается. Пользователь же в норме не видит EOS-токен и получает пустой ответ.А что касатется белого цвета - ну так из шума диффузия идёт! Модели чисто статистически тяжело вытянуть однородную заливку из псевдослучайной каши. Возьмите более светлую опорную картинку, и получите изображение в высоком ключе, и наоборот. А для однородной заливки, уж извините, проще ткнуть мышкой в фотошопе - не вижу тут прикладного смысла.
Что ты хотел от рандомного мусора из соцсетей
Никто не создаёт модель на основе всего подряд, подготовка датасета — важная часть процесса.
Цепочка деградации источника знаний: учёный — научный журналист — журналист-новостник — Маша из Инстраграмма — нейросеть, обученная на машах-из-инстаграмма.
Астрологи объявили увеличение времени для подключения живого оператора голосовым помощником.
>Например, лицензия запрещает использовать DBRX, производные модели и любой вывод на их основе для улучшения других языковых моделей, отличных от DBRX. Лицензия также запрещает использовать модель в областях, нарушающих законы и нормативные акты. Производные модели должны распространяться под той же лицензией. При использовании в продуктах и серивисах, которыми пользуются более 700 млн пользователей в месяц, требуется получение отдельного разрешения.Доказать, что другие модели тюнились с помощью этой - невозможно. С другой стороны - кто хочет и может натренировать свою модель - тому эта не нужна. Проконтролировать соблюдение этой несвободной лицензии тоже невозможно, а поскольку лицензия несвободная — то и соблюдать её необязательно. Зачем конторе такой самозашквар — не очень понятно.
>> Доказать, что другие модели тюнились с помощью этой - невозможноЛюбая лицензия регулируется местным законодательством. Например в Китае на нее забьют. В Европе - нет.
+ В некоторых юрисдикциях сотрудники предпочитают не покрывать работодателя. А в других никто и не спросит.
Не думаю, что в Китае это используется. Ну хотя бы введите в поиске neural network differential operator и посмотрите Китайские источники. По имеющейся открытой информации, весьма скудной, кстати, им удалось в сотни тысяч раз (!) увеличить быстродействие и снизить требования к скорости процессорной группировки и дисковой памяти за счет совершенствования структуры нейронной сети и алгоритмов ее обучения. Что подтверждается и нашими выкладками и расчетами.
С чего это ты решил нельзя доказать?
В Весёлой Башне доказать можно что угодно. А для доказательства, что выхлоп сети был использован для тренировки, придётся сначала предоставить входы и дополнения. Входов - огромное множество, и доказывальщикам придётся угадать нужные, и при этом доказать, что с высокой вероятностью совпадение неслучайно. Конечно, можно потребовать от авторов любой конкурирующей сети доказательств, что их сеть не тренирована на основе выхлопа DBRX. Но для этого доказательства придётся перетренировать сеть. Это абсолютно неадекватное требование, дескриминирует всех ответчиков, и если с таким требованием прийти в суд, то любой небасманный суд тавой иса отклонит.
KYC-маразм в HuggingFace прогрессирует>You need to share contact information with Databricks to access this model
>The information you provide will be collected, stored, processed, and shared in accordance with Databricks Privacy Notice.Погуглил - магнет для Gemma не ищется. Как и IPFS-ссылка. Странно. Неужели никто не перезалил до сих пор, лицензия ведь позволяет?
Ну ты вот не перезалил же.
ждём https://huggingface.co/TheBloke?search_models=dbrx
У кого-то дома есть 320GB ОЗУ?
> У кого-то дома есть 320GB ОЗУ?Ну, если во всём доме, то...
У кого-то дома есть оптимизированные алгоритмы (серьезное усложнение структуры нейронов в узлах), что позволило обойтись 1 Гб ОЗУ.
И кор2дуо!
Обижаете. G530.
Не поверишь, но ещё в 2000-х в универе мы писали код для распознавания капчи на основе нейронок. Обойтись можно было парой мегабайт. Так что, твои алгоритмы вряд ли что-то более сложное, чем обыкновенный перцептрон.
Ну, в принципе, 1 планка памяти до 512 сейчас, 256 уже есть. Но тут наверно 4 видеокарты требуется.
пара компов с 128Гб и пара по 32Гб
Раньше десктопные больше 128Гб не поддерживалину так что 256/512Гб дома думаю реально, через пару лет. Ну или сейчас но старые процы с али.
Ну и это вообще за недорого.
AMD TRX50 держит терабайт оперативки, и материнки не сказать чтобы космически стоят.
>AMD TRX50 держит терабайт оперативки, и материнки не сказать чтобы космически стоят.вы вообще не в теме. речь про VRAM. ты в эту материну 8 тесл засунешь с 80 ГБ? если нет, то щвaбоден ;)
Нет, нейросеть запускается на CPU и речь про RAM. Про видеопамять ничего на гитхабе не сказано.
> Нет, нейросеть запускается на CPU и речь про RAM.Да, вполне работает на CPU. Только чем больше модель тем медленнее она будет щевелится. Уже 70B модель на восьмиядерном процессоре работает как пошаговая стратегия: написал письмо и ждешь ответа.
Сами попробйте покрутить разные модели в LM Studio или Coboldcpp. Во всем наглядно убедитесь. Видеокарта дает хороший буст в скорости (если в нее хотя бы половина слоев модели влезает).
>У кого-то дома есть 320GB ОЗУ?ты не поверишь, но речь про 320ГБ ВИДЕОПАМЯТИ! в селектеле такие дедики 3-5 лимонов в месяц стоят.
а 320 ГБ рамы это попса, тыщ 30 и оно твоё.
БЯМ для богатых пацанов...
> 320ГБ ВИДЕОПАМЯТИ!Взаимозаменяемо с небольшой потерей производительности. Так что не в теме тут именно ВЫ.
>с небольшой потерей производительностивот дурачьё-то, покупают/арендуют кластеры с GPU, а эксперты опеннета всё на проце считают и тухлой оперативке )
> вот дурачьё-то, покупают/арендуют кластеры с GPU, а эксперты опеннета всё на проце считают и тухлой оперативке )Зависит от целей и задач. Если на этом деньги зарабатываешь, то и вложиться в аренду мощностей не грех. А чтоб из любопытства палочкой потыкать, то и на тухлом CPU модели крутить можно.
Только CPU не умеет в float16 считать, нужно приводить к стандартной плавучке одинарной точности. Так что 640 ГБ RAM и расчёты существенно медленнее.
А зачем тебе FP16? Чем INT8 не устраивает?
> покупают/арендуют кластеры с GPUИ снова газификация луж. Объясняю: кластеры арендуют либо для бизнес-задач, коммерции, либо для обучения. Ты уж если не в теме, то... кхм, скажу словами классика: "молчать и слушать, молчать и слушать, что вам говорят".
Если нужно можно недорого купить
https://video.simplex-software.ru/w/jezYPKBYPWDrwDaLqJs1UC
> По заявлению создателей модели, по своим характеристикам и возможностям DBRX превосходит модели GPT-3.5 от компании OpenAI и Grok-1 от Twitter, и может конкурировать с моделью Gemini 1.0 Pro при тестировании степени понимания языка, возможностей написания кода на языках программирования и решения математических задач.В современном бизнесе людей больше интересует сколько (американских) людей и денег в это вложилось. От этого и реклама в американских соцсетях будет плясать парадоксально укрепляя узнаваемость продукта. Думаете у Майкрософт в своё время не было конкурентов? Да были аналоги того же офиса, их сервисов получше этой конторки. Только об этом мало кто знал и хотел пользоваться потому что не популярно, ну в итоге эти продукты загнулись а мелкомягкие всё ещё на плаву.
Да и добавлю тот факт что Эпл, Майкрософт, Гугл достаточно хорошо узнаваемые конторы, тем не менее не самые богатые и не самые инновационные, но всего-то монополия основанная на узнаваемости их делает технологичными.
> В современном бизнесе людей больше интересует сколько (американских) людей и денег в это вложилось.В это? В этот пузырь, хотите сказать?
> Думаете у Майкрософт в своё время не было конкурентов?На судьбу Гэри Килдалла намекаете?
Во всем виноваты женщины))
У меня как раз 100500 терабайт оперативы без дела валяются, ну а где прямая или магнет-ссылка на загрузку? Что за регистрация? Уберите новость, никакая это не открытая модель.
А зачем загрузка? Нужно писать самим. Есть такой термин - "троянское обучение". Это когда вам подкидывают тему, на самом деле бесперспективную, на которую вы будете тратить все свои технологические ресурсы, но никогда не добьетесь результатов. Как пример, типа искусственного интеллекта из миллиардов персептронов, да еще на языке Python, который при прочих равных условиях медленнее С в 65 тысяч раз. Это мы еще об убогой предлагаемой архитектуре сети не говорили.
Толсто. На чистом Python только учебные задачи, а прод - на Python c либами на других языках. Дискомофорта DS-ты не испытывают от слова вообще, неважно на чем либа написана, важно что логика в файле *.py (чаще в *.ipynb). Все big-data платформы, внезапно, тоже используют Pytjhon, конвейеры, оркестраторы итд - все на нем кодится, но либы на С++/С/Fortran/Rust и всем таком типа быстром.
> Это когда вам подкидывают тему, на самом деле бесперспективную, на которую вы будете тратить все свои технологические ресурсы, но никогда не добьетесь результатов.Ярчайший пример, это попытки "торговать" на биржах роботами. Сам этой теме почти 6 лет жизни посветил, благо за зарплату. Итог ожидаемо нулевой - хаос нельзя предсказать (:
Опять решение математических задач? У лжеИИ???То есть если мы уберем способ решения теоремы Пифагора из обученной системы полностью - и дадим вводные которые были у самого Пифагора - решит эта система задачу? Выведет "теорему Пифагора" самостоятельно?
у неё нет системы вывода логического, зато есть память на миллиард ячеек.поэтому она может хорошо действовать по паттернам... ну как хорошо, надо хреналиард похожих ситуаций прогонять.
вывести она ничего не может, а попытаться угадать по контексту запросто... угодать, всмысле генерить случайный бред, пока ты, как наблюдатель, не решишь, что это норм ответ.
Ну и причем тут тогда Интеллект? То что ты описал - это алгоритм и не больше этого.
А кто тебе сказал, что это интеллект? Маркетологи :-)?..
Любой современный процессор(графический или ещё какой) + программа это машина Тьюринга по вычислительной мощности (с конечной лентой конечно же).все эти LLM по вычислительной мощности - машины Тьюринга или просто алгоритм, можно называть и так.
увелечение числа параметров модели = увеличение длины ленты.
Но даже машина Тьюринга с бесконечной лентой не может решить проблему останова.
подумай над этим.
Интересный вопрос, кстати. Возможно, что и да, сформулирует. Смотря какой ИИ и на чем специализирован. Вообще, сейчас все это пока ни о чем. Лет через 10 будет тема.
Родни Брукс в интервью высказал мысль что впереди еще одна зима искуственного интеллекта🤷, а также стагнация всей ИТ отрасли."Относительно отрасли ИИ, ученый отметил, что несмотря на беспрецедентный уровень успеха, индустрия "следует заезженным циклом ажиотажа, который мы видели снова и снова на протяжении более чем 60-летней истории ИИ"."
POST: PREDICTIONS SCORECARD, 2024 JANUARY 01
> еще одна зима искуственного интеллектаОжидаемо. Ибо недостаточны ещё вычислительные ресурсы для следующего скачка. Ведь вся идея нынешних LLM была заложена ВНЕЗАПНО в 50-х годах (а кое что и ранее), и только сейчас благодаря производительности GPU смогли приоткрыть завесу.
С тем же успехом вы могли бы сказать, что идея была заложена в 50-х годах XVIII века. Примерно тогда была заложена база матричных вычислений и дифференциальных уравнений. (а кое что и ранее) ;D
Все эти тесты - средняя температура по больнице. По факту, из опенсорсных решений, даже близко никто не приблизился к gpt-3.5. Вообще, кроме claude 3 opus и gpt-4 остальное - игрушки.
Всё зависит от того, какую задачу этим решениям поставить. Даже самые маленькие сети начинают демонстрировать очень неплохие результаты, когда применяются по своему прямому назначению - работе с текстом, при условии наличия всех или почти всех необходимых вводных в контексте.