<?xml version="1.0" encoding="koi8-r"?>
<rss version="0.91">
<channel>
    <title>OpenForum RSS: Databricks открыл большую языковую модель DBRX, опережающую в тестах GPT-3.5</title>
    <link>https://opennet.ru/openforum/vsluhforumID3/133289.html</link>
    <description>Компания Databricks объявила об...&lt;br&gt;&lt;br&gt;Подробнее: https://www.opennet.ru/opennews/art.shtml?num=60911&lt;br&gt;</description>

<item>
    <title>Databricks открыл большую языковую модель DBRX, опережающую ... (s)</title>
    <link>https://opennet.ru/openforum/vsluhforumID3/133289.html#69</link>
    <pubDate>Wed, 10 Apr 2024 21:52:33 GMT</pubDate>
    <description>ClosedAI обучили свои модели ВСЕГДА генерировать текст в ответе. Всякие Ламы и Мистрали - нет, и зачастую позволяют такое. Буквально, модель сходу выдает EOS-токен как один из наиболее вероятных (или единственный вероятный, Mixtral и такое умеет), он семплируется, и генерация затыкается. Пользователь же в норме не видит EOS-токен и получает пустой ответ.&lt;br&gt;&lt;br&gt;А что касатется белого цвета - ну так из шума диффузия идёт! Модели чисто статистически тяжело вытянуть однородную заливку из псевдослучайной каши. Возьмите более светлую опорную картинку, и получите изображение в высоком ключе, и наоборот. А для однородной заливки, уж извините, проще ткнуть мышкой в фотошопе - не вижу тут прикладного смысла. &lt;br&gt;</description>
</item>

<item>
    <title>Databricks открыл большую языковую модель DBRX, опережающую ... (s)</title>
    <link>https://opennet.ru/openforum/vsluhforumID3/133289.html#68</link>
    <pubDate>Wed, 10 Apr 2024 21:37:09 GMT</pubDate>
    <description>Всё зависит от того, какую задачу этим решениям поставить. Даже самые маленькие сети начинают демонстрировать очень неплохие результаты, когда применяются по своему прямому назначению - работе с текстом, при условии наличия всех или почти всех необходимых вводных в контексте. &lt;br&gt;</description>
</item>

<item>
    <title>Databricks открыл большую языковую модель DBRX, опережающую ... (s)</title>
    <link>https://opennet.ru/openforum/vsluhforumID3/133289.html#67</link>
    <pubDate>Wed, 10 Apr 2024 21:31:22 GMT</pubDate>
    <description>С тем же успехом вы могли бы сказать, что идея была заложена в 50-х годах XVIII века. Примерно тогда была заложена база матричных вычислений и дифференциальных уравнений. (а кое что и ранее) ;D&lt;br&gt;</description>
</item>

<item>
    <title>Databricks открыл большую языковую модель DBRX, опережающую ... (s)</title>
    <link>https://opennet.ru/openforum/vsluhforumID3/133289.html#66</link>
    <pubDate>Wed, 10 Apr 2024 21:23:15 GMT</pubDate>
    <description>А зачем тебе FP16? Чем INT8 не устраивает?&lt;br&gt;</description>
</item>

<item>
    <title>Databricks открыл большую языковую модель DBRX, опережающую ... (Аноним)</title>
    <link>https://opennet.ru/openforum/vsluhforumID3/133289.html#65</link>
    <pubDate>Sat, 06 Apr 2024 12:16:50 GMT</pubDate>
    <description>Только CPU не умеет в float16 считать, нужно приводить к стандартной плавучке одинарной точности. Так что 640 ГБ RAM и расчёты существенно медленнее.&lt;br&gt;</description>
</item>

<item>
    <title>Databricks открыл большую языковую модель DBRX, опережающую ... (Аноним)</title>
    <link>https://opennet.ru/openforum/vsluhforumID3/133289.html#64</link>
    <pubDate>Fri, 05 Apr 2024 00:07:11 GMT</pubDate>
    <description>Не поверишь, но ещё в 2000-х в универе мы писали код для распознавания капчи на основе нейронок. Обойтись можно было парой мегабайт. Так что, твои алгоритмы вряд ли что-то более сложное, чем обыкновенный перцептрон.&lt;br&gt;</description>
</item>

<item>
    <title>Databricks открыл большую языковую модель DBRX, опережающую ... (Аноним)</title>
    <link>https://opennet.ru/openforum/vsluhforumID3/133289.html#63</link>
    <pubDate>Fri, 05 Apr 2024 00:00:04 GMT</pubDate>
    <description>&amp;gt; покупают/арендуют кластеры с GPU&lt;br&gt;&lt;br&gt;И снова газификация луж. Объясняю: кластеры арендуют либо для бизнес-задач, коммерции, либо для обучения. Ты уж если не в теме, то... кхм, скажу словами классика: &quot;молчать и слушать, молчать и слушать, что вам говорят&quot;.&lt;br&gt;</description>
</item>

<item>
    <title>Databricks открыл большую языковую модель DBRX, опережающую ... (Аноним)</title>
    <link>https://opennet.ru/openforum/vsluhforumID3/133289.html#62</link>
    <pubDate>Thu, 04 Apr 2024 11:39:45 GMT</pubDate>
    <description>&amp;gt; вот дурачьё-то, покупают/арендуют кластеры с GPU, а эксперты опеннета всё на проце считают и тухлой оперативке )&lt;br&gt;&lt;br&gt;Зависит от целей и задач. Если на этом деньги зарабатываешь, то и вложиться в аренду мощностей не грех. А чтоб из любопытства палочкой потыкать, то и на тухлом CPU модели крутить можно.&lt;br&gt;</description>
</item>

<item>
    <title>Databricks открыл большую языковую модель DBRX, опережающую ... (Аноним)</title>
    <link>https://opennet.ru/openforum/vsluhforumID3/133289.html#61</link>
    <pubDate>Thu, 04 Apr 2024 10:53:27 GMT</pubDate>
    <description>&amp;gt; Нет, нейросеть запускается на CPU  и речь про RAM.&lt;br&gt;&lt;br&gt;Да, вполне работает на CPU. Только чем больше модель тем медленнее она будет щевелится. Уже 70B модель на восьмиядерном процессоре работает как пошаговая стратегия: написал письмо и ждешь ответа.&lt;br&gt;Сами попробйте покрутить разные модели в LM Studio или Coboldcpp. Во всем наглядно убедитесь. Видеокарта дает хороший буст в скорости (если в нее хотя бы половина слоев модели влезает).&lt;br&gt;</description>
</item>

</channel>
</rss>
