zhub.link is one of the many independent Mastodon servers you can use to participate in the fediverse.

Administered by:

Server stats:

28
active users

#deepseek_v3

0 posts0 participants0 posts today

Дипсик не работает: Обходим ошибку Deepseek service is busy хитрым способом

DeepSeek всё чаще оказывается недоступен из-за перегруженности серверов. В этой статье решим проблему оригинальным способом – установим Дипсик локально, чтобы он работал вообще без подключения к Интернету.

habr.com/ru/articles/878498/

ХабрДипсик не работает: Обходим ошибку Deepseek service is busy хитрым способомDeepSeek взорвал рынок ИИ, и китайскую нейросеть уже наверное попробовал каждый. Однако из-за перегрузки чаще всего Дипсик не работает. Нейросеть не отвечает, отправляя ошибки типа: The server is...

HAI LLM: Как DeepSeek снизил стоимость обучения и генерации в разы без потери качества?

Компания HighFlyer внедрила в свою LLM такие архитектурные фишки как Multi-Head Latent Attention, Mixture of Experts (MoE) with Auxiliary-Loss-Free Load Balancing и Multi-Token Predict. Однако все эти новшества уже были ранее представлены в других LLM: GPT-4, Llama, Mistrall и других. Полистав WhitePaper HighFlyer, можно наткнуться на описание собственного непубличного тренировочного фреймворка HAI LLM , эксплуатирующего действительно новые фишки, которые позволяют значительно сэкономить на обучении модели. Именно в фреймворке и кроется, как мне кажется, одна из основных инноваций DeepSeek, о чем мне бы и хотелось поговорить далее. Приятного прочтения)

habr.com/ru/companies/bothub/a

ХабрHAI LLM: Как DeepSeek снизил стоимость обучения и генерации в разы без потери качества?Работу у AI отобрал другой AI ) Компания HighFlyer внедрила в свою LLM такие архитектурные фишки как Multi-Head Latent Attention, Mixture of Experts (MoE) with Auxiliary-Loss-Free Load Balancing и...

Deepseek v3: Как скачать китайскую нейросеть Дипсик AI, все способы

Рассказываю про способы, как можно установить китайскую модель локально и использовать без интернета. Причем так, чтобы работать не через консоль, а через удобный интерфейс чат-бота.

habr.com/ru/articles/877772/

ХабрDeepseek v3: Как скачать китайскую нейросеть Дипсик AI, все способыДипсик R1 - нашумевшая ИИ модель от китайской компании Deepseek AI. За основу взята модель Deepseek v3, возможности которой схожи с ChatGPT. Однако благодаря открытому исходному коду китайской...

[Перевод] Как работает модель DeepSeek-R1. Объясняем в иллюстрациях и схемах

DeepSeek-R1 — самая громкая новика в мире больших языковых моделей, сочетающий открытые веса, дистиллированные варианты и уникальную методику обучения рассуждению. Эта статья рассказывает, как создатели модели сумели добиться таких результатов, объединив широкомасштабное обучение с подкреплением, промежуточные модели и большой массив примеров с развёрнутыми цепочками мыслей, чтобы в итоге получить универсальную, эффективную и более удобочитаемую модель. Автор оригинала: Jay Alammar

habr.com/ru/articles/877360/

ХабрКак работает модель DeepSeek-R1. Объясняем в иллюстрациях и схемахDeepSeek-R1 — это самый громкий релиз последних дней в области искусственного интеллекта. Для сообщества исследователей и разработчиков машинного обучения (ML R&D) эта модель имеет особое значение...

[Перевод] Аномалии DeepSeek-v3 и DeepSeek-r1: глюкнутые токены и чат, теряющий идентичность

«Аномальные», «глючные» и «непроизносимые» токены в больших языковых моделях (LLM) — это те, которые вызывают странное поведение или не функционируют как обычный текст. Это явление было впервые открыто и задокументировано в случае GPT-2 и GPT-3 , но до сих пор таких аномалий не находили в DeepSeek‑V3 . Поэтому я решил сделать это сам. Поскольку V3 является опенсорсной SOTA‑моделью, обладающей весьма необычными свойствами, она показалась мне идеальным кандидатом. Перед вами обзор глючных токенов, которые я обнаружил в DeepSeek после ряда экспериментов, а также некоторые предварительные наблюдения об их поведении.

habr.com/ru/companies/bothub/a

ХабрАномалии DeepSeek-v3 и DeepSeek-r1: глюкнутые токены и чат, теряющий идентичность«Аномальные», «глючные» и «непроизносимые» токены в больших языковых моделях (LLM) — это те, которые вызывают странное поведение или не функционируют как обычный текст....
#ии#ai#deepseek