Revertron @Revertron

0 posts0 participants0 posts today

**Habr** @habr · Feb 15

Дипсик не работает: Обходим ошибку Deepseek service is busy хитрым способом

DeepSeek всё чаще оказывается недоступен из-за перегруженности серверов. В этой статье решим проблему оригинальным способом – установим Дипсик локально, чтобы он работал вообще без подключения к Интернету.

https://habr.com/ru/articles/878498/

ХабрДипсик не работает: Обходим ошибку Deepseek service is busy хитрым способомDeepSeek взорвал рынок ИИ, и китайскую нейросеть уже наверное попробовал каждый. Однако из-за перегрузки чаще всего Дипсик не работает. Нейросеть не отвечает, отправляя ошибки типа: The server is...

#deepseek_r1 #deepseek_v3 #deepseek_ai

**Habr** @habr · Feb 2

Feb 2

Habr @habr

HAI LLM: Как DeepSeek снизил стоимость обучения и генерации в разы без потери качества?

Компания HighFlyer внедрила в свою LLM такие архитектурные фишки как Multi-Head Latent Attention, Mixture of Experts (MoE) with Auxiliary-Loss-Free Load Balancing и Multi-Token Predict. Однако все эти новшества уже были ранее представлены в других LLM: GPT-4, Llama, Mistrall и других. Полистав WhitePaper HighFlyer, можно наткнуться на описание собственного непубличного тренировочного фреймворка HAI LLM , эксплуатирующего действительно новые фишки, которые позволяют значительно сэкономить на обучении модели. Именно в фреймворке и кроется, как мне кажется, одна из основных инноваций DeepSeek, о чем мне бы и хотелось поговорить далее. Приятного прочтения)

https://habr.com/ru/companies/bothub/articles/878742/

ХабрHAI LLM: Как DeepSeek снизил стоимость обучения и генерации в разы без потери качества?Работу у AI отобрал другой AI ) Компания HighFlyer внедрила в свою LLM такие архитектурные фишки как Multi-Head Latent Attention, Mixture of Experts (MoE) with Auxiliary-Loss-Free Load Balancing и...

#deepseek #hai_llm #HighFlyer

**Habr** @habr · Jan 29

Jan 29

Habr @habr

Deepseek v3: Как скачать китайскую нейросеть Дипсик AI, все способы

Рассказываю про способы, как можно установить китайскую модель локально и использовать без интернета. Причем так, чтобы работать не через консоль, а через удобный интерфейс чат-бота.

https://habr.com/ru/articles/877772/

ХабрDeepseek v3: Как скачать китайскую нейросеть Дипсик AI, все способыДипсик R1 - нашумевшая ИИ модель от китайской компании Deepseek AI. За основу взята модель Deepseek v3, возможности которой схожи с ChatGPT. Однако благодаря открытому исходному коду китайской...

#deepseek #deepseek_v3 #deepseek_r1

**Habr** @habr · Jan 28

Jan 28

Habr @habr

[Перевод] Как работает модель DeepSeek-R1. Объясняем в иллюстрациях и схемах

DeepSeek-R1 — самая громкая новика в мире больших языковых моделей, сочетающий открытые веса, дистиллированные варианты и уникальную методику обучения рассуждению. Эта статья рассказывает, как создатели модели сумели добиться таких результатов, объединив широкомасштабное обучение с подкреплением, промежуточные модели и большой массив примеров с развёрнутыми цепочками мыслей, чтобы в итоге получить универсальную, эффективную и более удобочитаемую модель. Автор оригинала: Jay Alammar

https://habr.com/ru/articles/877360/

ХабрКак работает модель DeepSeek-R1. Объясняем в иллюстрациях и схемахDeepSeek-R1 — это самый громкий релиз последних дней в области искусственного интеллекта. Для сообщества исследователей и разработчиков машинного обучения (ML R&D) эта модель имеет особое значение...

#nature #ai #artificial_intelligence

**Habr** @habr · Jan 28

Jan 28

Habr @habr

[Перевод] Аномалии DeepSeek-v3 и DeepSeek-r1: глюкнутые токены и чат, теряющий идентичность

«Аномальные», «глючные» и «непроизносимые» токены в больших языковых моделях (LLM) — это те, которые вызывают странное поведение или не функционируют как обычный текст. Это явление было впервые открыто и задокументировано в случае GPT-2 и GPT-3 , но до сих пор таких аномалий не находили в DeepSeek‑V3 . Поэтому я решил сделать это сам. Поскольку V3 является опенсорсной SOTA‑моделью, обладающей весьма необычными свойствами, она показалась мне идеальным кандидатом. Перед вами обзор глючных токенов, которые я обнаружил в DeepSeek после ряда экспериментов, а также некоторые предварительные наблюдения об их поведении.

https://habr.com/ru/companies/bothub/articles/877326/

ХабрАномалии DeepSeek-v3 и DeepSeek-r1: глюкнутые токены и чат, теряющий идентичность«Аномальные», «глючные» и «непроизносимые» токены в больших языковых моделях (LLM) — это те, которые вызывают странное поведение или не функционируют как обычный текст....

#ии #ai #deepseek

Recent searches

Search options

Administered by:

Server stats:

#deepseek_v3