zhub.link is one of the many independent Mastodon servers you can use to participate in the fediverse.

Administered by:

Server stats:

28
active users

#Data_Scientist

0 posts0 participants0 posts today

Введение в синтетические данные для ML: зачем они нужны?

Генерация документов, лиц и даже симуляция целых атак: как далеко можно зайти в создании и использовании синтетических данных? В этой статье Артур Казукевич, Data Science Engineer в Data Light, расскажет, почему синтетика становится крупнейшей тенденцией в сфере ML, как такие данные можно использовать и какие ограничения для генерации существуют, а также поделится своим опытом.

habr.com/ru/companies/data_lig

ХабрВведение в синтетические данные для ML: зачем они нужны?Генерация документов, лиц и даже симуляция целых атак: как далеко можно зайти в создании и использовании синтетических данных? В этой статье Артур Казукевич, Data Science Engineer в Data Light,...

Как растут data science-инженеры и что советуют синьоры, чтобы развиваться быстрее

Привет, на связи Светлана Морозова и Сергей Кляхандлер из команды data science Авито . Рассказываем, как у нас устроен рост сотрудников, поговорим и о особенностях этого процесса в big tech-компаниях в целом и в Авито в частности. Статья будет интересна всем, кто хочет развиваться в профессии или просто ищет работу в направлении data science.

habr.com/ru/companies/avito/ar

ХабрКак растут data science-инженеры и что советуют синьоры, чтобы развиваться быстрееПривет, на связи Светлана Морозова и Сергей Кляхандлер из команды data science Авито . Рассказываем, как у нас устроен рост сотрудников, поговорим и о особенностях этого процесса в big tech-компаниях...

Дата-сайентистам: рецензия на книгу “Машинное обучение с PyTorch и Scikit-Learn”

Это наконец случилось: в русском переводе вышла самая объемная из когда-либо издававшихся книг по машинному и глубокому обучению. "Machine Learning with PyTorch and Scikit-Learn" Себастьяна Рашки и его соавторов — это огромное, почти на 800 страниц, руководство по практическому применению Python в сфере Data Science. Книга изначально планировалась как 4-е издание "Python Machine Learning", но из-за множества изменений авторы решили выпустить его под новым названием. Ввиду достаточно высокой цены, вам пригодится наш промокод SSPSOFT для покупки этой книги со скидкой 25%.

habr.com/ru/companies/ssp-soft

ХабрДата-сайентистам: рецензия на книгу “Машинное обучение с PyTorch и Scikit-Learn”Это случилось: в русском переводе вышла самая объемная из когда-либо издававшихся книг по машинному и глубокому обучению. "Machine Learning with PyTorch and Scikit-Learn" Себастьяна Рашки и его...

Дата-сайентистам: «Обработка данных на Python. Data Wrangling и Data Quality»

В этом посте познакомим специалистов по изучению данных (Data Scientists) с довольно интересной книгой Сьюзан МакГрегор, дающей пошаговые рекомендации по извлечению зависимостей (автор называет их insights) из неочищенных наборов данных с помощью конструкций на языке Python. «Эта книга заполняет пробел в литературе по обработке данных на Python. Она предлагает весьма необходимое практическое руководство по очистке, преобразованию и подготовке к анализу наборов сырых данных.» — рецензия на Amazon.

habr.com/ru/companies/ssp-soft

ХабрДата-сайентистам: «Обработка данных на Python. Data Wrangling и Data Quality»В этом посте познакомим специалистов по изучению данных (Data Scientists) с довольно интересной книгой Сьюзан МакГрегор, дающей пошаговые рекомендации по извлечению зависимостей...

Красиво и понятно: какие инструменты для визуализации данных нужны дата-аналитику

Ежедневно аналитики обрабатывают массу данных в формате таблиц. Они хорошо ориентируются в них и видят взаимосвязи. Но для коллег из других сфер такой объем неструктурированной информации может быть шокирующим. Сделать данные более наглядными помогает визуализация графиков и таблиц. Собрали подборку инструментов для визуализации данных из сложных таблиц в читабельные дашборды.

habr.com/ru/companies/skillfac

ХабрКрасиво и понятно: какие инструменты для визуализации данных нужны дата-аналитикуЕжедневно аналитики обрабатывают массу данных в формате таблиц. Они хорошо ориентируются в них и видят взаимосвязи. Но для коллег из других сфер такой объем неструктурированной информации может быть...

Вопросы и задачи по SQL на собеседованиях 2024: готовьтесь эффективно

В 2024 году вопросы и тестовые задания на собеседованиях не потеряли своей актуальности и продолжают вызывать огромный интерес у соискателей. Если вы сейчас погружены в процесс прохождения интервью, то наверняка сталкиваетесь с множеством непростых, но захватывающих задач. Давайте вместе рассмотрим некоторые из новых вопросов и задач, которые реально задаются на собеседованиях в различных командах. Эти примеры основаны на моем собственном опыте и актуальны на сегодняшний день. Новые вопросы и задачи будут публиковаться по мере их поступления и прохождения собеседований.

habr.com/ru/articles/816537/

ХабрВопросы и задачи по SQL на собеседованиях 2024: готовьтесь эффективноВ 2024 году вопросы и тестовые задания на собеседованиях не потеряли своей актуальности и продолжают вызывать огромный интерес у соискателей. Если вы сейчас погружены в процесс прохождения интервью,...

Как мы упростили процесс интерактивной визуализации данных в веб-приложении, используя HoloViews

Идея этой статьи родилась, когда наша команда занималась разработкой минимально жизнеспособного продукта (MVP) внутренней веб-системы, важной составляющей которой было визуальное представление данных, а именно результатов работы различных анализаторов исходного кода программного обеспечения. Из всего разнообразия библиотек визуализации в веб мы выбрали HoloViews, поскольку она в наибольшей степени соответствовала компетенциям нашей команды, костяк которой в силу специфики проекта составляли специалисты по анализу данных. Однако для успешной интеграции HoloViews в веб-приложение нам, как разработчикам, пришлось проявить и некоторую изобретательность. Мы посчитали, что имеет смысл поделиться этим опытом, поскольку в одном месте подобный материал до сих пор нигде не был собран.

habr.com/ru/companies/astralin

ХабрКак мы упростили процесс интерактивной визуализации данных в веб-приложении, используя HoloViewsИдея этой статьи родилась, когда наша команда занималась разработкой минимально жизнеспособного продукта (MVP) внутренней веб-системы, важной составляющей которой было визуальное представление данных,...

Материалы для подготовки к собеседованию на позицию Data Scientist. Часть 2: Классическое машинное обучение

Привет! Меня зовут Артем. Я работаю Data Scientist'ом в компании МегаФон (платформа для безопасной монетизации данных OneFactor ). Мы строим скоринговые (credit scoring), лидогенерационные (lead generation) и антифрод (anti-fraud) модели на телеком данных, а также делаем гео-аналитику (geoanalytics). В предыдущей статье я поделился материалами для подготовки к одному из самых волнительных (для многих) этапов - Live Coding. В этой статье рассмотрим материалы, которые можно использовать для подготовки к секции по классическому машинному обучению.

habr.com/ru/companies/megafon/

ХабрМатериалы для подготовки к собеседованию на позицию Data Scientist. Часть 2: Классическое машинное обучениеПривет! Меня зовут Артем. Я работаю Data Scientist'ом в компании МегаФон (платформа для безопасной монетизации данных  OneFactor ). Мы строим скоринговые (credit scoring), лидогенерационные (lead...

40 Полезных инструментов Дата Саентиста

В мире науки о данных существует бесчисленное множество библиотек и инструментов, которые помогают ускорить работу и повысить эффективность анализа. Но что если я расскажу вам о некоторых полезных библиотеках, о которых вы скорее всего не слышали? В списке не будет всем известных библиотек таких, как Pandas, Polars, Scipy и тд Сегодня, благодаря активному сообществу разработчиков, практически для любой задачи на Python можно найти готовый и полезный инструмент, который поможет вам в решении самых сложных задач. Надеюсь, вы найдете что-то полезное для себя. Читать

habr.com/ru/articles/795785/

Хабр40 Полезных инструментов Дата СаентистаВ мире науки о данных существует бесчисленное множество библиотек и инструментов, которые помогают ускорить работу и повысить эффективность анализа. Но что если я расскажу вам о некоторых полезных...

Особенности машинного обучения в нефтегазовой отрасли

Привет, меня зовут Олег Свидченко, я — Chief Data Scientist. Работаю в ассоциации «Цифровые технологии в промышленности». Если вы недавно перешли из крупной технологической компании в нефтегазовую или только планируете этот переход, либо слышали про машинное обучение только в теории, но у вас нет практики его применения в конкретных, особенно промышленных проектах, эта статья для вас. Когда я искал новое место работы, сперва рассматривал крупные IT-компании, но решил, что мне неинтересно допиливать 0,1% к точности поиска. А в промышленности — непаханное поле, можно внедрять интересные технологии крупными мазками и решать задачи, которые еще не исследовались. Хотя меня пугали страшилками, что будет строгий дресс-код, жесткий график, неудобный офис и скучные проекты...

habr.com/ru/companies/oleg-bun

ХабрОсобенности машинного обучения в нефтегазовой отраслиПривет, меня зовут Олег Свидченко, я — Chief Data Scientist. Работаю в ассоциации «Искусственный интеллект в промышленности» (с ноября мы - Ассоциация “Цифровые технологии в промышленности”). Если вы...

Введение в SQL & СУБД на примере доступа к данным через Python

Краткое введение в SQL (+СУБД) на примере доступа к данным через Python. Я начинающий Data Scientist и решил написать статью где будет базовое введение в sql, а также как извлекать данные через разные способы (SQLalchemy, Requests). Читать далеее

habr.com/ru/articles/783260/

ХабрВведение в SQL & СУБД на примере доступа к данным через PythonПриветствую всех! Меня зовут Адахан, и я студент колледжа TSI при факультете "Программная инженерия и высокие технологии" (коротко: будущий Data Scientist) . Решив написать статью, я решил поделиться...

Почему работа с данными так популярна: Data Scientist, Big Data и объектное хранение

По оценкам Cybersecurity Ventures, к 2025 году общий объем данных в облаках достигнет 100 зеттабайт, или 50% всех мировых данных на тот момент. Ландшафт хранения этой информации разнообразен: от недорогих обычных серверов до огромных хранилищ на сотни петабайт. При экспоненциальном росте информации возможности работы с данными расширяются. Отчет LinkedIn о новых вакансиях показывает, что мировой рынок работы в области науки о данных вырастет до 230,80 млрд долларов к 2026 году. Наука о данных является востребованной, интересной, и, казалось бы, очень сложной областью знаний. Однако хорошая новость заключается в том, что она доступна для новичков. В статье мы разберемся, с какими базовыми основами нужно познакомиться при работе с данными.

habr.com/ru/companies/cloud_mt

ХабрПочему работа с данными так популярна: Data Scientist, Big Data и объектное хранениеПо оценкам Cybersecurity Ventures, к 2025 году общий объем данных в облаках достигнет 100 зеттабайт, или 50% всех мировых данных на тот момент. Ландшафт хранения этой информации разнообразен: от...