Data Engineering | про инжиниринг данных и аналитику

🏢 %company% Engineering

AirBnb Engineering
последний пост 6 days, 23 hours назад

Airbnb Brandometer: Powering Brand Perception Measurement on Social Media Data with AI

Introducing Trio | Part III

Chronon, Airbnb’s ML Feature Platform, Is Now Open Source

Introducing Trio | Part II

Introducing Trio | Part I

Migrating Our iOS Build System from Buck to Bazel

Airbnb at KDD 2023

Transforming CRM DevOps at Airbnb: A Powerful Framework for Continuous Delivery

Data Quality Score: The next chapter of data quality at Airbnb

Wisdom of Unstructured Data: Building Airbnb’s Listing Knowledge from Big Text Data

My Journey to Airbnb — Helena Zarazua

Unlocking SwiftUI at Airbnb

Riverbed: Optimizing Data Access at Airbnb’s Scale

Chronon — A Declarative Feature Engineering Framework

Netflix Engineering
последний пост 3 weeks, 2 days назад

The Making of VES: the Cosmos Microservice for Netflix Video Encoding

Reverse Searching Netflix’s Federated Graph

Sequential Testing Keeps the World Streaming Netflix Part 2: Counting Processes

Supporting Diverse ML Systems at Netflix

Bending pause times to your will with Generational ZGC

Evolving from Rule-based Classifier: Machine Learning Powered Auto Remediation in Netflix Data…

Announcing bpftop: Streamlining eBPF performance optimization

Sequential A/B Testing Keeps the World Streaming Netflix Part 1: Continuous Data

Introducing SafeTest: A Novel Approach to Front End Testing

Rebuilding Netflix Video Processing Pipeline with Microservices

Our First Netflix Data Engineering Summit

All of Netflix’s HDR video streaming is now dynamically optimized

Netflix Original Research: MIT CODE 2023

Causal Machine Learning for Creative Insights

Incremental Processing using Netflix Maestro and Apache Iceberg

Pinterest Engineering
последний пост 1 week, 3 days назад

Web Performance Regression Detection (Part 1 of 3)

How we built Text-to-SQL at Pinterest

The Field Guide to Non-Engagement Signals

LinkSage: GNN-based Pinterest Off-site Content Understanding

Improving Efficiency Of Goku Time Series Database at Pinterest (Part 2)

User Action Sequence Modeling for Pinterest Ads Engagement Modeling

Unlocking AI Assisted Development Safely: From Idea to GA

Migrating Policy Delivery Engines with (almost) Nobody Knowing

Handling Online-Offline Discrepancy in Pinterest Ads Ranking System

Evolution of Ads Conversion Optimization Models at Pinterest

Building Pinterest’s new wide column database using RocksDB

The Top Pinterest Engineering Blog posts from 2023

A Glimpse into the Redesigned Goku-Ingestor vNext at Pinterest

Improving Efficiency Of Goku Time Series Database at Pinterest (Part — 1)

Running Unified PubSub Client in Production at Pinterest

Facebook
последний пост 3 weeks назад

Building new custom silicon for Meta’s AI workloads

Introducing the next-gen Meta Training and Inference Accelerator

Optimizing RTC bandwidth estimation with machine learning

Logarithm: A logging engine for AI training workflows and services

Building Meta’s GenAI Infrastructure

Improving machine learning iteration speed with faster application build and packaging

Lazy is the new fast: How Lazy Imports and Cinder accelerate machine learning at Meta

How Meta is advancing GenAI

AI debugging at Meta with HawkEye

Watch: Meta’s engineers on building network infrastructure for AI

How Meta is creating custom silicon for AI

Using Chakra execution traces for benchmarking and network performance optimization

Arcadia: An end-to-end AI system performance simulator

Code Llama: Meta’s state-of-the-art LLM for coding

Meta Connect 2023: September 27 – 28

Uber Engineering
последний пост None

Spotify Engineering
последний пост 3 days, 6 hours назад

Supercharged Developer Portals

Data Platform Explained

Risk-Aware Product Decisions in A/B Tests with Multiple Metrics

Applying the Facade Pattern on Spotify for Artists

Exploring the Animation Landscape of 2023 Wrapped

Q&A with the Maintainers of the Spotify FOSS Fund

Recursive Embedding and Clustering

The What, Why, and How of Mastering App Size

Spotify Wins CNCF Top End User Award for the Second Time!

How We Automated Content Marketing to Acquire Users at Scale

Introducing Voyager: Spotify’s New Nearest-Neighbor Search Library

Announcing the Recipients of the 2023 Spotify FOSS Fund

Exclude from Your Taste Profile

Switching Build Systems, Seamlessly

Managing Software at Scale: Kelsey Hightower Talks with Niklas Gustavsson about Fleet Management

Ripple Engineering
последний пост 3 months назад

Ripple's Centralized Data Platform

Dmitry Anoshin recommends

Snowflake
последний пост 23 часа назад

Moving Beyond MTEB and BEIR: Snowflake AI Research Joins Forces with the University of Waterloo to Evolve RAG and Retrieval Benchmarks

Snowflake’s Arctic-TILT: A State-of-the-Art Document Intelligence LLM in a Single A10 GPU

Top 8 Snowflake Marketplace Questions, Answered

Meet the 2024 Snowflake Startup Challenge Finalists

How the EU’s Digital Operations Resilience Act (DORA) Aims To Strengthen Operational Resilience in Financial Services

Snowflake Arctic: The Best LLM for Enterprise AI — Efficiently Intelligent, Truly Open

Ensono Cuts Costs with Snowflake Connector for ServiceNow

Magnite’s Seamless Petabyte Scale Cross-Region Migration with Snowgrid

How to Navigate the Costs of Legacy SIEMS with Snowflake

Snowflake’s New Python API Empowers Data Engineers to Build Modern Data Pipelines with Ease

How Marketers Can Enter the First-Party Data Era with Confidence

Snowflake Launches the World’s Highest-Ranked Practical Text-Embedding Model for Retrieval use Cases

New Snowflake Features Released in March 2024

A Breakthrough AI-Powered SQL Assistant

Snowflake Achieves C5 and TISAX Certifications, Expanding Compliance Scope in Germany

Cloudera
последний пост 2 months, 3 weeks назад

DNS Zone Setup Best Practices on Azure

Apache Ozone – A Multi-Protocol Aware Storage System

Smart Data
последний пост 19 часов назад

Top Tips for Keeping Your AI Startup’s IT Staff Inspired

AI-Powered Analytics: Unveiling Hidden Insights in Point-of-Sale Data

AI Could Change DUI Terms for Future Turo Insurance Policies

How AI Is Changing Data Analytics in 2024

AI Helps Improve About Managed Detection and Response

Could AI Have Prevented the Houston Metro Bus Incident?

New AI Tech Careers Stemming from Remote Education

Role of AI-Driven Image Recognition in Modern Security

New AI Startups Surpass ChatGPT for Legal Solutions

Can AI Help You Get Better Headshots?

Why the Best Accident Lawyers Are Using AI

Analyzing the Role of Big Data in Modernizing American Elections

AI Helps Telehealth Companies Manage Chronic Illnesses

Revenue Models for AI-Powered Mobile Apps

More Marketing Agencies Utilize AI to Embrace Automation

Knoldus
последний пост 6 months, 1 week назад

Spring WebFlux — WebClient – Duplicate – [#180397]

An Introduction to Kafka’s Internals – Duplicate – [#159280]

We Cloud Data
последний пост 1 month, 1 week назад

Using Machine Learning to Distinguish Between Spam and Legitimate Emails

Navigating your way: Traffic Prediction with Machine Learning

Analyzing Remote Work Opportunities in Today’s North America Job Market

Energy Management: Solar Power Generation Forecasting

Smart Agriculture: How Machine Learning is Helping Farming

More Accurate Predictions for Your Day: Machine Learning in Weather Forecasting

Data Science Job Market Trends: Navigating the Shifts from 2023 to 2024

Machine Learning in Entertainment: Customizing Movie Recommendations

Online Shopping Redefined: Predicting Shopper Behavior with Machine Learning

Enhancing Everyday Healthcare with Machine Learning: Early Disease Detection

Navigating the Path to Become a Machine Learning Engineer in 2024: A Step-by-Step Guide

Different between Data Science, Engineering, and Analysis

Crafting an Effective Resume with OpenAI

Cloud Engineering and DevOps: Insights for 2024

Fraud Detection in the Banking Industry: Leveraging Machine Learning for Credit Card Fraud Detection

Learn Data Engineering
последний пост None

SCRIBD
последний пост 2 months, 4 weeks назад

The Evolution of the Machine Learning Platform

Jesse Anderson
последний пост 3 weeks, 2 days назад

Unapologetically Technical Episode 10 – Michael Drogalis

Why Most Data Projects Fail & How to Avoid It at GOTO 2023

Unapologetically Technical Episode 9 – Gunnar Morling

Unapologetically Technical Episode 8 – Tom Scott

The State of Data Engineering at Data Day Texas 2024

Unapologetically Technical Episode 7 – Stephane Derosiaux

The Difference Between Learning and Doing

Unapologetically Technical Episode 6 – Matteo Merli

The Data Discovery Team

Unapologetically Technical Episode 5 – Neil Avery

Current 2023 Announcements

GPT and LLMs from a Data Engineering Perspective

Data Quest
последний пост None

Infrastructure

AWS
последний пост 1 час назад

Tune replication performance with AWS DMS for an Amazon Kinesis Data Streams target endpoint – Part 3

Tune replication performance with AWS DMS for an Amazon Kinesis Data Streams target endpoint – Part 2

Tune replication performance with AWS DMS for an Amazon Kinesis Data Streams target endpoint – Part 1

AWS Inferentia and AWS Trainium deliver lowest cost to deploy Llama 3 models in Amazon SageMaker JumpStart

Revolutionize Customer Satisfaction with tailored reward models for your business on Amazon SageMaker

Revolutionizing data querying: Amazon Redshift and Visual Studio Code integration

Amazon Personalize launches new recipes supporting larger item catalogs with lower latency

Get started with Amazon Titan Text Embeddings V2: A new state-of-the-art embeddings model on Amazon Bedrock

Automate Terraform Deployments with Amazon CodeCatalyst and Terraform Community action

Simple guide to training Llama 2 with AWS Trainium on Amazon SageMaker

Analyze more demanding as well as larger time series workloads with Amazon OpenSearch Serverless

Fine-tune and deploy language models with Amazon SageMaker Canvas and Amazon Bedrock

Detect and handle data skew on AWS Glue

Improving inclusion and accessibility through automated document translation with an open source app using Amazon Translate

How Fujitsu implemented a global data mesh architecture and democratized data

AWS
последний пост 1 час назад

Automate chatbot for document and data retrieval using Agents and Knowledge Bases for Amazon Bedrock

Build private and secure enterprise generative AI apps with Amazon Q Business and AWS IAM Identity Center

Enhance customer service efficiency with AI-powered summarization using Amazon Transcribe Call Analytics

Scale your relational database for SaaS, Part 2: Sharding and routing

Scale your relational database for SaaS, Part 1: Common scaling patterns

Perform a side-by-side upgrade in AWS DMS by moving tasks to minimize business impact

Improve query performance using partial indexes in Amazon DocumentDB

Introducing Amazon Q data integration in AWS Glue

Accelerate software development and leverage your business data with generative AI assistance from Amazon Q

Amazon Q Business and Amazon Q in QuickSight empowers employees to be more data-driven and make better, faster decisions using company knowledge

Blockchain node deployment on AWS: A comprehensive guide

Monitor Amazon RDS for Oracle instances using Oracle Enterprise Manager

Develop and train large models cost-efficiently with Metaflow and AWS Trainium

Cohere Command R and R+ are now available in Amazon SageMaker JumpStart

Dive deep into security management: The Data on EKS Platform

Astronomer
последний пост None

DBT — Data Build Tool
последний пост None

FiveTran
последний пост None

DataBricks
последний пост None

Mix

/r/DataEngineering
последний пост 1 час назад

Agg function vs group by

BI tool suggestion?

Fractal Analytics Azure Data Engineer

Medallion Architecture - anyone moving away from it?

How many of you have to track your time on tickets?

My hands-on experience with embedded databases: what I’ve learned about SQLite, DuckDB, and others

Azure SQL database auth help

A Simple Modern Data Stack Pipeline

Distributed consistency made as simple as a few extra lines in a property file and some new modules in a pom.xml

Thoughts about designing a data governance solution for small businesses

Want to know how to leverage the capabilities of kdb+ using Python?

APIs or data sources for restaurant-related data

Is Anyone Using Mage AI in Production? Looking for Insights!

Dataset needed for Black Friday sales

Towards Data Science
последний пост 8 часов назад

Extracting Information from Natural Language Using Generative AI

Reducing the Size of Docker Images Serving LLM Models

Self-Instruct Framework, Explained

From Probabilistic to Predictive: Methods for Mastering Customer Lifetime Value

How to Supercharge Your Python Classes with Class Methods

Job Search 2.0-Turbo

Environmental Implications of the AI Boom

How to Build Data Pipelines for Machine Learning

Starting ML Product Initiatives on the Right Foot

From Social Science to Data Science

HELP! We’ve Been HECS’d

Data Science Unicorns, RAG Pipelines, a New Coefficient of Correlation, and Other April Must-Reads

How to Use Re-Ranking for Better LLM RAG Retrieval

Introduction to Computer Vision for Climate Change

Understand SQL Window Functions Once and For All

Monte Carlo Data
последний пост 1 month назад

Monte Carlo Recognized as the #1 Data Observability Platform by G2 for Fourth Consecutive Quarter

3 Simple Steps For Snowflake Cost Optimization Without Getting Too Crazy

Monte Carlo Brings Data Observability to Microsoft Azure Synapse and Microsoft Fabric

Scaling Data Quality for Innovation and Growth: Aircall’s Data Observability Journey

Data Quality Testing: 7 Essential Tests

Is Prompt Engineering Overhyped? No—But Learn These 3 GenAI Skills Too

How To Implement Data Mesh: Top Tips From 4 Data Leaders

Modern Data Quality Management: A Proven 6 Step Guide

4 GenAI Opportunities from Real Data Teams

Best Data Observability Tools (with RFP Template and Analyst Reports)

Building Spark Lineage For Data Lakes

How JetBlue Used Data Observability To Help Improve Internal “Data NPS” By 16 Points Year Over Year

Why Your Data Incident Management Process Is Broken…And 5 Steps to Fix It.

Implementing Data Contracts in the Data Warehouse

Experts Share the 5 Pillars Transforming Data & AI in 2024

DE Telegram

DataEng
последний пост 3 weeks, 4 days назад

Airflow 2.9Буквально час назад вышла новая версия Apache Airflow — 2.9. В релизе очень много изменений и фиксов, а также новых фич:— поддержка Python 3.12— Listener API стабилизировался и его можно использовать в продакшене— Поддержка multiple executors (A

У ребят из PostgresPro есть отличные, а главное бесплатные, книги по PostgreSQL: https://postgrespro.ru/education/books

Убийца DuckDB 🔫А вы уже видели аналог DuckDB от ребят из ClickHouse? Называется это чудо chDB. Представляет из себя встроенную OLAP базу данных под капотом которой пыхтит движок ClickHouse. Умеет в Parquet, Arrow, ORC и кучу других форматов, есть биндинги

Ребята, всем привет! 🤝Вас стало ещё больше и поэтому я хотел напомнить о существовании моего другого телеграм-канала с вакансиями в области DataEng, DataOps и DBA: https://t.me/dataeng_jobsВ этот канал автоматически попадают вакансии по вышеупомянутым кате

Курс про Apache Airflow бесплатноРешил выложить свой курс про Apache Airflow абсолютно бесплатно для всех: Apache Airflow 2.2: практический курсЗа то время что существует курс, Apache Airflow успел обрасти множеством новых фич, которые только предстоит пок

Всем привет!Я сделал курс по Luigi бесплатным для всех, велком изучать — Введение в Data Engineering: дата-пайплайныLuigi это компактный инструмент для построения зависимых между собой задач на базе нескольких сущностей: Task, Target. Он идеально подойдёт

В очередной раз наткнулся в сети на статью про эксплуатацию Apache Airflow в среде Kubernetes: What we learned after running Airflow on Kubernetes for 2 years. У автора развёрнут Airflow с 300 дагами и около 5 000 задачами. Преимущественно они запускают лё

Сейчас много шума вокруг DuckDB. Это компактная OLAP база данных на стероидах. На днях наткнулся на статью в рассылке про DuckDB и почему на неё стоит обратить внимание: What is DuckDB?Также возможно вас заинтересует сравнение polars (убийца pandas) и Duck

Привет! В рамках возобновления работы над своим старым проектом по агрегации вакансий с удалённым форматом работы, я запустил отдельный телеграм-канал, где в автоматическом режиме публикуются вакансии из категории Data Engineering и DataOps: https://t.me/d

Гайд о том как развернуть Apache Airflow локально через Kubernetes: https://blog.det.life/setting-up-apache-airflow-on-kubernetes-for-local-development-f873115fbe93

Экскурс в устройство современных OLAP баз данных в рамках ежегодного курса от Carnegie Mellon University — Advanced Database Systems: Modern OLAP Database Systems

Airflow Evolution at SnapНа платформе Medium появилась статья про эволюцию Apache Airflow в компании Snap: Airflow Evolution at SnapПреимущественно в статье речь идёт о работе с RBAC и масштабированием Airflow.Также помимо статьи, вы можете посмотреть на Ю

📣One Day Offer для Data Engineer📣 10 февраля 🕤 Sportmaster Lab проводит One Day Offer для Data Engineer. One Day Offer от SM Lab — это отличная возможность пройти все этапы отбора и получить приглашение на работу всего за один день. SM Lab - аккредитованна

Tim Berglund своего рода легенда в мире распределенных систем, популяризатор этой темы. Я познакомился с его творчеством через классный доклад про распределённые системы на Ютубе около 6 или 7 лет назад: Distributed Systems in One Lesson. Он какое-то время

Data Engineering for BeginnersНа ютуб-канале freeCodeCamp вышел курс Data Engineering Course for Beginners. Продолжительность курса 3 часа, в нём автор разбирает докер, базу данных PostgreSQL и работу с Airflow для написания несложного ETL-процесса. Для но

Инжиниринг Данных
последний пост 9 часов назад

В статье про Analytics as a Code автор рассказывает про 4 уровня решений. Их решение Holistics, конечно же на 4м. Мне у них особенно понравилось:As analytics logic becomes more complex, it becomes harder to manage and maintain the code. A 500-1000 line SQL

Вот это уже интересный тренд, и это не только в Гугле. В других больших компаниях из списка S&P500 похожий тренд, но называется он по другому - increase global presence (имеется ввиду открыть офис в Индии). Мне даже как-то менеджер сказал - “Чего ты п

Forrester Wave: Data Lakehouses, Q2 2024В отчете Forrester Wave за второй квартал 2024 года рассмотрены 13 ключевых вендоров решений для data lakehouse, их предложения и позиции на рынке. Авторы отчета с коллегами провели анализ по 24 критериям, оценивая в

Уже все хорошо осведомлены про Generative AI и LLMs. Вот только не очень понятно как это относится к традиционными специальностям, таким как Data Engineer, Analytics Engineer, BI Engineer, Data Analyst (думаю так-же относится и к Data Scientist, ML enginee

Вышел новый подкаст с хэдом е-ком сервисов Яндекса и СЕО Яндекс Маркета Романом Маресовым. Success story - от консультанта в McKinsey до руководителя в корпорации. Можно узнать про принципы управления командой, must have для управленцев любых уровней.А еще

Я давно подписан на бывшего VP Amazon Ethan Evans, кто пишет про карьеру и продает консультации. Хороший пример FIRE, чувак свалил из Amazon и теперь зарабатывает на контенте. У него огромный опыт и он открыто говорит про + и - корпораций. Если кратко, + т

Недавно я познакомился с командой канала Выше Вилки. И мы решили записать вебинар и подискутировать про зарплаты в ИТ и про стратегии их увеличения, заодно сравнили рынок Нидерландов и Северной Америки. Мне понравился результат. Поговорили по делу, про раб

Как построить DWH и интегрировать CI/CD в работу с данными? Узнайте на VK Data Meetup⏰23 мая, 15:00-19:00 по МСК📍Офис VK и онлайн⚡️Бесплатная регистрация: https://bit.ly/3Uk6jQm?erid=2Vtzqx8GCc8VK Data Meetup — серия событий для дата-инженеров, разработчик

А вот сюда, давайте по SQL.

Все привет! В комментарии к этому посту кидайте все ресурсы про подготовку к собеседованию, шаблоны резюме, и тп. (Есть есть на английском, вообще замечательно). Я тоже скину свои заготовочки:)

А вот что получилось, пришли ребята из телеграм канала, рассказали про свою жизнь в NY, Из митапа на eventtribute пришло только двое (из 16 зарегистрированных), один из пришедших был вообще турист из Аргентины.Как рассказал выше в видео, это очень кайфово

Привет из New York!

Решили попробовать Linkedin Live Events первый раз. Роман Зыков проведет вебинар про свой проект на DuckDB, dbt, Pefect. Modern Data Stack в деле! https://www.linkedin.com/events/realusecaseformoderndatastackwi7185697388240502785/theater/

Самая важная информация для разработчика! Обязательно like поставьте, Surfalytics Shorts как ни как!

Как я получаю информацию, чтобы быть в теме IT и не толькоНедавно ко мне прилетел примерно такой вопрос от моего коллеги, Вовы Коноплева, CTO нашего банка для юрлиц, который ведет свой канал @konoplevthoughtsМне вопрос понравился и я решил ответ на него пр

Left Join
последний пост 8 часов назад

Введение в современную статистику: бесплатный онлайн-учебникУчебники и любая профессиональная литература — дорогое удовольствие, поэтому, когда удается найти что-то крутое за бесплатно, этим надо делиться.Это и сделаем. На сайте проекта OpenIntro выложили

Интернет против ИИ-контентаВ конце марта YouTube оповестил, что теперь авторы видео должны будут отмечать ИИ-контент.Под это правило попадают ролики, которые могут ввести в заблуждение — то есть в них есть реалистичные сгенерированные изображения реальных

HEART: от Google с любовьюНедавно рассказали про AARRR — маркетинговый фреймворк для стартапов. Сегодня поговорим про систему метрик, которую могут применять продуктовые отделы для оценки пользовательского опыта. С ее помощью можно оценить, насколько успеш

Периодическая таблица датавизаЛучший способ рассказывать про датавиз — это с помощью датавиза!В периодической таблице методов визуализации собрали все возможные способы представить информацию на схемах, графиках и картинках — от обычных пай-чартов до коми

Чем на самом деле занимаются аналитики?Начинать карьеру в новой сфере всегда сложно. IT-курсы чаще всего помогают подтянуть харды — например, знание Python или SQL — но мало рассказывают о том, как устроена профессия изнутри.🔵 Как строится взаимодействие с

Только новости, и ничего лишнегоМы тут рассказываем про технологии и данные, и что-то новое в этой сфере появляется каждый день. В потоке новостей легко потеряться, поэтому ребята из канала SM only news каждый день отбирают только самое важное. Например, в

Ищем дата-инженера в Valiotti Analytics!Наша команда продолжает расширяться — в ней вновь появилось место для дата-инженера уровня Middle.Мы (если вы вдруг забыли) — дата-агентство Valiotti Analytics. Работаем с 2019 года и делаем крутую аналитику digital-

Угадайте код RGB: тест для дизайнеров и не толькоМы тут, конечно, собрались, чтобы говорить про данные, аналитику, IT и прочие штуки на острие прогресса, но давайте честно: иногда хочется просто потыкать в кнопочки.Специально для этих целей принесли вам иг

Цвет в визуализации данныхДатавиз — область работы с данными, где заботиться надо не только о точности, но и эстетике. Чтобы графики выполняли свою функцию, они должны быть понятными, легко читаемыми и приятными глазу. Из-за этого, если нет опыта в дизайне

Все дороги ведут к базам данныхЕсть теория, что эволюция рано или поздно всех живых существ превращает в крабов. На самом деле только членистоногих, но это уже не так смешно звучит.А вот Тайлер Клотье, основатель Clockwork Labs, написал про то, что если вы

Курс по Product-Led Growth — бесплатно на 24 часаУ меня вся семья довольно технологичная. У меня дата-агентство, мой родной брат Костя — продакт-директор, который работал в VK и PandaDoc, а мой двоюродный брат Костя — генеральный директор одной известной р

AARRR: пиратский фреймворк для маркетологовНачинаем серию постов про работу с данными в маркетинге! Первый — про фреймворк AARRR. Это метод построения системы метрик, который помогает разобраться, какие показатели и зачем нужно отслеживать.AARRR — это не п

Помогите стартапу найти доверие к даннымПредставьте: французский эдтех-стартап. Данных, которые надо анализировать, немало: соцсети, рекламные кабинеты, платежи, активность студентов. Все это собирается, складывается в базу и выводится на красивые дашборды

Как Apple следит за пользователямиApple часто подчеркивает, как много внимания уделяет безопасности и защите личных данных пользователей. Рекламные ролики на эту тему у них получаются отличные, например, вот такой и такой.Главной угрозой «прайваси» считают

У нас есть GPT дома…и она написана на SQL.Да, именно так — разработчик Алексей Боленок написал генеративную нейросеть на SQL.Наверное, на этом пост можно закончить и просто дать ссылку на оригинал статьи в блоге Алексея и на перевод на Хабре.Но все-таки ра

SQLite на практике
последний пост 4 months, 2 weeks назад

SQL-полиглотСделал онлайн-утилиту, которая выполняет заданный запрос на любой СУБД от PostgreSQL до DuckDB (SQLite тоже есть, конечно).Удобно, чтобы быстро понять, поддерживает ли база тот или иной SQL-синтаксис.https://codapi.org/sql

Побег из карантина macOS и точный путь к расширениюСвежий релиз sqlpkg принес две приятные фичи:— Команда install автоматически убирает расширение из карантина macOS, чтобы можно было использовать без дополнительных приседаний.— Команда which печатает точн

Перенести SQLite-расширения с одной машины на другуюНачиная с релиза 0.1.0, sqlpkg сохраняет информацию об установленных пакетах в специальном файле (sqlpkg.lock, он же локфайл). Используйте его, чтобы установить расширения на новой машине одной командой:s

Datalytics
последний пост 2 days, 22 hours назад

🤖 Как строятся прогнозы в Machine Learning? Начните с открытого практического урока от OTUS. Спикер Игорь Стурейко — PhD Physical and Mathematical Sciences, опытный руководитель команд. 💻 На вебинаре разберем: - как подходить к моделированию временных рядо

Как прокачать навыки A/B-тестирования? Если уже владеете инструментами, то только через опыт и нестандартные задачи. В процессе работы скилл вырастет, но есть вероятность наделать ошибок. Ещё одна опция — пройти «Симулятор A/B-тестов» от karpov.courses под

Где взять опыт?За время работы в эдтехе, я пообщался с многими нанимающими менеджерами (лидами, хэдами, CDO) и часто слышу про то, что ищут аналитиков, обладающих определенным складом ума, который ориентирован не только на решение чисто технических задач,

От создателей Академии Аналитиков Авито — открытый курс по прикладной статистике. Бесплатно, без регистрации и смс. Для тех, кто хочет научиться: – применять критерии Манна-Уитни, t-test, бутстрап, хи-квадрат;– использовать специализированные библиотеки Py

🌐 Как с помощью искусственного интеллекта автоматизировать и упростить поиск работы в ИТ уже сегодня?Продолжаем серию полезных вебинаров для поиска работы в ИТ. В этот раз мы проведем мастер-класс, на котором покажем все самые полезные возможности использо

Хотите использовать машинное обучение в бизнес-целях?На бесплатной конференции «OTUS CONF: Machine Learning» мы поговорим о трёх важных элементах машинного обучения. Обсудим генеративные модели нейросетей, модели обработки естественного языка и обработку в

😎 Публичный Гайд по повышению BI Adoption перевел в более читабельный PDF формат ☝️Размышлял над темой год и пора упаковать и переключится. Еще родился шаблон для воркшопа, чтоб самим провести анализ в команде. Кому эта тема интересна пишите и приходите на

📊 Хотите углубиться в Machine Learning или Data Science? Начните с изучения базовых методов парсинга и работы с html! Приходите на бесплатный практический урок от OTUS. Спикер Мария Тихонова — PhD Computer Science, Senior Data Scientist в SberDevices и пре

Запись стрима «Как проходит собеседование на продуктового аналитика в Авито?»Вместе с Вовой Камчаткиным, продуктовым аналитиком в компании inDrive, увидите, какие вызовы и задачи ждут вас и как к ним лучше подготовитьсяСамое интересное:Рассказ про опыт и в

18 апреля в 18:00 мск приглашаем на День открытых дверей онлайн-магистратур по аналитике данных.Представители Практикума, РАНХиГС и ТГУ расскажут о трёх программах, на которые открыт набор в 2024:Дата-аналитика для бизнеса Финансовый анализ в бизнесеData S

🔥 Бесплатный интенсив по Python для начинающих аналитиков!Завтра в 19:00 по Мск пройдет бесплатный интенсив по теме: “RFM-анализ клиентской базы с помощью Pandas в Python”.Мы проводили такой интенсив в январе, но многие не успели на него записаться, а очен

Появились записи с A/B platform meetup от команды СберМаркета🟡Система автоматического расчёта А/В тестов. Рамиль Чермантеев, руководитель команды аналитиков-инженеров платформы экспериментов СберМаркета, рассказал, что автоматический расчет из себя предста

Как системному аналитику DWH попасть в Тинькофф? О чем спросят на собеседовании? Какие задачи предложат решать? Все ответы — на Tinkoff DWH Connect. В апреле пройдут три онлайн-мероприятия для системных аналитиков DWH. Уровень мидл и выше.Вот что будет: —

Читаю я тут пост "Build Lines, Not Dots". Ключевая мысль там о том, что доверие инвесторов по отношению к стартапу сильно зависит от восприятия инвесторами последовательного роста и ощущения динамики, сдобренной грамотным принятием решенийТо есть по сути н

🔥 Word embedding: что это и как применяется в NLP 👉 Расскажет Мария Тихонова – PhD Computer Science, Senior Data Scientist в SberDevices и преподаватель ВШЭ. Встречаемся на бесплатном практическом уроке от OTUS, где вы: — узнаете, что такое векторные предс

Труба данных
последний пост 2 weeks назад

Коллеги делятся прекрасным из IL рынка бихдаты!@ohmydataengineer

https://medium.com/intuit-engineering/how-intuit-data-analysts-write-sql-2x-faster-with-internal-genai-tool-c3b9d482208aВ продолжении прошлого пятничного мема, количество платформ и сервисов, которые за денюжку, подключиться к DWH и делать там запросики -

Тема недели в #it_memes

Очень долго смеялся и плакал 😳(ибо это все до боли знакомо)

https://www.astronomer.io/state-of-airflow/Астрономер выкатил репорт про текущее состояние Airflow. Если кратко - все хорошо у него, по скорость развития и контрибьюшенов опережает Spark и Kafka.Ссылку сначала увидел у @dataexplorers, а потом у себя в почт

https://clickhouse.com/blog/building-a-logging-platform-with-clickhouse-and-saving-millions-over-datadogЗанимательное чтиво про Кликхаус и как он используется для логов. Мяготка, с деталями и схемами.Не без налета саморекламы, конечно 😂@ohmydataengineer

https://mattturck.com/landscape/mad2024.pdfСтабильный гость этого канала - MAD 2024 - Machine Learning, AI & Data Landscape. @ohmydataengineer

https://boehs.org/node/everything-i-know-about-the-xz-backdoorВсю прошлую неделю (и скорее всего, текущую тоже), Tech часть интернета будет бухтеть про XZ уязвимость, или, как ее прозвали "Бекдор для всего интернета". 2 года подготовки и ребятам почти удал

Пятничный юмор или как совет директоров попросил AI внедрить 😂 (true story)@ohmydataengineer

https://www.youtube.com/watch?v=QSui0KQ2rE4Пока гуглил по платформы для A/B тестов, наткнулся на вот такой хороший доклад от ребят из Flo про их Data Platform.Оказалось оч полезно и ознакомительно@ohmydataengineer

Нас скоро всех заменят 😄https://twitter.com/raunakdoesdev/status/1769066769786757375Если вы не поняли из скриншотов, Steven дал доступ к своему аккаунту софтинке по имени Devin (отсюда игра слов Steven + Devin -> Deven) и та успешна пофиксила баг, при э

https://www.figma.com/blog/how-figmas-databases-team-lived-to-tell-the-scaleОчень удивительная история из технического блога Figma о том, как они скалировали свои базы данных. Поправочка: до 2020 у них был один инстанс Postgres вообще! 😳 Шардинг, партишени

💰Результаты опроса про зарплатуЗакончили с Арсеном обработку данных и дашборд по результатам опроса аналитиков. Мне нравится что получилось. Опрос прошли 323 человека, этого достаточно, чтобы накопать интересных фактов и оценить разницу доходов между разны

https://github.com/datacontract/cliКогда-то мы накидали какой-то свой темплейт дата контракта, и начали его встраивать в Data Hub + Great Expectations, написали немножко своей обвязки.А вот тут ребята продолжают развивать свой стандарт и к нему уже накрути

А теперь точно пятничный юмор 😂Этот проект с Аэропортом будет мне в страшных снах приходить...(да-да, боль последних недель она такая)@ohmydataengineer

enthusiastech
последний пост 2 months, 1 week назад

Data Apps Design pinned «Блог переехал 🌐 @data_apps»

Блог переехал 🌐 @data_apps

Channel name was changed to «Data Apps Design»

Channel name was changed to «data_apps»

✅ Как выбрать СУБД для аналитики? Мой список критериев для выбора Analytics Database🔵Performance and Scalability— Работа в периоды пиковых нагрузок (одновременные запросы от EL + dbt + BI + analysts)— Поддержка масштабируемости и scaling— Насколько адекват

Как выбрать СУБД для аналитики?Привет! Предположим, что у вас есть:🟢 Целостное понимание потребностей бизнесаВключая требования к производительности, времени отклика, безопасности данных, перечень ключевых метрик (показателей) и формулы их расчета, и т.д.🟢

👑 Особенности работы с External Data (на примере обменных курсов валют)⬜️Бизнес-задача:— Операции с контрагентами совершаются в около 15 разных валют— Есть необходимость пересчета финансовых показателей в разные валюты для отчетности— Обменные курсы актуал

Business Intelligence 101: Всё самое важное о BI инструментах🔸 Ключевые идеи BI— BI - это набор методов и инструментов для бизнес-анализа— BI упрощает доступ к данным в DWH— BI бесполезен без DWH (без данных бесполезны визуализации)— SQL по-прежнему актуал

🤯 Нерелевантные, демотивирующие и бессмысленные задачи🔻 Излишне затянувшееся общение с вендорами и провайдерами сервисовКак инженер - я должен сравнить, протестировать и выбрать самое релевантное решение в заданных условиях. Я даю заключение, какой сервис,

😵‍💫 Нерелевантные, демотивирующие и бессмысленные задачиДавайте поговорим про раздражающие и отвлекающие факторы в работе.Вчера у меня возникла ситуация:Amazon Redshift ночью автоматически обновился на свежий релиз, что привело к ошибкам в расчетах (dbt),

🏆 Удержать стоимость SaaS ELT на уровне $13K / year вместо повышения цены в 2,35 раза В компании для интеграции данных я использую SaaS ELT решение от вендора Hevo Data. Еще в начале 2020 году я провел сравнительный анализ и proof of concept среди основных

🌟 Привет, друзья!С наступающим Новым Годом!Обещаю радовать вас и развиваться. В новом году я планирую:— Делать больше обзоров Data Tools и Инструментов, сравнивать их и делать выводы— Создавать новый обучающий и полезный для каждого контент— Активизировать

Всем привет, мы собрали небольшую подборку каналов/групп, которые могут быть полезны интересующимся данными в Новом 2024 году и хотим поделиться с вами:• @datacoffee — Еженедельный подкаст о данных• @datavizcomics — Комиксы по датавизу, дата-арт и интересн

👀 Где взять динамический датасет для целей тестирования?Большая часть датасетов и sample databases являются статичными, т.е. представляют из себя снимок. Эти данные не меняются со временем.Мы привыкли изучать такие данные, проводить Exploratory Data Analys

☄ Первый стрим для закрытой группы Designing Modern Data AppsУже сегодня 21 декабря в 19:00 — Marketing Analytics❗️ У меня осталось всего несколько местКак это будет выглядеть?— 10 стримов, 2 из них интерактивные Q&A— Живое общение и доступ к ответам н

data будни
последний пост 22 часа назад

https://medium.com/@maciej.pocwierz/how-an-empty-s3-bucket-can-make-your-aws-bill-explode-934a383cb8b1кулстори из интернетов: как получить счёт в $1300 за первый день создания пустого приватного s3-бакета в AWSесли работаете с s3, то полезно понимать как в

📚 Practical Data Modelling pre-bookне теряю надежды вкатиться в Data Modelling и продолжаю активно следить за господином Joe Reis. ранее он объявил, что после соавторства книги Fundamentals of Data Engineering его следующей соло-книгой будет Practical Data

🏆 что мне нравится в проекте с авиа-трейсами adsb.exposedв дополнение к вчерашним картинкам и голой ссылке хочу подробнее рассказать чем именно меня привлёк проект Миловидова⌘ во-первых, как увлечённый дата-инженер я радуюсь каждому проекту, где-то как-то

примеры того что получается в итоге

🛫 визуализация полётов на Кликхаусе 🛬Алексей Миловидов собрал красивый демо-проект, чтобы показать как Кликхас могёт ворочать миллиарды записей (это в день). Получилось похоже на flightradar, только без самолётиков — только трейсы. Можно выбирать что показ

и следом ютуб-фид мне выдал релевантный доклад с AWS re:Invent «как не терять данные в стриминге»Рассказывает AWS Hero из консалтинга, т.е. она насмотрелась за свою карьеру на разные aws-архитектуры.доклад понравился тем, что он практико-ориентированный: н

открываю для себя семейство продуктов Kinesis от AWS. Всё вместе оно решает дата-стриминговые задачи, но чисто по названиям не понять чем Streams отличаются от Analytics и зачем там ещё Firehose.посмотрев три обзора на ютубе, ответственно заявляю вот что я

🐭 постоянство в достиженияхвзять, например, шефа в ресторане. недостаточно один раз приготовить божественный рататуй, а всё остальное время подавать посредственную яичницу.должно пройти какое-то время, чтобы «слава закрепилась»; нужно, чтобы люди приходили

📓 Infrastructure as a Codeбудучи начинающим дата-инженером в Эпохе довелось первый раз сетапить дата-инфру с нуля для нового проектая тогда уже чуток представлял из каких «кубиков» должна получиться система: где-то должны быть пайплайны, где-то храниться д

🤓 испытательный срок — тю!прошло полгода в Кларне, объявили что я молодец и мой временный контракт превращается в тыкву настоящий бессрочный взрослый трудовой договор. Внутренний самозванец громко и глубоко выдохнул.понял, насколько спокойно было в России

первая неделя с CoPilotтут в нашей Кларне держат фокус на AI. Может где-то и перегибают в горячке, но тем не менее всем разработчикам оплатили лицензию на CoPilot и неустанно напоминают её активировать и установить плагин свой IDE.последнюю неделю дорвался

🎧 Father of «DataWarehouse» продолжая копать под этого Joe Ries, нашёл у него подкаст. Полистая прошлые эпизоды, нашёл там никого иного как Билла наше-всё Инмона. Оказывается Билл его менторит (вот это размах!).эпизод слушается как смесь баек из склепа и т

Data Modeling is Dead! Long Live Data Modeling!https://youtu.be/OCClTPOEe5sувидел у Семёна ссылку на рассылку про моделирование данных от Joe Reis, автора Fundamentals of Data Engineering — книги, которая вроде как пробилась в топы Амазона сразу по несколь

Яндекс 🇷🇺 → Klarna 🇸🇪 2 года назад у меня был план к тому моменту я поработал полгода джуном в Ривьере, потом ещё годик в агентстве Epoch8. Когда пришёл в Яндекс, по прикидкам в такой большой компании можно смело проработать года 2-4, продолжая открыват

Kafka is dead, long live Kafkahttps://www.warpstream.com/blog/kafka-is-dead-long-live-kafkaдва выходца из Datadog накидывают на Кафку. Ну, точнее не на саму Кафку, а на окружение, в котором крутятся современные инсталляции.дисклеймер: сам я Кафку не варил,

под капотом Яндекс.Такси
последний пост None

🎧 Podcasts

Data Engineering Podcast
последний пост 4 days, 23 hours назад

Build Your Second Brain One Piece At A Time

Making Email Better With AI At Shortwave

Designing A Non-Relational Database Engine

Establish A Single Source Of Truth For Your Data Consumers With A Semantic Layer

Adding Anomaly Detection And Observability To Your dbt Projects Is Elementary

Ship Smarter Not Harder With Declarative And Collaborative Data Orchestration On Dagster+

Reconciling The Data In Your Databases With Datafold

Version Your Data Lakehouse Like Your Software With Nessie

When And How To Conduct An AI Program

Find Out About The Technology Behind The Latest PFAD In Analytical Database Development

Using Trino And Iceberg As The Foundation Of Your Data Lakehouse

Data Sharing Across Business And Platform Boundaries

Tackling Real Time Streaming Data With SQL Using RisingWave

Build A Data Lake For Your Security Logs With Scanner

Modern Customer Data Platform Principles

Data Brew by Databricks
последний пост 9 months, 2 weeks назад

LLMs: Internals, Hallucinations, and Applications | | Season 5 |E4

«Ничего такого» by Dodo Enginnering
последний пост None

Запуск завтра Podcast
последний пост 2 months, 2 weeks назад

Как работает DNS и почему он может сломаться? [Спецвыпуск]

Сохранить как .torrent. Как мы научились делиться самым интересным почти мгновенно

Сохранить как GIF. Как мы нашли идеальный способ выражать свои эмоции в интернете

Сохранить как VHS, DVD. Как видео пришло в наш дом

Сохранить как PDF. Как мы (почти) заменили бумагу?

mp3. Как мы научились сжимать музыку

Детство рунета. Как появлялся интернет в России

vas3k. Как устроено популярное сообщество про технологии

Темные паттерны в UX. Как приложения нами манипулируют

12 декабря обсуждаем итоги 2023 года на рынке IT

JetBrains. Как создают инструменты для разработки

Как дела в аутсорсе? Говорим про бизнес Самата

3D-печать домов. Как с помощью принтера строят здания

3Д-движки. Как создают вселенные в видеоиграх

No-code. Как сделать сайт без программирования

Moscow Python Podcast
последний пост 20 часов назад

Новости мира Python за апрель 2024

Новости мира Python за март 2024

API версионирование: как, зачем и почему?

Новости мира Python за февраль и даже больше

Как стать core-разработчиком CPython?

Что произошло в мире Python за декабрь и январь 2024

Что произошло в мире Python за 2023 год

Культура комментариев в коде

bservability / как сжать int в один бит / мониторинг в Яндексе

Новости мира Python за ноябрь: PEP 734 / Django Ninja/аудит безопасности PyPI

За 5 лет до техлида и создателя IT-сообщества

бета Django 5.0 / PEP 703 / PEP 730 / отчет Security Developer in Residence

pathlib.Path.walk или как одна маленькая идея может превратиться в полгода работы

Релиз Python 3.12 / релиз Flask 3.0 / Python Developers Survey 2022 / Python-редактор в Excel.

и системные интеграторы в финтехе

Podlodka Podcast
последний пост 4 days, 4 hours назад

Podlodka #370 – SEO

Podlodka #369 – Нарративный дизайн

Podlodka #368 – Инженерная культура в БигТехе

Podlodka #367 – Zig

Podlodka #366 – Релокация в UK

Podlodka #365 – Ада Лавлейс и программирование

Podlodka #364 – Дата и время

Podlodka #363 – Культурная интеграция экспатов

Podlodka #362 – FemTech

Podlodka #361 – Профессия: CFO

Podlodka #360 – Тестовые окружения

Podlodka #359 – Тест-кейсы

Podlodka #358 – Шахматы

Podlodka #357 – Партнерство

Podlodka #356 – Автоматизация тестирования

Проветримся!
последний пост 1 month назад

Сергей Сухов: Стоицизм

База про Стоицизм

Илья Параушкин: Выживание Жизни

Михаил Свердлов: образование, которое мы заслужили

Маша Грекова: Теплица, Нормальное Место, Огурцы и Простые Вещи

Илья Параушкин: еда и технологии

Анна Коган: компьютерное зрение

Арсений Веснин: из журналиста в капитаны

Андрей Себрант: длинные технологические тренды

Вы находитесь здесь
последний пост 4 months, 3 weeks назад

Что это было. Как нейросети изменили науку

Зырь-машина. Как проходит гонка компьютерного зрения

Фоторобот Воронежа. Как нейросети научились рисовать с наших слов

Похоже на правду. Как нейросети научились имитировать речь

Как нейросети обходят законы прогресса

Comand Line Heroes by RedHat
последний пост None

Python Bytes
последний пост 3 days, 7 hours назад

#381 Python Packages in the Oven

#380 Debugging with your eyes

#379 Constable on the debugging case

#378 Python is on the edge

#377 A Dramatic Episode

#376 Every dunder method in a Python Lockbox

#375 Pointing at Countries

#374 Climbing the Python Web Mountain

#373 Changing Directories

#372 uv - an impressive pip alternative

#371 Python in a Crate

#370 Your Very Own Heroku

#369 The Readability Episode

#368 That episode where we just ship open source

#367 A New Cloud Computing Paradigm at Python Bytes

Software Engineering Daily
последний пост 1 day, 6 hours назад

Anaconda and Accelerating AI Development with Rob Futrick

Engineering the Playdate Gaming Handheld with James Moore and Dave Hayden

Using LLMs for Training Data Preparation with Nihit Desai

AI-Driven Observability at Kentik with Avi Freedman

SolidJS with Ryan Carniato

Database Scaling at Figma with Sammy Steele

Bonus Episode: How to Build a Self-Driving Car with Ian Williams

Security Engineering with Ben Huber

Startup Investing with George Mathew

Hookdeck and Building an Event Gateway with Alex Bouchard

Authlete and Making OAuth Accessible with Justin Richer

Netflix Engineering with Jay Phelps

Data Applications on Snowflake with Daniel Myers

Bonus Episode: Optimizing Nintendo 64 Code with Kaze Emanuar

A Semantic Layer for Data with Artyom Keydunov

Habr Podcasts
последний пост None

Мысли и Методы
последний пост None

Трёп Себранта
последний пост 4 months, 2 weeks назад

Предновогоднее-2024: сумбурные прогнозы

От LLM до LMM и LBM — и книги “Конец индивидуума”

⌨ Coding

Martin Fowler
последний пост 1 week, 4 days назад

photostream 130

Using data replication in legacy displacement

Creating Seams in a Mainframe's Batch Pipelines

Uncovering Seams in a Mainframe's external interfaces

Joining LinkedIn

Farewell, John Kordyback

Uncovering Seams in a Mainframe's external interfaces

Uncovering the seams in Mainframes for Incremental Modernisation

How to capture qualitative metrics

Code samples for the opening chapter of Refactoring

The Benefits of Qualitative Metrics

Measuring Developer Productivity via Humans

What if we rotate pairs every day?

Patterns of Legacy Displacement: Event Interception

Bliki: Periodic Face-to-Face

Антон Жиянов
последний пост 8 months назад

Интерактивная API-документация

Пишем менеджер пакетов

Язык Odin