Data Engineering | про инжиниринг данных и аналитику | Infomate

🏢 %company% Engineering

AirBnb Engineering
последний пост 19 часов назад

Seamless Istio Upgrades at Scale

Achieving High Availability with distributed database on Kubernetes at Airbnb

Understanding and Improving SwiftUI Performance

Load Testing with Impulse at Airbnb

Listening, Learning, and Helping at Scale: How Machine Learning Transforms Airbnb’s Voice Support…

How Airbnb Measures Listing Lifetime Value

Embedding-Based Retrieval for Airbnb Search

Accelerating Large-Scale Test Migration with LLMs

Improving Search Ranking for Maps

Airbnb at KDD 2024

My Journey To Airbnb | Vijaya Kaza

From Data to Insights: Segmenting Airbnb’s Supply

Building a User Signals Platform at Airbnb

Airbnb’s AI-powered photo tour using Vision Transformer

Adopting Bazel for Web at Scale

Netflix Engineering

Netflix Engineering
последний пост 3 weeks, 2 days назад

Behind the Streams: Live at Netflix. Part 1

Netflix Tudum Architecture: from CQRS with Kafka to CQRS with RAW Hollow

Driving Content Delivery Efficiency Through Classifying Cache Misses

AV1 @ Scale: Film Grain Synthesis, The Awakening

Model Once, Represent Everywhere: UDA (Unified Data Architecture) at Netflix

FM-Intent: Predicting User Session Intent with Hierarchical Multi-Task Learning

Behind the Scenes: Building a Robust Ads Event Processing Pipeline

Measuring Dialogue Intelligibility for Netflix Content

How Netflix Accurately Attributes eBPF Flow Logs

Globalizing Productions with Netflix’s Media Production Suite

Foundation Model for Personalized Recommendation

HDR10+ Now Streaming on Netflix

Title Launch Observability at Netflix Scale

Introducing Impressions at Netflix

Title Launch Observability at Netflix Scale

Pinterest Engineering
последний пост 3 weeks, 1 day назад

Debugging the One-in-a-Million Failure: Migrating Pinterest’s Search Infrastructure to Kubernetes

Next Gen Data Processing at Massive Scale At Pinterest With Moka (Part 1 of 2)

Scaling Pinterest ML Infrastructure with Ray: From Training to End-to-End ML Pipelines

Unlocking Efficient Ad Retrieval: Offline Approximate Nearest Neighbors in Pinterest Ads

Next-Level Personalization: How 16k+ Lifelong User Actions Supercharge Pinterest’s Recommendations

Automated Migration and Scaling of Hadoop™ Clusters

Adopting Docs-as-Code at Pinterest

Healthier Personalization with Surveys

Modernizing Home Feed Pre-Ranking Stage

How Pinterest Accelerates ML Feature Iterations via Effective Backfill

500X Scalability of Experiment Metric Computing with Unified Dynamic Framework

Multi-gate-Mixture-of-Experts (MMoE) model architecture and knowledge distillation in Ads…

Migrating 3.7 Million Lines of Flow Code to TypeScript

Improving Pinterest Search Relevance Using Large Language Models

Building Holiday Finds: How Pinterest Engineers Reimagined Gift Discovery

Facebook
последний пост 1 day, 18 hours назад

Diff Risk Score: AI-driven risk-aware software development

Building a human-computer interface for everyone

Using AI to make lower-carbon, faster-curing concrete

Accelerating GPU indexes in Faiss with NVIDIA cuVS

Introducing AutoPatchBench: A Benchmark for AI-Powered Security Fixes

Building multimodal AI for Ray-Ban Meta glasses

Revolutionizing software testing: Introducing LLM-powered bug catchers

Meta Andromeda: Supercharging Advantage+ automation with the next-gen personalized ads retrieval engine

Sequence learning: A paradigm shift for personalized ads recommendations

OCP Summit 2024: The open future of networking hardware for AI

Meta’s open AI hardware vision

Uber Engineering
последний пост None

Spotify Engineering
последний пост 3 months назад

Incident Report: Spotify Outage on April 16, 2025

Celebrating Five Years of Backstage: From Open Source Project to Enterprise Software Business

A Behind-the-Scenes Look at How We Release the Spotify App (Part 1)

An Insider’s Tips for Taking the Certified Backstage Associate (CBA) Exam

Building Confidence: A Case Study in How to Create Confidence Scores for GenAI Applications

Congratulations to the Recipients of the 2024 Spotify FOSS Fund

How We Generated Millions of Content Annotations

Ripple Engineering
последний пост None

Dmitry Anoshin recommends

Snowflake
последний пост None

Cloudera
последний пост 8 months, 2 weeks назад

Elevating Productivity: Cloudera Data Engineering Brings External IDE Connectivity to Apache Spark

Smart Data
последний пост 3 weeks, 1 day назад

Turning Data Into Decisions: How Analytics Improves Transportation Strategy

AI And The Acceleration Of Information Flows From Fund Managers To Investors

How Data Analytics Improves Lead Management and Sales Results

How AI and Smart Platforms Improve Email Marketing

AI Document Verification for Legal Firms: Importance & Top Tools

AI Tools Are Strengthening Global Supply Chains

How Data Analytics Reduces Truck Accidents and Speeds Up Claims

Interior Designers Boost Profits with Predictive Analytics

What the Rise of AI Web Scrapers Means for Data Teams

Free AI Tools to Test Website Accessibility

Thinking Machines At Work: How Generative AI Models Are Redefining Business Intelligence

The Power of AI for Personalization in Email

Improving LinkedIn Ad Strategies with Data Analytics

Data Helps Speech-Language Pathologists Deliver Better Results

AI Helps Businesses Develop Better Marketing Strategies

Knoldus
последний пост None

We Cloud Data
последний пост 2 days, 19 hours назад

Streamlit: Building Interactive Data Apps with Python

Install and Run Containers on Linux Virtual Machines – LXD/LXC

Is Your HR Team Ready? Three Surprising Ways AI Is Reshaping Hiring Today

How Generative AI is Redefining HR

Scikit-learn: The Most Trusted Python Library for Data Science

Context Engineering: The Next Evolution After Prompt Engineering

Cloud Manufacturing: The Future of Smart, Scalable Production

Power BI Beginner Tutorial: Getting Started

Power BI: A Complete Introduction for Career and Business Use

How AI and Automation Are Transforming Jobs & Businesses

Descriptive Analytics: Unlocking Business Insight Through Data

Crafting an Effective Resume with OpenAI

Character AI: Meet the Most Advanced AI Chatbot With Personality

What Is Predictive Analytics: How Businesses Are Using It

How Businesses Are Using Intelligent Agents in AI: Real-World Applications

Learn Data Engineering
последний пост None

SCRIBD
последний пост 4 months, 3 weeks назад

Terraform module to manage Oxbow Lambda and its components

Cloud-native Data Ingestion with AWS Aurora and Delta Lake

Jesse Anderson
последний пост 2 months, 3 weeks назад

Unapologetically Technical Episode 20 – Shane Murray

Unapologetically Technical Episode 19 – Jacopo Tagliabue

Unapologetically Technical Episode 18 – Adrian Woodhead

Unapologetically Technical Episode 17 – Semih Salihoglu

Unapologetically Technical Episode 16 – David Jayatillake

Unapologetically Technical Episode 15 – Frances Perry

Unapologetically Technical Episode 14 – Cliff Crosland

Data Quest
последний пост None

Infrastructure

AWS
последний пост 19 часов назад

The DIVA logistics agent, powered by Amazon Bedrock

Automate enterprise workflows by integrating Salesforce Agentforce with Amazon Bedrock Agents

How Amazon Bedrock powers next-generation account planning at AWS

Automate conversion of Oracle SQL to PostgreSQL inside Java applications with AWS SCT

Pioneering AI workflows at scale: A deep dive into Asana AI Studio and Amazon Q index collaboration

Responsible AI for the payments industry – Part 1

Responsible AI for the payments industry – Part 2

Process multi-page documents with human review using Amazon Bedrock Data Automation and Amazon SageMaker AI

Boosting search relevance: Automatic semantic enrichment in Amazon OpenSearch Serverless

Build an AI assistant using Amazon Q Business with Amazon S3 clickable URLs

GPT OSS models from OpenAI are now available on SageMaker JumpStart

Discover insights from Microsoft Exchange with the Microsoft Exchange connector for Amazon Q Business

Create an OpenSearch dashboard with Amazon OpenSearch Service

Build a multi-tenant healthcare system with Amazon OpenSearch Service

Integrate scientific data management and analytics with the next generation of Amazon SageMaker, Part 1

AWS
последний пост 19 часов назад

Monitor AWS Backup Vault Lock compliance across your organization

How Clari achieved 50% cost savings with Amazon Aurora I/O-Optimized

AI judging AI: Scaling unstructured text analysis with Amazon Nova

Building an AI-driven course content generation system using Amazon Bedrock

How Handmade.com modernizes product image and description handling with Amazon Bedrock and Amazon OpenSearch Service

Develop and deploy a generative AI application using Amazon SageMaker Unified Studio

Cost tracking multi-tenant model inference on Amazon Bedrock

Near real-time streaming analytics on protobuf with Amazon Redshift

Introducing Amazon Bedrock AgentCore Browser Tool

Introducing the Amazon Bedrock AgentCore Code Interpreter

Observing and evaluating AI agentic workflows with Strands Agents SDK and Arize AX

Building AIOps with Amazon Q Developer CLI and MCP Server

Containerize legacy Spring Boot application using Amazon Q Developer CLI and MCP server

Introducing the Amazon DynamoDB data modeling MCP tool

Overcome development disarray with Amazon Q Developer CLI custom agents

Astronomer
последний пост None

DBT — Data Build Tool
последний пост None

FiveTran
последний пост None

DataBricks
последний пост None

Mix

/r/DataEngineering
последний пост 43 минуты назад

How can Databricks be faster than Snowflake? Doesn't make sense.

Found a neat Snowflake app for monitoring ETL costs - awesome for understanding Fivetran bills!

Performance Marketer trying to get into Data

Help me choose job at Treebo Vs health care startup

Elusion v3.14.0 Released: 6 NEW DataFrame Features for Data Processing / Engineering

Which cloud you are into?

Airflow is not your data platform

Data Replication from AWS RDS to Local SQL

Data engineer at Treebo Vs Reveal healthtech

Guidance Needed

GPT-5 release makes me believe data engineering is going to be 100% fine

ML vs DE jobs landscape

Post AI era, Panic or relevant for data engineer?

dbt+snowflake+airflow project partner

Should I stick to Data Engg or explore Backend Engg

Towards Data Science
последний пост 17 часов назад

Time Series Forecasting Made Simple (Part 3.2): A Deep Dive into LOESS-Based Smoothing

Agentic AI: On Evaluations

Finding Golden Examples: A Smarter Approach to In-Context Learning

The Channel-Wise Attention | Squeeze and Excitation

The MCP Security Survival Guide: Best Practices, Pitfalls, and Real-World Lessons

How I Won the “Mostly AI” Synthetic Data Challenge

The Machine, the Expert, and the Common Folks

InfiniBand vs RoCEv2: Choosing the Right Network for Large-Scale AI

Context Engineering — A Comprehensive Hands-On Tutorial with DSPy

Things I Wish I Had Known Before Starting ML

How a Research Lab Made Entirely of LLM Agents Developed Molecules That Can Block a Virus

Stellar Flare Detection and Prediction Using Clustering and Machine Learning

Exploratory Data Analysis: Gamma Spectroscopy in Python (Part 3)

Mechanistic View of Transformers: Patterns, Messages, Residual Stream… and LSTMs

From Data Scientist IC to Manager: One Year In

Monte Carlo Data
последний пост 3 weeks назад

The Data Engineer’s Guide To Root Cause Analysis for Data Quality Issues

The Ultimate Guide To Data Lineage

5 Simple Steps For Snowflake Cost Optimization Without Getting Too Crazy

Is Modern Data Warehouse Architecture Broken?

12 Data Quality Metrics That ACTUALLY Matter

Best Data Observability Tools (with RFP Template)

Best Data Observability Tools (with RFP Template)

Data Vault Architecture: Everything You Need to Know Before You Build

The Past, Present, and Future of Data Quality Management: Testing, Monitoring, and Data Observability in 2025

Data Observability: How to Build Your Own Data Anomaly Detectors Using SQL

How to Conduct Data Incident Management for Data Teams

The Past, Present, and Future of Data Quality Management: Testing, Monitoring, and Data Observability in 2025

5 Generative AI Use Cases Companies Should Know About in 2025

5 Generative AI Use Cases Companies Should Know About in 2025

Data Warehouse vs Data Lake vs Data Lakehouse: Definitions, Similarities, and Differences

DE Telegram

DataEng
последний пост 3 weeks, 3 days назад

Apache Airflow 3.0.3Вышла минорная версия Apache Airflow — 3.0.3, в этой версии пофиксили множество багов: https://github.com/apache/airflow/releases/tag/3.0.3Я уже поставил, полёт нормальный.Но буквально на днях я нашел ещё один баг с утечкой памяти, но м

Ранее я писал про релиз Airflow 3.0.2 в котором исправили утечку памяти, но на деле оказалось, что не полностью. Проблема была решена лишь частично, мои пайплайны продолжали периодически падать и съедать память. Посидев вечерок я локализовал проблему и нап

Orchestrating Workflows for GenAI ApplicationsНа платформе DeepLearning AI вышел новый курс про Apache Airflow от ребят из Astronomer — Orchestrating Workflows for GenAI ApplicationsКурс прикладной без лишней воды, рассчитан на тех, кто не знаком с Airflow

Apache Airflow 3.0.2Буквально час назад вышла новая багфикс версия Apache Airflow 3.0.2. Я с недавнего времени начал использовать тройку на своих проектах и столкнулся с неприятным сюрпризом - утечкой памяти. Встроенный dag-processor плодил кучу тредов и о

⚡️Пошаговый план: как стать аналитиком данных в 2025Хотите попасть в аналитику, но теряетесь в море информации и не понимаете, какие навыки действительно важны? Боитесь, что без опыта вас не возьмут на работу? И да, ещё один популярный вопрос — а что, если

Доклады с PyCon US 2025 🐍🐍🐍Когда я был на PyCon US в 2016 году в Портленде, то записи докладов в сети появлялись в тот же день, но последние года 4 организаторы решили на этом зарабатывать, и записи с конференций появляются со значительной задержкой (неско

Релиз Apache Airflow 2.11.0Я уже не думал, что будут обновления для 2-й ветки Airflow, а тут релиз 2.11.0: https://github.com/apache/airflow/releases/tag/2.11.0Причем это не какой-то релиз с багфиксами, там есть новые фишки: — DeltaTriggerTimetable (trigge

The Practical Guide to Airflow 3 🚀Дорогие друзья, я вижу как вам нравятся посты про Apache Airflow. В этот раз очередной пост про него любимого 😊Прошла неделя с релиза Apache Airflow 3, и вот в сети от ребят из Astronomer выходит небольшая книга The Practi

Релиз Airflow 3.0Час назад вышла мажорная версия Apache Airflow 3.0: https://github.com/apache/airflow/releases/tag/3.0.0Помимо полностью обновлённого интерфейса там ещё куча разных ништяков:— DAG Versioning (в сообществе долго ждали эту фичу, но мне она н

Ахтунг! Про Apache Iceberg™Как то не заметил, что легенда Tim Berglund вернулся в Confluent, и теперь снова вещает нам с экранов.На этот раз Тим разбирает Apache Iceberg: Apache Iceberg™ | What It Is and Why Everyone’s Talking About ItА вы уже использовали

На злобу дняТрамп раскрыл тарифы на производительность популярных библиотек для анализа данных 😁Так вот в чем кроется секрет успеха pandas 🐼

Курс AI Agents от MicrosoftНашел на просторах сети бесплатный курс по AI Агентам от Microsoft: https://microsoft.github.io/ai-agents-for-beginners/Помимо текстового материала есть и видео лекции на Ютубе.

Привет!За два месяца ни одного нового поста. Признаться, мне стало неинтересно делиться ссылками на материал по теме и превращать канал в ссылкопомойку, но тем не менее я продолжаю активно читать и искать новые статьи/видео/лекции по темам:— data engineeri

Прямо в сердце 😄

Deep Dive into LLMs like ChatGPTНа канале Andrej Karpathy вышло 3-х часовое видео с разбором как работают LLM модели на примере ChatGPT. Более того, чуть больше года назад он уже выпускал часовой ролик Intro to Large Language Models, который уже набрал бол

Инжиниринг Данных

Инжиниринг Данных
последний пост 16 часов назад

Ох gpt5 здесь, чтобы всех нас заменить 🦯

Snowflake самый популярный и при этом “простой” инструмент. Почему “простой” в кавычках? Потому что с ним легко начать, везде всем знакомый SQL, запросы всегда работают, можно обрабатывать огромные массивы данных, маштабироваться горизонтально и вертикальн

Интересная статья про отрицательную селекцию

Как любил говорить мой любимый учитель английского в лицее №1501: «Когда одним хорошо, другим дурно».Когда читаешь истории о людях, которых увольняют из-за ерунды, становится грустно. Если бы я сам всегда был честен, не уверен, что смог бы перейти с завода

В русскоязычном IT прямо сейчас разворачивается один из крупнейших скандалов в этом году. Я не могу пройти мимо и хочу высказаться.Для контекста. Из компании Газпром-Медиа уволили накрутчика опыта, который работал над Rutube. Сотрудники службы безопасности

В больших корпорациях есть методология выявления сотрудников с высоким потенциалом. Некоторые изобретают свою, некоторые по ощущениям, а кто-то берет готовый фреймворк, как например в статье The Ultimate Guide to High‑Potential IdentificationВ статье расск

Изначально мы планировали из Парижа добраться до побережья Франции и взяли машину на 3 дня. Но я ошибся в расчетах и получилось на 6 дней. После Парижа мы поехали в Шампань, пробовать шампанское. Ездить по полям и лугам Франции показалось скучно и мы решил

Мы прилетели утром в Париж, чтобы посмотреть финал Tour de France. Шёл небольшой дождь, центр города был перекрыт, но это никого не смутило - все пришли поддержать спортсменов и почувствовать атмосферу великого события.Вот несколько интересных фактов о Tou

Знаете какая самая популярная метрик в SaaS бизнесе? ARR (Annual Recurring Revenue). Это когда вы продаете продукт по подписке (subscription), где клиенты могу платить по месяцам. То есть, если купили ChatGPT за 20$ в месяц, то ARR будет 12x20=240$. Конечн

В сентябре Яндекс выпустит Нейроаналитика — ИИ-помощника, встроенного в DataLens. Сервис поможет находить закономерности в данных, ускорять отчёты и проверку гипотез. Всё — через чат без кода и формул. Создан на базе Yandex Cloud AI Studio. Поддерживает об

В свежей статье Cursor makes developers less effective автор затронул важную для разработчиков тему - помогает ли AI IDE делать работу быстрей? Его пост написано основе исследования - Measuring the Impact of Early-2025 AI on Experienced Open-Source Develop

Нужен ли TPM (Technical Product Manager или просто Product Manager) в дата-команде?Это очень хороший вопрос. Можно рассмотреть плюсы и минусы.Главная задача такого человека - быть связующим звеном между бизнесом и инженерами/аналитиками. Раньше этим занима

Бесплатный курс по PostgreSQL от практиков рынкаПрисоединяйтесь к бесплатному курсу по основам PostgreSQL от Selectel и Эльбрус Буткемп. Он будет полезен Junior- и Middle-специалистам: администраторам баз данных, разработчикам, DevOps-инженерам и аналитика

В приложение документ - Winning the Race: America’s AI Action PlanЭто 28‑страничная стратегия, представленная администрацией Дональда Трампа 23 июля 2025 г., определяющая ключевые шаги для укрепления лидерства США в сфере искусственного интеллекта. Он был

Как найти работу за рубежом, если страшно и непонятно, с чего начать?Международный рынок открывает двери к крутым проектам, зарплатам в долларах и евро, но искать работу за границей долго, нудно и слишком сложно!А самое главное, вообще непонятно, что делат

Left Join
последний пост 2 часа назад

OpenAI представила GPT-5GPT-5 стала еще умнее предшественниц. Работает быстрее, лучше справляется со всеми задачами, которые вы можете ей подкинуть: и пишет, и кодит, и картинки рисует. Кстати, картинку к посту тоже она сделала, чтобы проиллюстрировать, ка

ИИ перенервничал и снес базу данныхКогда-нибудь — возможно, уже совсем скоро — ИИ станет намного умнее человека и наконец-то заберет у нас всех работу. Но пока успехи на этот поприще сомнительные.Про ИИ, который впал в депрессию и снес данные, мы уже расск

Ютубер сохранил PNG в скворцеМы уже рассказывали про хранение данных на бумаге и в черно-белых видео с помехами, но недавно обнаружилось еще более оригинальное хранилище — скворец. Точнее, песня скворца.Ютубер Бенн Джордан выложил видео, где рассказал, как

📈 Вакансии аналитиков с HHУ нас с Колей из Left Join есть отличный проект по аналитики вакансий с HH. И я переделал дашборд с Tableau на интерактивный сайт. Основная проблема с дашбордом на Табло была в том, что он не догружает автоматически новые данные.

Самые обсуждаемые базы данных на Hacker News Hacker News — новостной сайт, где постят обо всем по чуть-чуть, но в основном про ИТ. И именно в ИТ-сообществе он очень популярен, поэтому по нему можно отслеживать некоторые тренды индустрии. Это может быть пол

Как выглядят данные без границМетрики во всем мире одинаковые и считаются по одним и тем же формулами. И данные одинаковые, и методологии тестов тоже.Но при этом подходы к аналитике в Европе, США, Азии и Африке будут совершенно разные. И даже одни и те же

Что коэффициент конверсии не объясняетВ отличие от её 7 компонентовВы работали над оптимизацией Conversion Rate, но ничего не изменилось.Потому что CR – это только вершина айсберга.Он не объясняет путь клиента.И уж точно не показывает, где именно отваливаю

В прошлом посте ребята из JetMetrics показали, как смотреть LTV в совокупности с другими метриками. Сегодня — как оценивать разные компоненты конверсии, чтобы отследить путь клиента. 👇🏻

Как уменьшить расходы на хранение данных и не отстать от AI-гонки? Использовать КХД на архитектуре Lakehouse. По данным Databricks, 74% западных компаний уже мигрировали на эту архитектуру, которая объединяет сильные стороны DWH и Data Lake, а также служит

Одинаковый LTV. Совершенно разные бизнесы.LTV = $180 может выглядеть нормально.Но вот в чём дело:Одна компания получает эти $180 с 2 заказов, в среднем. Другая – с 6 мелких покупок за 8 месяцев.Да и всё остальное разное:→ Поведение при повторных заказах→ Д

Отличный пост от наших друзей из jetmetrics про то, как важно смотреть на метрики в совокупности и оценивать всю систему в целом, а не ориентироваться только на один показатель 👇🏻

Топ ошибок в AB-тестах, которые стоят маркетологам конверсий1️⃣ Остановить тест, как только наметился победитель, и не ждать статзначимой выборки. 2️⃣ Тестировать больше одного параметра за раз и не понять, что именно сработало.3️⃣ Следить только за целево

Стратегический гайд по увеличению LTVLifetime Value — это метрика, которая показывает, сколько денег клиент приносит компании за все время взаимодействия с ней. Ее очень любят маркетологи, потому что она помогает рассчитать, сколько денег можно потратить н

Нейроаналитик в Yandex DataLensПомните, недавно рассказывали про новости DataLens и загадочную новую фичу, которая готовится к запуску? 🔥 Мы принесли подробности.В DataLens появится Нейроаналитик — AI-агент, который поможет создавать и редактировать сложны

Пятиминутка ИТ-историиА вы когда-нибудь задумывались, почему функции вызывают? Это выражение используется, кажется, применительно ко всем языкам программирования, где вообще есть функции, которые можно вызывать. Оно стало таким привычным, что многие вряд л

SQLite на практике

SQLite на практике
последний пост 2 months, 2 weeks назад

fuzzy: Нечеткое сравнение строк в SQLiteРасширение nalgeon/fuzzy помогает сравнивать строки на похожесть и транслитерировать текст.Одни функции считают расстояние между строками (чем оно больше, тем сильнее отличаются строки):-- Расстояние Дамерау-Левенште

fileio: Работа с файлами в SQLiteРасширение nalgeon/fileio добавляет в SQLite возможность читать и писать файлы прямо из SQL.fileio_write записывает данные в файл:select fileio_write('hello.txt', 'hello world');fileio_read читает содержимое файла:select fi

define: Пользовательские функции в SQLiteКак известно, в SQLite нет хранимых процедур.Предполагается, что вместо них программист реализует нужные функции в своем коде (например, на Python) и зарегистрирует их в SQLite (так называемые application-defined fu

crypto: Хеши, кодирование и декодирование в SQLiteОткрываю новую серию заметок. В каждом посте буду рассказывать об одном полезном расширении SQLite.Начнем с nalgeon/crypto. Оно предоставляет функции для расчета хешей, а также кодирования и декодирования д

Datalytics
последний пост 1 day, 2 hours назад

Бесплатный вебинар «Аналитика без посредников: как Data Mesh и dbt помогают бизнесу работать с данными»Классический подход к аналитике больше не справляется: централизованные команды перегружены, TTM растёт, а бизнесу не хватает гибкости.На бесплатном веби

🔍 Как трансформеры меняют область NLP и что стоит за LLM? На открытом уроке «Трансформеры как основа современного NLP» 12 августа в 18:00 МСК мы разберём, как архитектура трансформеров революционизирует обработку естественного языка. Вы познакомитесь с при

🚀 Когда аналитика — топливо, а бизнес — ракета!Как построить долгосрочную модель бизнеса, спрогнозировать ключевые метрики и выбрать оптимальную стратегию роста — об этом в новом выпуске «Диванной аналитики» рассказывает Батыржан Юсуп-Ахунов, старший анали

Контест по Машинному обучению ⤵️Приглашаем к участию всех, увлечённых искусственным интеллектом и матстатистикой! Мы подготовили для вас задачи по машинному обучению, теории вероятностей, классической статистике и родственным областям.📃 Расписание и правил

Системный анализ - смежная с data analyst профессия, крайне востребованная в бигтехе. Цифры подтверждают: на hh.ru больше трех тысяч открытых вакансий в РФ со средней зарплатой около 180-200к рублей.Но системный аналитик работает не с BI и не только с SQL:

Исследование WEF: 60% компаний ждут масштабных цифровых изменений к 2030 году — готовы ли вы?По данным отчёта Всемирного экономического форума (WEF), к 2030 году порядка 60% компаний по всему миру планируют кардинально трансформировать свои технологические

Иногда тебе не нужен отчёт — тебе нужен ответ.Не 40 слайдов, а один график, который скажет: вот здесь просела конверсия. Или: тут стоит протестировать гипотезу.И вот с этим в сентябре выходит новый инструмент — Нейроаналитик. Это AI-агент, который помогает

Эта вакансия для тех, чья страсть — оптимизация, масштабирование и автоматизация. Ищут опытного руководителя команды DBA. В числе задач: ◾️ Эксплуатация и сопровождение инфраструктуры баз данных; ◾️ Построение отказоустойчивых кластеров БД и распределение

Что под капотом у системы модерации контента в Авито 🤔В новом выпуске «Диванной аналитики» Рафаэль Биктимиров, старший аналитик команды автомодерации Авито, рассказывает:☄️ как выстроена система, которая проверяет видео по трём каналам — изображение, звук,

LangChain запустили Open Deep Research — open-source решение для построения агентских цепочек исследований с LLMПока все крупные игроки (OpenAI, Anthropic, Perplexity, Google) выпускают свои проприетарные решения для deep research, LangChain создали открыт

Системный анализ - смежная профессия с data analyst, крайне востребованная в бигтехе. Цифры подтверждают: на hh.ru больше трех тысяч открытых вакансий в РФ со средней зарплатой около 180-200к рублей.Но системный аналитик работает не с BI и не только с SQL:

Хотите освоить Python с экспертами НИУ ВШЭ и начать путь в аналитику?Онлайн-магистратура «Аналитика больших данных» запускает бесплатный интенсив по Python и аналитике. 4 вечера, чтобы разобраться с базовыми инструментами анализа данных и решить свои повсе

⚡️Как получить первый оффер аналитика данных: разбираем кейсы и тестовое заданиеАналитика — работа непростая, надо много учиться, но и не rocket science. Главное — системный подход и понимание, куда двигаться.Александр Дарьин - ментор курса «Инженер данны

Сегодня в гостях автор канала «Датавиз в BI» Алиса Ручкина.Она ответит на самые частые вопросы начинающих BI-разработчиков:🔹 Как выбрать график?Используй карточки визуализации от DataYoga или посмотри в любом чарт-чузере из подборки.🔹 Как сделать график пр

До ключевого события в области применения данных в финтехе – Fintech Data Day – осталось меньше недели!В программе будет 3 трека:1. Основной «Максимум данных в финтехе для ускорения бизнеса»2. Трек открытого диалога «Создаем коллаборацию вокруг данных в фи

Труба данных
последний пост 2 days, 5 hours назад

Все, что я люблю, в одной статье: Clickhouse, Tesla, ScalabilityДумаю, по скриншоту все понятно 🤪https://clickhouse.com/blog/how-tesla-built-quadrillion-scale-observability-platform-on-clickhouse@ohmydataengineer - канал "🕯Труба Данных"

https://dbtips.substack.com/p/the-core-principles-of-robust-dataКазалось бы, очень простые советы, но каждый раз смотря на очередной DWH, я удивляюсь тому, какую мешанину там напридумывали, что это очень тяжело поддерживать.@ohmydataengineer - канал "🕯Труб

Мокаемся в Study & LearnВ OpenAI завезли Study & Learn. Я решил попробовать на o3 модели, можно ли помокаться по SQLПромпт на входе.I want to test my knowledge on SQL, can you prepare test questions for me and work on them with commentary? Experien

Пятничный юмор. Хайп-трейн не остановить!🤪

Агенты (не AI) говорят, что появился черновик (то есть сырая версия до редактуры) второй версии кабанчика.@ohmydataengineer

Первый дашборд в новой рубрике #референсРеференс (от англ. reference — «отсылка», «справка») — это изображение, которое используется для поиска вдохновения и идей. 💡И то, что вдохновляет, и то, откуда можно взять концепцию. Под этим хэштегом я планирую вык

Давненько я не рассказывал про другие каналы и ничего не репостил (да и не писал в целом почти 2! недели).Как-то надо возвращаться в строй =)Вот, например, Алиса попросила рассказать про свой канал про дата-виз. Мб кому-то будет полезно и интересно 😏

Clickhouse 25.5https://clickhouse.com/blog/clickhouse-release-25-05@ohmydataengineer - канал "🕯Труба Данных"

Мои бывшие коллеги продолжают поставлять годный контент в пятничную рубрику!@ohmydataengineer - канал "🕯Труба Данных"

https://ducklake.selectDuckDB -> Duck Data Lake.Ну вы поняли. @ohmydataengineer - канал "🕯Труба Данных"

Максимальное спасибо @valiotti и @cyprusdata за организацию этого эвента!Если вы на Кипре и вы хотите быть в курсе дата-событий и понетворкаться и пообсуждать датку -> вступайте (через формочку) https://tally.so/r/nPpOEP

Редкое явление для нашего острова!Зато под одной крышей солидная кучка дата инженеров и дата аналитиков!

Неделя или месяц покупок- Snowflake -> Crunchy Data https://techcrunch.com/2025/06/02/snowflake-to-acquire-database-startup-crunchy-data/ (видимо, чтобы сделать Snowflake Postgres)- Salesforce -> Informatica https://techcrunch.com/2025/05/27/salesfor

https://clickhouse.com/blog/clickstack-a-high-performance-oss-observability-stack-on-clickhouseТут Clickhouse аннонсировал опенсорсное (но платно тоже можно) решение для логов, метрик, трейсов - ClickStack@ohmydataengineer - канал "🕯Труба Данных"

Исследование специалистов по работе с данными — 2025DevCrowd запускает новый опрос для дата-инженеров, аналитиков, дата-сайентистов, ML-инженеров и их руководителей.Зачем участвовать?– чтобы понять, какие задачи и инструменты сейчас в тренде,– увидеть, как

enthusiastech
последний пост None

data будни
последний пост 5 months, 2 weeks назад

🤑 yet another zarplatyклассный пример коллаборации: Саша Варламов собрал парсер и визуализациюhttps://t.me/data_bar/60а Никита это дело автоматизировал https://t.me/joni_in_web/21в результате получаем работающий проект и возможность посмотреть живую аналит

🦆 прилетят орлы и поднимут продкогда в работе встречаю какую-то проблему, то первым делом хочется написать в командный чатик, типа «ребята, там на дисках место заканчивается» со стороны это читается как «там на дисках место заканчивается … кто-нибудь сдела

2/2в общем, много чего для нужд аналитики в удб уже есть, но чего там нет — надо додумывать самому)из озвученного — нет поддержки триггеров и хранимых процедур. плюс конечно как у любого нового инструмента нет такого богатого набора аддонов и инструментов

📦 YDB + OLAP = ?ydb — это отлп-база данных от Яндекса. основная характеристика — нативная распределённость с поддержкой транзакции. из свойства распределённости следует высокая доступность и гибкая масштабируемость. помимо олтп-базы там есть ещё такая сущн

🗿 подкасты про карьеру специально для постоянной читательницы этого блога — Натальи — ни к чему не обязывающая подборка подкастов на тему карьеры, её смены и всякого такого >_>подкасты хороши тем, что можно слушать на фоне, удобно чтобы ненапряжно на

так! пора поговорить о действительно важных вещах, о которых почему-то все молчат — об оптимизации процесса загрузки посудомоечной машинычто же там оптимизировать, спросите вы? сейчас расскажу: ⁃ есть куча грязной посуды в раковине ⁃ надо её загрузить в п

🏦 новый_план(2)_finalв 2021 у меня был план, который потом пришлось спешно править и вот спустя всего год снова пришлось пере-пере-придумывать план.в шведской Кларне нотис-период был два месяца, было время подумать-подготовиться. исходный план был максимал

😭 как я не прошёл «собес» в ABBYсходил на подкаст к Кире Кузьменко, поговорили в формате мок-интервьюhttps://t.me/kirafound/1861ещё год назад я бы точно не рискнул публично собеситься — да ну его! но в последнее время стал спокойнее ко всему относиться: да

⚖️ собесы: дисбаланс за столомбывало на собесе сижу-пыхчу над задачкой, отбрасывая варианты один за другим, в итоге в муках порождаешь вроде-ничего-такое решение… только для того, чтобы интервьюер на той стороне нашёл там несколько критичных багов, и не ос

как сказал докладчик, ближайший аналог YTsaurus в опенсорсном мире — тот самый Hadoop. либо более современный S3 + Trino (+ обвязка)https://ytsaurus.tech/ru/platform-overviewАрхитектурно YTsaurus состоит из нескольких слоев:1. распределённая файловая сист

🦖 как вытаскивали динозавра в опенсорскаджый яндексоид знаком с «ытём» — система хранения данных с sql-подобным доступом. я бы сказал, что YT находится в центре всех процессов яндекса, которые завязаны на анализ данных (это получается, практически всех?)(н

🤑 как я искал валютную удалёнкукогда я понял (ещё будучи в Стокгольме), что где-то осенью уже точно буду менять работу, я начал прикидывать варианты.на тот момент (и с той стороны границы) самым выгодным казался вариант «валютной удалёнки»: когда платят в

за время своей безработности я поговорил-познакомился с десятком компаний: посмотрел как там устроен процесс собесов, как общается команда на встречах, что за стэк используют и какие планы у команды.среди всех начатых процессов мне запоминалась команда Куп

🤓 подгтовка к собесам: список техвопросов в мой прошлый заход по поиску работы я исходил из довольно наивного подхода: вот я такой красивый работу работаю, по пути что-то узнаю новое, вот это и буду отвечать на собесах! если чего-то не знаю, то так тому и

👋 Саша Михайлов, безработныйпочти год назад я писал, как устроился в шведский финтех Klarna и уехал жить в Стокгольм. Раз уж написал начало истории, напишу и её окончание 😭что же случилось? не прошел перфоманс ревью? очередные лейоффы? Кларна закрылась? вс

под капотом Яндекс.Такси

под капотом Яндекс.Такси
последний пост None

🎧 Podcasts

Data Engineering Podcast
последний пост None

Data Brew by Databricks
последний пост 2 days, 21 hours назад

Reinforcement Fine-Tuning and the Future of Specialized AI Models

Benchmarking Domain Intelligence | |E45

SWE-bench & SWE-agent | |E44

Enterprise AI: Research to Product | |E43

Multimodal AI | |E42

Age of Agents | |E41

Reward Models | |E40

Retrieval, rerankers, and RAG tips and tricks | |E39

The Power of Synthetic Data | |E38

Secret to Production AI: Tools & Infrastructure | |E37

Mixture of Memory Experts (MoME) | |E36

Mixed Attention | |E34

Kumo AI & Relational Deep Learning | |E34

«Ничего такого» by Dodo Enginnering
последний пост None

Запуск завтра Podcast
последний пост 2 months назад

Опрос слушателей по итогам 12 сезона

Космос. Как стартапы вышли на орбиту

Роботы. Чему мы смогли их научить за последние 100 лет

Искусственный интеллект. Могут ли машины мыслить как люди?

Электромобили. Что мешает электродвигателям изменить мир

Криптовалюта. Можно ли построить финансовую систему без доверия и посредников

Заменит ли ИИ программистов?

Власть над вниманием. Как нами управляют в цифровой среде

Наши устройства способны на большее? Говорим о программных ограничениях

Интероперабельность. Как подружить сервисы между собой

Как россияне остались без YouTube

GDPR. Как устроена защита персональных данных

Как работает спутниковый интернет

Что означает появление DeepSeek

Как приложения оказываются на наших устройствах

Moscow Python Podcast

Moscow Python Podcast
последний пост 1 month назад

No GIL / JIT оптимизации в Python / Скейлинг через Kafka

Новости Python за июнь 2025

Новости мира Python за мая 2025

Day Special: dependency injection в Python

Day Special: асинхронность

Новости мира Python за апрель 2025

Day Special: типизация в Python или mypy, Any и дженерики под микроскопом

Day Special: строки в Python или магия под капотом

Новости мира Python за март 2025

Для чего пишут на Python в Meta

Новости мира Python за февраль 2025

Заменит ли AI разработчиков / ждет ли нас AGI / зачем агентские системы разработчику

Итоги года мира Python 2024

Итоги года мира Python 2024

Новости Python за ноябрь 2024

Podlodka Podcast
последний пост 2 days, 22 hours назад

Podlodka #436 – Математика в ИИ

Podlodka #435 – Синтез речи

Podlodka #434 – IT в космосе

Podlodka #433 – Как оцениваются LLM

Podlodka #432 – AI за пределами кодинга

Podlodka #431 – Вычисления на GPU

Podlodka #430 – Зачем программисту PhD?

Podlodka #429 – Fear of missing out

Podlodka #428 – Как и зачем писать хорошие тексты?

Podlodka #427 – AI в небольших командах

Podlodka #426 – Мнемотехника: запомнить всё

Podlodka #425 – Языки программирования будущего

Podlodka #424 – Нейроинтерфейсы

Podlodka #423 – Groovy

Podlodka #422 – Spring Framework

Проветримся!
последний пост 2 days, 21 hours назад

Игорь Лабутин: мьюзикл про искусственный интеллект

Илья Смоленский: питание и психическое здоровье

Юрий Машенцев: Адаптивный футбол для детей

Антон Маскелиаде: как делать свою музыку

Борис Тарасов: от Маруси до Ровера

Книжный клуб: Диапазон

Анна Ривина: домашнее насилие

Книжный клуб: Амстердам История Самого Либерального Города

Александр Мерзликин: чемпионат по сну

Надежда Бей: Фиджитал Искусство

Никита Калинин: петербургская математическая школ

Елена Доброхотова: как сказать смерти "не сейчас"

Игорь Кузьмичев: чудаки города Ленинграда

Геннадий Асиньяров: "Марсианин" из Красноярска

Сергей Нурк: как и зачем читают геном

Вы находитесь здесь
последний пост None

Comand Line Heroes by RedHat
последний пост None

Python Bytes
последний пост 4 days, 4 hours назад

#443 Patching Multiprocessing

#442 Cloud bills in scientific notation

#441 It's Michaels All the Way Down

#440 Can't Register for VibeCon

#439 That Astral Episode

#438 Motivation time

#437 Python Language Summit 2025 Highlights

#436 Slow tests go last

#435 Stop with .folders in my ~/

#434 Most of OpenAI’s tech stack runs on Python

#433 Dev in the Arena

#432 How To Fix Your Computer

#431 Nerd Gas

#430 Or you go to jail

#429 Nitpicking Python

Software Engineering Daily
последний пост 1 day, 3 hours назад

SED News: Meta’s AI Gambit, Windsurf Shake‑Up, and the UK VPN Surge

Electron and Desktop App Engineering with Shelley Vohr

Modal and Scaling AI Inference with Erik Bernhardsson

RxJS with Ben Lesh

Small AI Models with Yoeven Khemlani

Streamlining Cloud Infrastructure Deployments with Jake Cooper

Building Open Infrastructure for AI with Illia Polosukhin

TypeScript with Jake Bailey

MCP Security at Wiz with Rami McCarthy

SED News: Data Land Grabs, Copyright Fights, and the Great AI Talent War

AI at Anaconda with Greg Jennings

ByteDance’s Container Networking Stack with Chen Tang

WayForward Games with Tomm Hulett and Voldi Way

CodeRabbit and RAG for Code Review with Harjot Gill

Emulating Retro Games on Modern Consoles with Robin Lavallée and Bill Litshauer

Habr Podcasts
последний пост None

Мысли и Методы
последний пост None

Трёп Себранта
последний пост 1 month назад

Непричесанные мысли (С) про ИИ летом 2025

Ваня Ямщиков про LLM: от скейлинга до провенанса

⌨ Coding

Martin Fowler
последний пост 23 часа назад

Quick but worthwhile links

Actions to improve impact intelligence

The Reformist CTO’s Guide to Impact Intelligence

How far can we push AI autonomy in code generation?

Partner with the AI, throw away the code

Who is LLM

Generative AI in software and essaying

Three worthwhile articles yesterday

I still care about the code

Why Organizations Need Expert Generalists

Expert Generalists need specialists (and LLMs)

Growing Expert Generalists

LLMs bring new nature of abstraction

LLMs bring new nature of abstraction

Assessing Expert Generalists

Антон Жиянов
последний пост 3 weeks, 2 days назад

Вам не нужен testify/assert

Интерактивный тур по Go 1.25

fuzzy: Нечеткое сравнение строк в SQLite

No-Code и заклинатели дождя

Stack Overflow помер (ну почти)

Опыт с книгой

rand.Text

Метод-значение

Пропуск нулевых значений в JSON

SHA-3 и его друзья

Больше итераторов в Go 1.24

Контекст для тестов

Как стать дата-сатанистом, не выходя из VS Code

Заглушить логи

Say It in Russian