Data Engineering | про инжиниринг данных и аналитику | Infomate

🏢 %company% Engineering

AirBnb Engineering
последний пост 1 week, 2 days назад

Understanding and Improving SwiftUI Performance

Load Testing with Impulse at Airbnb

Listening, Learning, and Helping at Scale: How Machine Learning Transforms Airbnb’s Voice Support…

How Airbnb Measures Listing Lifetime Value

Embedding-Based Retrieval for Airbnb Search

Accelerating Large-Scale Test Migration with LLMs

Improving Search Ranking for Maps

Airbnb at KDD 2024

My Journey To Airbnb | Vijaya Kaza

From Data to Insights: Segmenting Airbnb’s Supply

Building a User Signals Platform at Airbnb

Airbnb’s AI-powered photo tour using Vision Transformer

Adopting Bazel for Web at Scale

Transforming Location Retrieval at Airbnb: A Journey from Heuristics to Reinforcement Learning

Automation Platform v2: Improving Conversational AI at Airbnb

Netflix Engineering

Netflix Engineering
последний пост 1 day, 14 hours назад

Driving Content Delivery Efficiency Through Classifying Cache Misses

AV1 @ Scale: Film Grain Synthesis, The Awakening

Model Once, Represent Everywhere: UDA (Unified Data Architecture) at Netflix

FM-Intent: Predicting User Session Intent with Hierarchical Multi-Task Learning

Behind the Scenes: Building a Robust Ads Event Processing Pipeline

Measuring Dialogue Intelligibility for Netflix Content

How Netflix Accurately Attributes eBPF Flow Logs

Globalizing Productions with Netflix’s Media Production Suite

Foundation Model for Personalized Recommendation

HDR10+ Now Streaming on Netflix

Title Launch Observability at Netflix Scale

Introducing Impressions at Netflix

Title Launch Observability at Netflix Scale

Part 3: A Survey of Analytics Engineering Work at Netflix

Part 2: A Survey of Analytics Engineering Work at Netflix

Pinterest Engineering
последний пост 1 week, 2 days назад

Scaling Pinterest ML Infrastructure with Ray: From Training to End-to-End ML Pipelines

Unlocking Efficient Ad Retrieval: Offline Approximate Nearest Neighbors in Pinterest Ads

Next-Level Personalization: How 16k+ Lifelong User Actions Supercharge Pinterest’s Recommendations

Automated Migration and Scaling of Hadoop™ Clusters

Adopting Docs-as-Code at Pinterest

Healthier Personalization with Surveys

Modernizing Home Feed Pre-Ranking Stage

How Pinterest Accelerates ML Feature Iterations via Effective Backfill

500X Scalability of Experiment Metric Computing with Unified Dynamic Framework

Multi-gate-Mixture-of-Experts (MMoE) model architecture and knowledge distillation in Ads…

Migrating 3.7 Million Lines of Flow Code to TypeScript

Improving Pinterest Search Relevance Using Large Language Models

Building Holiday Finds: How Pinterest Engineers Reimagined Gift Discovery

Module Relevance on Homefeed

Infrastructure Advancements at AWS ReInvent 2024

Facebook
последний пост 1 month, 3 weeks назад

Accelerating GPU indexes in Faiss with NVIDIA cuVS

Introducing AutoPatchBench: A Benchmark for AI-Powered Security Fixes

Building multimodal AI for Ray-Ban Meta glasses

Revolutionizing software testing: Introducing LLM-powered bug catchers

Meta Andromeda: Supercharging Advantage+ automation with the next-gen personalized ads retrieval engine

Sequence learning: A paradigm shift for personalized ads recommendations

OCP Summit 2024: The open future of networking hardware for AI

Meta’s open AI hardware vision

How open source AI can improve population estimates, sustainable energy, and the delivery of climate change interventions

Simulator-based reinforcement learning for data center cooling optimization

Uber Engineering
последний пост None

Spotify Engineering
последний пост 1 month, 3 weeks назад

Incident Report: Spotify Outage on April 16, 2025

Celebrating Five Years of Backstage: From Open Source Project to Enterprise Software Business

A Behind-the-Scenes Look at How We Release the Spotify App (Part 1)

An Insider’s Tips for Taking the Certified Backstage Associate (CBA) Exam

Building Confidence: A Case Study in How to Create Confidence Scores for GenAI Applications

Congratulations to the Recipients of the 2024 Spotify FOSS Fund

How We Generated Millions of Content Annotations

Ripple Engineering
последний пост None

Dmitry Anoshin recommends

Snowflake
последний пост None

Cloudera
последний пост 7 months, 2 weeks назад

Elevating Productivity: Cloudera Data Engineering Brings External IDE Connectivity to Apache Spark

Smart Data
последний пост 4 days, 8 hours назад

How Data Analytics Reduces Truck Accidents and Speeds Up Claims

Interior Designers Boost Profits with Predictive Analytics

What the Rise of AI Web Scrapers Means for Data Teams

Free AI Tools to Test Website Accessibility

Thinking Machines At Work: How Generative AI Models Are Redefining Business Intelligence

The Power of AI for Personalization in Email

Improving LinkedIn Ad Strategies with Data Analytics

Data Helps Speech-Language Pathologists Deliver Better Results

AI Helps Businesses Develop Better Marketing Strategies

Agenic AI is Paying Huge Dividends for Companies Trying to Improve Decision-Making

Forensic AI Technology is Doing Wonders for Law Enforcement

LangGraph Orchestrator Agents: Streamlining AI Workflow Automation

Will AI Replace Personal Trainers? A Data-Driven Look at the Future of Fitness Careers

How Data-Driven Insights Are Addressing Gaps in Patient Communication and Equity

Data Analytics Is Revolutionizing Medical Credentialing

Knoldus
последний пост None

We Cloud Data
последний пост 6 days, 14 hours назад

Power BI: A Complete Introduction for Career and Business Use

How AI and Automation Are Transforming Jobs & Businesses

Descriptive Analytics: Unlocking Business Insight Through Data

Crafting an Effective Resume with OpenAI

Character AI: Meet the Most Advanced AI Chatbot With Personality

What Is Predictive Analytics: How Businesses Are Using It

How Businesses Are Using Intelligent Agents in AI: Real-World Applications

Enhancing Everyday Healthcare with Machine Learning: Early Disease Detection

Consulting Case Study: E-commerce Customer Segmentation

Build Your First Chatbot Using Python-NLTK

Top Essential Python Libraries for Data Science in 2025

From Data to Decisions: Market Basket Analysis for Retailers Using Python

Online Shopping Redefined: Predicting Shopper Behavior with Machine Learning

Natural Language Processing in Healthcare

Building a Book Recommendation System Using Python

Learn Data Engineering
последний пост None

SCRIBD
последний пост 3 months, 3 weeks назад

Terraform module to manage Oxbow Lambda and its components

Cloud-native Data Ingestion with AWS Aurora and Delta Lake

Jesse Anderson
последний пост 1 month, 3 weeks назад

Unapologetically Technical Episode 20 – Shane Murray

Unapologetically Technical Episode 19 – Jacopo Tagliabue

Unapologetically Technical Episode 18 – Adrian Woodhead

Unapologetically Technical Episode 17 – Semih Salihoglu

Unapologetically Technical Episode 16 – David Jayatillake

Unapologetically Technical Episode 15 – Frances Perry

Unapologetically Technical Episode 14 – Cliff Crosland

Data Teams Survey 2020-2024 Analysis

Data Quest
последний пост None

Infrastructure

AWS
последний пост 13 часов назад

Build conversational AI search with Amazon OpenSearch Service

Enhance stability with dedicated cluster manager nodes using Amazon OpenSearch Service

SQL to NoSQL: Modernizing data access layer with Amazon DynamoDB

SQL to NoSQL: Modeling data in Amazon DynamoDB

SQL to NoSQL: Planning your application migration to Amazon DynamoDB

Transforming network operations with AI: How Swisscom built a network assistant using Amazon Bedrock

End-to-End model training and deployment with Amazon SageMaker Unified Studio

Kaltura reduces observability operational costs by 60% with Amazon OpenSearch Service

AWS DMS validation: A custom serverless architecture

Optimize RAG in production environments using Amazon SageMaker JumpStart and Amazon OpenSearch Service

Advancing AI agent governance with Boomi and AWS: A unified approach to observability and compliance

Introducing GenAI-powered business description recommendations for custom assets in Amazon SageMaker Catalog

Use Amazon SageMaker Unified Studio to build complex AI workflows using Amazon Bedrock Flows

Accelerating AI innovation: Scale MCP servers for enterprise workloads with Amazon Bedrock

Choosing the right approach for generative AI-powered structured data retrieval

AWS
последний пост 13 часов назад

Revolutionizing drug data analysis using Amazon Bedrock multimodal RAG capabilities

Fluent Commerce’s approach to near-zero downtime Amazon Aurora PostgreSQL upgrade at 32 TB scale using snapshots and AWS DMS ongoing replication

Accelerate SQL Server to Amazon Aurora migrations with a customizable solution

Build and deploy AI inference workflows with new enhancements to the Amazon SageMaker Python SDK

Restore an Amazon RDS Custom for SQL Server instance using a backup from AWS Backup

Better together: Amazon RDS for SQL Server and Amazon SageMaker Lakehouse, a generative AI data integration use case

Announcing Valkey GLIDE 2.0 with support for Go, OpenTelemetry, and batching

Amazon Redshift Python user-defined functions will reach end of support after June 30, 2026

Enforce table level access control on data lake tables using AWS Glue 5.0 with AWS Lake Formation

Context extraction from image files in Amazon Q Business using LLMs

Build AWS architecture diagrams using Amazon Q CLI and MCP

Supercharging AWS database development with AWS MCP servers

Leveling up Amazon RDS with AWS Graviton4: Benchmarks

AWS costs estimation using Amazon Q CLI and AWS Cost Analysis MCP

Tailor responsible AI with new safeguard tiers in Amazon Bedrock Guardrails

Astronomer
последний пост None

DBT — Data Build Tool
последний пост None

FiveTran
последний пост None

DataBricks
последний пост None

Mix

/r/DataEngineering
последний пост 1 час назад

Built a real-time trust scoring system for ethical marketing—can you suggest features or improvements to make it more impactful?

Feeling cheated - Please help

Switching from QA to Data Engineer Internally – Need Advice

Technical Assessment Algorithms

Over 350 Practice Questions for dbt Analytics Engineering Certification – Free Access Available

Hel a SWE get better at SQL

Senior+ level questions?

My company has every cloud and there is a boxing match to take over other's data lakes

How do you handle deadlines when everything’s unpredictable?

How are you integrating Neo4j into your systems and ensuring data security?

Setting up an On-Prem Big Data Cluster in 2026—Need Advice on Hive Metastore & Table Management

Want to help shape Databricks products & experiences? Join our UX Research panel

Data Without Direction Retail Needs Better Questions Not More

How do I transition from technical writer (6 years) to data engineering?

DAMA-DMBOK

Towards Data Science
последний пост 6 часов назад

Fairness Pruning: Precision Surgery to Reduce Bias in LLMs

GraphRAG in Action: A Simple Agent for Know-Your-Customer Investigations

Taking ResNet to the Next Level

Software Engineering in the LLM Era

Interactive Data Exploration for Computer Vision Projects with Rerun

Four AI Minds in Concert: A Deep Dive into Multimodal AI Fusion

Why We Should Focus on AI for Women

How to Maximize Technical Events – NVIDIA GTC Paris 2025

How to Access NASA’s Climate Data — And How It’s Powering the Fight Against Climate Change Pt. 1

STOP Building Useless ML Projects – What Actually Works

An Introduction to Remote Model Context Protocol Servers

Implementing IBCS rules in Power BI

Revisiting Benchmarking of Tabular Reinforcement Learning Methods

From Reporting to Reasoning: How AI Is Rewriting the Rules of Data App Development

Prescriptive Modeling Makes Causal Bets – Whether you know it or not!

Monte Carlo Data
последний пост 1 month, 1 week назад

12 Data Quality Metrics That ACTUALLY Matter

Best Data Observability Tools (with RFP Template)

Data Vault Architecture: Everything You Need to Know Before You Build

The Past, Present, and Future of Data Quality Management: Testing, Monitoring, and Data Observability in 2025

Data Observability: How to Build Your Own Data Anomaly Detectors Using SQL

How to Conduct Data Incident Management for Data Teams

5 Generative AI Use Cases Companies Should Know About in 2025

Data Warehouse vs Data Lake vs Data Lakehouse: Definitions, Similarities, and Differences

What Good Data Product Managers Do — And Why You Probably Need One

Are Apache Iceberg Tables Right For Your Data Lake? 6 Reasons Why.

4 Native Snowflake Data Quality Checks & Features You Should Know

DE Telegram

DataEng
последний пост 3 weeks назад

Ранее я писал про релиз Airflow 3.0.2 в котором исправили утечку памяти, но на деле оказалось, что не полностью. Проблема была решена лишь частично, мои пайплайны продолжали периодически падать и съедать память. Посидев вечерок я локализовал проблему и нап

Orchestrating Workflows for GenAI ApplicationsНа платформе DeepLearning AI вышел новый курс про Apache Airflow от ребят из Astronomer — Orchestrating Workflows for GenAI ApplicationsКурс прикладной без лишней воды, рассчитан на тех, кто не знаком с Airflow

Apache Airflow 3.0.2Буквально час назад вышла новая багфикс версия Apache Airflow 3.0.2. Я с недавнего времени начал использовать тройку на своих проектах и столкнулся с неприятным сюрпризом - утечкой памяти. Встроенный dag-processor плодил кучу тредов и о

⚡️Пошаговый план: как стать аналитиком данных в 2025Хотите попасть в аналитику, но теряетесь в море информации и не понимаете, какие навыки действительно важны? Боитесь, что без опыта вас не возьмут на работу? И да, ещё один популярный вопрос — а что, если

Доклады с PyCon US 2025 🐍🐍🐍Когда я был на PyCon US в 2016 году в Портленде, то записи докладов в сети появлялись в тот же день, но последние года 4 организаторы решили на этом зарабатывать, и записи с конференций появляются со значительной задержкой (неско

Релиз Apache Airflow 2.11.0Я уже не думал, что будут обновления для 2-й ветки Airflow, а тут релиз 2.11.0: https://github.com/apache/airflow/releases/tag/2.11.0Причем это не какой-то релиз с багфиксами, там есть новые фишки: — DeltaTriggerTimetable (trigge

The Practical Guide to Airflow 3 🚀Дорогие друзья, я вижу как вам нравятся посты про Apache Airflow. В этот раз очередной пост про него любимого 😊Прошла неделя с релиза Apache Airflow 3, и вот в сети от ребят из Astronomer выходит небольшая книга The Practi

Релиз Airflow 3.0Час назад вышла мажорная версия Apache Airflow 3.0: https://github.com/apache/airflow/releases/tag/3.0.0Помимо полностью обновлённого интерфейса там ещё куча разных ништяков:— DAG Versioning (в сообществе долго ждали эту фичу, но мне она н

Ахтунг! Про Apache Iceberg™Как то не заметил, что легенда Tim Berglund вернулся в Confluent, и теперь снова вещает нам с экранов.На этот раз Тим разбирает Apache Iceberg: Apache Iceberg™ | What It Is and Why Everyone’s Talking About ItА вы уже использовали

На злобу дняТрамп раскрыл тарифы на производительность популярных библиотек для анализа данных 😁Так вот в чем кроется секрет успеха pandas 🐼

Курс AI Agents от MicrosoftНашел на просторах сети бесплатный курс по AI Агентам от Microsoft: https://microsoft.github.io/ai-agents-for-beginners/Помимо текстового материала есть и видео лекции на Ютубе.

Привет!За два месяца ни одного нового поста. Признаться, мне стало неинтересно делиться ссылками на материал по теме и превращать канал в ссылкопомойку, но тем не менее я продолжаю активно читать и искать новые статьи/видео/лекции по темам:— data engineeri

Прямо в сердце 😄

Deep Dive into LLMs like ChatGPTНа канале Andrej Karpathy вышло 3-х часовое видео с разбором как работают LLM модели на примере ChatGPT. Более того, чуть больше года назад он уже выпускал часовой ролик Intro to Large Language Models, который уже набрал бол

AI Agent CourseНа следующей неделе (10 февраля) стартует бесплатный курс Hugging Face Agents. Курс рассчитан на обучение в течение 6 недель, новый материал будет публиковаться раз в две недели. Цель курса научить вас создавать и деплоить ИИ Агентов в прода

Инжиниринг Данных

Инжиниринг Данных
последний пост 10 часов назад

Летом у меня было собеседование в Zapier, я сделал скриншот с их оргструкторой. Я уже откликнулся в конце процесса, поэтому быстро получил отказ.В качестве платформы данных они используют Databricks. На картинке видно структуры дата комманд. Согласно Гуглу

В последнем выпуске подкаста All-In подняли интересную тему связанную с обучением. Как известно в США самое дорогое (и возможно престижное) образование. Оно дорогое не только для иностранных студентов, но и для местных. У университетов есть рейтинг, чем кр

В статье I Don’t Want My Career to DIE (So should I consider myself a Data Intelligence Engineer)? автор рассуждает про важную тему - будущее профессии инженера данных. Очевидно, что AI меняет подход к работе, но есть много НО. По умолчанию GenAI повышает

В Чикагском Культорном центре, есть зал - Preston Bradley Hall с куполом из витражей Tiffany - крупнейшим в мире стеклянным куполом ручной работы.Под куполом цитата:Books are the legacies that a great genius leaves to mankind, which are delivered down from

Вот исправленный и грамматически выверенный вариант текста, с сохранением неформального и живого стиля:😇Попалась моя старая запись из Amazon, на которой был слайд про сообщества. Думаю, это примерно 2017 год.Amazon - одна из лучших компаний, где мне доводи

Я выбирал курсы на лето для детей 10+ лет связанные с CS и AI. Самый лучший вариант будет курс CS50 от Harvard на английском https://www.edx.org/cs50, там есть несколько курсов и все они хорошие, включая Python и AI. Сегодня увидел в канале Минцифры пост п

Сегодня в 11:00! Прямой эфир конференции VK Cloud Conf 2025 Подключайтесь к просмотру конференции. Вас ждут актуальные облачные технологии, новые продукты, исследования рынка и практические кейсы. Расписание 11:00 – 13:30 — доклады о ключевых продуктовых

Свежий квадрант Gartner по BI системам. Как видите MicroStrategy все еще в нем, но уже Strategy, несмотря на их увлечение bitcoin.Microsoft абсолютный лидер с Power BI и Fabric.Следом Tableau и Looker, как проверенные временем надежные BI инструменты. Sigm

Наконец-то норм курсы по BI от MicroStrategy:🇷🇺 Bitcoin 102: Corporate Adoption and the Bitcoin Standard🇷🇺 Bitcoin 103: Financial Fluency for Bitcoin🇷🇺 Bitcoin 104: Bitcoin in the Corporate Treasury and the Strategy Story💰

Вот это я понимаю чувак курсы по SQL Server и dba рекламирует на фоне своего Porsche с hello kitty, мужик красавчик, я бы купил. А то у нас люкс только у бизнес коучей, рэперах и в телеграмм розыгрышах.

Фан факт: я поступил в 2 вуза из топ-3 в этом списке, но учиться пошел в другие места.Физтех всегда был для меня первым из всех технических вузов, а вот Иннополис удивил

Каждую неделю я стараюсь слушать подкаст All-in, где обеспеченные мужички, которые срубили бабла на бывших IPO обсуждают как чего там в индустрии, куда все двигается и тому подобное. Они все еще продолжают инвестировать. Я уже к ним привык, прикольно их сл

Tableau Lego и невозможные визуализации.В BI и датавиз пространстве большинство пользователей работают со стандартными визуализациями. Естественно, в любом инструменте визуализации данных есть свои ограничения - они и определяют сложность визуализаций. Эк

Высшее на новом уровне: онлайн-магистратура от Яндекса и НИЯУ МИФИ. Здесь фундаментальные знания и практика для карьерного роста, а ещё — учёба, которую можно совмещать с работой и жизнью.IT‑специальность с экспертизой Яндекса + диплом магистра гособразца

Оказывается есть еще очень много компаний, которые используют Microsoft Reporting Service (SSRS). SSRS (SQL Server Reporting Services) был создан Microsoft и впервые представлен как часть SQL Server 2000 в 2004 году (в составе SQL Server 2000 Reporting Ser

Left Join
последний пост 1 day, 18 hours назад

Бенчмарк для дата-командВсегда интересно, а иногда и полезно, посмотреть, как другие решают те же задачи, с которыми многим из нас приходится сталкиваться регулярно.🔜 Например, создание дата-команды в компании — сколько человек в ней должно быть? Какое дол

Эксперимент с LLM привел к экзистенциальном кризису Anthropic объединилась с Andon Labs, чтобы проверить, насколько их Claude Sonnet готов полноценно отбирать работу у людей — не просто выполнять отдельные запросы, а брать на себя все обязанности от и до.

DataChain: AI-хранилище для текстов, картинок, видео и не толькоТак совпало, что эта неделя у нас оказалась посвящена разным способам хранения данных. Не будет отходить от темы и закончим на DataChain — AI-хранилище для преобразования и анализа неструктури

Каким облачным хранилищем вы пользуетесь? Если Skype (RIP) — лучший файлообменник, то Youtube — лучшее облачное хранилище. Да, мы продолжаем тему любопытных способов хранения данных. Если печатать их на бумаге не с руки, то как насчет зашифровать в видео и

Где хранить данные? Локально или в облаке? SSD или HDD? Облако может упасть, диски подвержены ошибкам и сбоям, которые могут повредить данные, зато рукописи, как известно, не горят. Разные способы кодирования позволяют довольно плотно упаковать данные на л

У аналитиков свои марафоныС приходом тепла все парки (и соцсети заодно) захватывают любители бега, хвастаются медалями и преодоленными километрами. А на выходных еще и дороги перекрывают для очередного городского марафона.У нас тоже есть свой марафон — тол

Почему разговаривать с компьютерами — плохая идеяНо не всегда.Скорое наступление эры умных компьютеров, с которыми можно говорить, как с человеком, предсказывают еще с момента появления голосовых ассистентов вроде Siri. Потом были умные колонки вроде Alexa

Онлайн-магистратура по дата-аналитике: набор открыт!Онлайн-курсам часто не хватает фундаментальной вузовской базы, а многие университетские программы не успевают за развитием индустрии и не дают актуальные знания. Институт искусственного интеллекта и анали

Про превосходство таблиц над пончикамиПайчарты и их разновидности (вроде «пончиков» из заголовка, которые те же пайчарты, по сути, просто с дыркой в центре) — парадоксальный способ визуализации данных.🔜 С одной стороны, это один из самых популярных чартов,

А вы видели топ книжных бестселлеров мая?«Причем здесь аналитика и книжные бестселлеры?» — спросите вы.А при том, что в этот топ попала книга Николая Валиотти «Аналитика для руководителей»! 🔥Мы про нее уже много раз рассказывали на этом канале, поэтому не

Максимальное спасибо @valiotti и @cyprusdata за организацию этого эвента!Если вы на Кипре и вы хотите быть в курсе дата-событий и понетворкаться и пообсуждать датку -> вступайте (через формочку) https://tally.so/r/nPpOEP

Редкое явление для нашего острова!Зато под одной крышей солидная кучка дата инженеров и дата аналитиков!

Как работают data-специалисты в 2025?Инженеры, аналитики, дата-сайентисты, ML-специалисты — как у вас дела? Как работа? Чем вы занимаетесь и какие инструменты используете?А хотите не только про себя рассказать, но и узнать, как дела у коллег?🔵Узнать про тр

Неуверенный калькуляторБыло бы здорово, если бы все в этом мире было точно и однозначно, особенно, когда речь идет о цифрах. Например, когда вы планируете переезд в другой город или хотите прикинуть доход от инвестиций.Но так бывает не всегда, и нам регуля

Быстрее, выше, сильнее: что нового у dbt 28 мая dbt провела Launch Showcase, где представила сразу несколько крупных изменений. 🔵dbt Fusion — новый движок, который будет в 30 раз быстрее старого. Он сможет проверять правильность SQL-запроса и выдавать подс

SQLite на практике

SQLite на практике
последний пост 1 month, 2 weeks назад

fuzzy: Нечеткое сравнение строк в SQLiteРасширение nalgeon/fuzzy помогает сравнивать строки на похожесть и транслитерировать текст.Одни функции считают расстояние между строками (чем оно больше, тем сильнее отличаются строки):-- Расстояние Дамерау-Левенште

fileio: Работа с файлами в SQLiteРасширение nalgeon/fileio добавляет в SQLite возможность читать и писать файлы прямо из SQL.fileio_write записывает данные в файл:select fileio_write('hello.txt', 'hello world');fileio_read читает содержимое файла:select fi

define: Пользовательские функции в SQLiteКак известно, в SQLite нет хранимых процедур.Предполагается, что вместо них программист реализует нужные функции в своем коде (например, на Python) и зарегистрирует их в SQLite (так называемые application-defined fu

crypto: Хеши, кодирование и декодирование в SQLiteОткрываю новую серию заметок. В каждом посте буду рассказывать об одном полезном расширении SQLite.Начнем с nalgeon/crypto. Оно предоставляет функции для расчета хешей, а также кодирования и декодирования д

Datalytics
последний пост 3 days, 15 hours назад

🎓 1 июля в 20:00 МСК OTUS проведёт открытый вебинар «Архитектура DWH по рецепту: метод борща в действии». Это необычный формат, где этапы приготовления блюда помогают понять логику построения хранилища данных.🎯 На уроке разберём, как «подготовка ингредиент

Аналитика данных без понимания бизнеса — просто цифры в вакуумеМожно идеально владеть SQL и Python, но без глубокого понимания бизнес-процессов ваши отчёты останутся просто красивыми графиками. Настоящая аналитика — это когда данные не просто описывают сит

Тимлид, вам слово📣 Приглашаем на митап по управлению командамиВоспользуйтесь летним затишьем, чтобы посмотреть на практику коллег, промониторить «погоду» в своей команде и, возможно, обновить стратегию работы. Обсудим дела тимлидские на офлайн-встрече Team

DevCrowd запускает новый опрос для дата-инженеров, аналитиков, дата-сайентистов, ML-инженеров и их руководителей.Зачем участвовать?– чтобы понять, какие задачи и инструменты сейчас в тренде,– увидеть, как устроена работа у коллег в других продуктах,– узнат

У меня была нудная задача. Признаюсь, что я очень многие задачи считаю нудными по умолчанию. И я вынужден сам вдыхать в них какую-то творческую составляющую, чтобы они переставали быть такими нудными. В общем, я сам себе сначала рою яму отчаяния от того, ч

🚀 Вы — аналитик или руководитель? Тогда вам знакома проблема целеполагания.Саша Мирской, директор аналитики вертикали Авито Товары, рассказывает, как правильно ставить цели менеджерам аналитики и на что на самом деле стоит тратить ресурсы.☄️ Почему руковод

⚡️Кто такие дата-инженеры и почему без них не обойтись современному бизнесу?Сейчас каждая компания собирает тонны данных: продажи, клиенты, маркетинг, логистика. Но сырые цифры бесполезны, если их нельзя превратить в понятные отчёты и выводы.Приглашаем вас

За последние полгода на волне хайпа AI я видел, как команды пытаются внедрить AI-ассистентов в процессы BI, при этом не умея толком настроить отчётность. Покупают Tableau за миллионы, а потом год разбираются, почему метрики не сходятсяПроблема в том, что B

Эра скучных графиков окончена. Визуализация данных сделает любую информацию занятной и удобной для изучения, но в этой сфере не обойтись без проводника. Роман Бунин — эксперт в визуализации данных, развитии BI-систем и разработке дашбордов. Что всё это зна

Полезная новость для всех, кто работает с аналитикой в DataLensТеперь вы можете подтвердить свои навыки официально и со скидкой 50%. Сертификация DataLens Analyst от Yandex Cloud помогает систематизировать знания и добавить весомый пункт в резюме.Программа

🔥 Набор материалов, который нужен КАЖДОМУ АНАЛИТИКУ!Александр Нездемина выложил в свободный доступ разборы реальных собесов и задач + топовые шаблоны и чек-листы!👉 Скорее подписывайтесь, такое редко бывает бесплатно! Я уже скачал себе все материалы! ⚙️http

Лучше практики может быть только…еще больше практикиВ karpovꓸcourses это прекрасно понимают, поэтому не только предлагают большой объем практических задач в каждом курсе, но еще и разработали программы, полностью сфокусированные на практике, — симуляторы

🔊 А вот и запись эфира, где аналитики Авито отвечали на вопросы. И тайм-коды для удобства:2:00 | Какие качества начинающего аналитика самые важные6:47 | Что мы сделали бы по-другому в рамках аналитики Авито 9:55 | Как в больших компаниях ловить баланс межд

Чувствуешь, что не хватает знаний технички для уверенности на работе?Кажется, что перелопатила весь интернет, но так и не пришло понимания, а информация не сложилась в единый пазл? 🤔СТОП ❌Если тебе надоело:❌ бесконечно готовиться и заваливать техсобесы, ❌

⚡️Создаём свою нейросеть в PyTorchХотите быстро разобраться в PyTorch и написать свою нейросеть? Мы подготовили для вас вебинар, где на практике разберём все этапы создания ML-модели.Вебинар проведет Владислав Агафонов — ML-инженер, ранее работал в Yandex

Труба данных
последний пост 1 day назад

Первый дашборд в новой рубрике #референсРеференс (от англ. reference — «отсылка», «справка») — это изображение, которое используется для поиска вдохновения и идей. 💡И то, что вдохновляет, и то, откуда можно взять концепцию. Под этим хэштегом я планирую вык

Давненько я не рассказывал про другие каналы и ничего не репостил (да и не писал в целом почти 2! недели).Как-то надо возвращаться в строй =)Вот, например, Алиса попросила рассказать про свой канал про дата-виз. Мб кому-то будет полезно и интересно 😏

Clickhouse 25.5https://clickhouse.com/blog/clickhouse-release-25-05@ohmydataengineer - канал "🕯Труба Данных"

Мои бывшие коллеги продолжают поставлять годный контент в пятничную рубрику!@ohmydataengineer - канал "🕯Труба Данных"

https://ducklake.selectDuckDB -> Duck Data Lake.Ну вы поняли. @ohmydataengineer - канал "🕯Труба Данных"

Максимальное спасибо @valiotti и @cyprusdata за организацию этого эвента!Если вы на Кипре и вы хотите быть в курсе дата-событий и понетворкаться и пообсуждать датку -> вступайте (через формочку) https://tally.so/r/nPpOEP

Редкое явление для нашего острова!Зато под одной крышей солидная кучка дата инженеров и дата аналитиков!

Неделя или месяц покупок- Snowflake -> Crunchy Data https://techcrunch.com/2025/06/02/snowflake-to-acquire-database-startup-crunchy-data/ (видимо, чтобы сделать Snowflake Postgres)- Salesforce -> Informatica https://techcrunch.com/2025/05/27/salesfor

https://clickhouse.com/blog/clickstack-a-high-performance-oss-observability-stack-on-clickhouseТут Clickhouse аннонсировал опенсорсное (но платно тоже можно) решение для логов, метрик, трейсов - ClickStack@ohmydataengineer - канал "🕯Труба Данных"

Исследование специалистов по работе с данными — 2025DevCrowd запускает новый опрос для дата-инженеров, аналитиков, дата-сайентистов, ML-инженеров и их руководителей.Зачем участвовать?– чтобы понять, какие задачи и инструменты сейчас в тренде,– увидеть, как

Как всегда по пятница!@ohmydataengineer - канал "🕯Труба Данных"

Comparing Analytics EnginesОчень интересный материал и хорошим сравнением нескольких аналитических движков. Редакция активно использует ClickHouse, но интересно было почитать и о других решениях. Очевидно, что универсального подхода к выбору лучшего движка

Интересных материалов нет, а интересные мемы - есть =)@ohmydataengineer - канал "🕯Труба Данных"

Разблокировалось тут забавное воспоминание!Cвою первую работу в айтишке (в Х5) я получил довольно забавно: случайно увидел пост от одного из хедов в фейсбуке, что ребята нанимают дата саентистов. Написал в личку "Я не DS, но умный и смышленый!".Мое резюме

https://www.cloudquery.io/blog/how-we-handle-billion-row-clickhouse-inserts-with-uuid-range-bucketingОчередная приятно-читаемая маготка про Clickhouse6 billion rows synced per monthData from 2,500 cloud accounts (1,900 AWS accounts + 600 Azure subscription

enthusiastech
последний пост None

data будни
последний пост 4 months, 1 week назад

🤑 yet another zarplatyклассный пример коллаборации: Саша Варламов собрал парсер и визуализациюhttps://t.me/data_bar/60а Никита это дело автоматизировал https://t.me/joni_in_web/21в результате получаем работающий проект и возможность посмотреть живую аналит

🦆 прилетят орлы и поднимут продкогда в работе встречаю какую-то проблему, то первым делом хочется написать в командный чатик, типа «ребята, там на дисках место заканчивается» со стороны это читается как «там на дисках место заканчивается … кто-нибудь сдела

2/2в общем, много чего для нужд аналитики в удб уже есть, но чего там нет — надо додумывать самому)из озвученного — нет поддержки триггеров и хранимых процедур. плюс конечно как у любого нового инструмента нет такого богатого набора аддонов и инструментов

📦 YDB + OLAP = ?ydb — это отлп-база данных от Яндекса. основная характеристика — нативная распределённость с поддержкой транзакции. из свойства распределённости следует высокая доступность и гибкая масштабируемость. помимо олтп-базы там есть ещё такая сущн

🗿 подкасты про карьеру специально для постоянной читательницы этого блога — Натальи — ни к чему не обязывающая подборка подкастов на тему карьеры, её смены и всякого такого >_>подкасты хороши тем, что можно слушать на фоне, удобно чтобы ненапряжно на

так! пора поговорить о действительно важных вещах, о которых почему-то все молчат — об оптимизации процесса загрузки посудомоечной машинычто же там оптимизировать, спросите вы? сейчас расскажу: ⁃ есть куча грязной посуды в раковине ⁃ надо её загрузить в п

🏦 новый_план(2)_finalв 2021 у меня был план, который потом пришлось спешно править и вот спустя всего год снова пришлось пере-пере-придумывать план.в шведской Кларне нотис-период был два месяца, было время подумать-подготовиться. исходный план был максимал

😭 как я не прошёл «собес» в ABBYсходил на подкаст к Кире Кузьменко, поговорили в формате мок-интервьюhttps://t.me/kirafound/1861ещё год назад я бы точно не рискнул публично собеситься — да ну его! но в последнее время стал спокойнее ко всему относиться: да

⚖️ собесы: дисбаланс за столомбывало на собесе сижу-пыхчу над задачкой, отбрасывая варианты один за другим, в итоге в муках порождаешь вроде-ничего-такое решение… только для того, чтобы интервьюер на той стороне нашёл там несколько критичных багов, и не ос

🦖 как вытаскивали динозавра в опенсорскаджый яндексоид знаком с «ытём» — система хранения данных с sql-подобным доступом. я бы сказал, что YT находится в центре всех процессов яндекса, которые завязаны на анализ данных (это получается, практически всех?)(н

🤑 как я искал валютную удалёнкукогда я понял (ещё будучи в Стокгольме), что где-то осенью уже точно буду менять работу, я начал прикидывать варианты.на тот момент (и с той стороны границы) самым выгодным казался вариант «валютной удалёнки»: когда платят в

за время своей безработности я поговорил-познакомился с десятком компаний: посмотрел как там устроен процесс собесов, как общается команда на встречах, что за стэк используют и какие планы у команды.среди всех начатых процессов мне запоминалась команда Куп

🤓 подгтовка к собесам: список техвопросов в мой прошлый заход по поиску работы я исходил из довольно наивного подхода: вот я такой красивый работу работаю, по пути что-то узнаю новое, вот это и буду отвечать на собесах! если чего-то не знаю, то так тому и

👋 Саша Михайлов, безработныйпочти год назад я писал, как устроился в шведский финтех Klarna и уехал жить в Стокгольм. Раз уж написал начало истории, напишу и её окончание 😭что же случилось? не прошел перфоманс ревью? очередные лейоффы? Кларна закрылась? вс

под капотом Яндекс.Такси

под капотом Яндекс.Такси
последний пост None

🎧 Podcasts

Data Engineering Podcast
последний пост None

Data Brew by Databricks
последний пост 2 months, 1 week назад

Benchmarking Domain Intelligence | |E45

SWE-bench & SWE-agent | |E44

Enterprise AI: Research to Product | |E43

Multimodal AI | |E42

Age of Agents | |E41

Reward Models | |E40

Retrieval, rerankers, and RAG tips and tricks | |E39

The Power of Synthetic Data | |E38

Secret to Production AI: Tools & Infrastructure | |E37

Mixture of Memory Experts (MoME) | |E36

Mixed Attention | |E34

Kumo AI & Relational Deep Learning | |E34

«Ничего такого» by Dodo Enginnering
последний пост None

Запуск завтра Podcast
последний пост 1 month назад

Опрос слушателей по итогам 12 сезона

Космос. Как стартапы вышли на орбиту

Роботы. Чему мы смогли их научить за последние 100 лет

Искусственный интеллект. Могут ли машины мыслить как люди?

Электромобили. Что мешает электродвигателям изменить мир

Криптовалюта. Можно ли построить финансовую систему без доверия и посредников

Заменит ли ИИ программистов?

Власть над вниманием. Как нами управляют в цифровой среде

Наши устройства способны на большее? Говорим о программных ограничениях

Интероперабельность. Как подружить сервисы между собой

Как россияне остались без YouTube

GDPR. Как устроена защита персональных данных

Как работает спутниковый интернет

Что означает появление DeepSeek

Как приложения оказываются на наших устройствах

Moscow Python Podcast

Moscow Python Podcast
последний пост 3 weeks, 4 days назад

Новости мира Python за мая 2025

Day Special: dependency injection в Python

Day Special: асинхронность

Новости мира Python за апрель 2025

Day Special: типизация в Python или mypy, Any и дженерики под микроскопом

Day Special: строки в Python или магия под капотом

Новости мира Python за март 2025

Для чего пишут на Python в Meta

Новости мира Python за февраль 2025

Заменит ли AI разработчиков / ждет ли нас AGI / зачем агентские системы разработчику

Итоги года мира Python 2024

Итоги года мира Python 2024

Новости Python за ноябрь 2024

Как из Python, Open source и такой-то матери построить бизнес

3.13 и другие новости за октябрь 2024

Podlodka Podcast
последний пост 3 days, 16 hours назад

Podlodka #431 – Вычисления на GPU

Podlodka #430 – Зачем программисту PhD?

Podlodka #429 – Fear of missing out

Podlodka #428 – Как и зачем писать хорошие тексты?

Podlodka #427 – AI в небольших командах

Podlodka #426 – Мнемотехника: запомнить всё

Podlodka #425 – Языки программирования будущего

Podlodka #424 – Нейроинтерфейсы

Podlodka #423 – Groovy

Podlodka #422 – Spring Framework

Podlodka #421 – Прогнозирование погоды

Podlodka #420 – Crystal

Podlodka #419 – Готовим красиво между митингами

Podlodka #418 – Профессия: системный аналитик

Podlodka #417 – Swift

Проветримся!
последний пост 2 days, 18 hours назад

Антон Маскелиаде: как делать свою музыку

Борис Тарасов: от Маруси до Ровера

Книжный клуб: Диапазон

Анна Ривина: домашнее насилие

Книжный клуб: Амстердам История Самого Либерального Города

Александр Мерзликин: чемпионат по сну

Надежда Бей: Фиджитал Искусство

Никита Калинин: петербургская математическая школ

Елена Доброхотова: как сказать смерти "не сейчас"

Игорь Кузьмичев: чудаки города Ленинграда

Геннадий Асиньяров: "Марсианин" из Красноярска

Сергей Нурк: как и зачем читают геном

Александр Гечис: "GTA" на автозаводе

Вы находитесь здесь
последний пост None

Comand Line Heroes by RedHat
последний пост None

Python Bytes
последний пост 3 days, 21 hours назад

#438 Motivation time

#437 Python Language Summit 2025 Highlights

#436 Slow tests go last

#435 Stop with .folders in my ~/

#434 Most of OpenAI’s tech stack runs on Python

#433 Dev in the Arena

#432 How To Fix Your Computer

#431 Nerd Gas

#430 Or you go to jail

#429 Nitpicking Python

#428 How old is your Python?

#427 Rise of the Python Lord

#426 Committing to Formatted Markdown

#425 If You Were a Klingon Programmer

#424 We Will Test in Production

Software Engineering Daily
последний пост 20 часов назад

AI at Anaconda with Greg Jennings

ByteDance’s Container Networking Stack with Chen Tang

WayForward Games with Tomm Hulett and Voldi Way

CodeRabbit and RAG for Code Review with Harjot Gill

Emulating Retro Games on Modern Consoles with Robin Lavallée and Bill Litshauer

SED News: Corporate Spies, Postgres, and the Weird Life of Devs Right Now

TanStack and the Future of Frontend with Tanner Linsley

The Challenge of AI Model Evaluations with Ankur Goyal

Modern Distributed Applications with Stephan Ewen

Crew AI with João Moura

Chip Design in the AI Era with Thomas Andersen

OpenTofu with Cory O’Daniel and Malcolm Matalka

Mojo and Building a CUDA Replacement with Chris Lattner

Building PostgreSQL for the Future with Heikki Linnakangas

Security at Coinbase with Philip Martin

Habr Podcasts
последний пост None

Мысли и Методы
последний пост None

Трёп Себранта
последний пост 6 months, 1 week назад

Ваня Ямщиков про LLM: от скейлинга до провенанса

⌨ Coding

Martin Fowler
последний пост 1 day, 15 hours назад

Why Organizations Need Expert Generalists

Expert Generalists need specialists (and LLMs)

Growing Expert Generalists

LLMs bring new nature of abstraction

LLMs bring new nature of abstraction

Assessing Expert Generalists

Expert Generalists: three more characteristics

Expert Generalists: first three characteristics

Autonomous coding agents: A Codex example

Should I still use analytics?

Bliki: Say Your Writing

Interviewed by James Lewis at goto Copenhagen

Refresh of Agile Threat Modeling

Building Custom Tooling with LLMs

Coding Assistants Threaten the Software Supply Chain

Антон Жиянов
последний пост 1 week назад

Интерактивный тур по Go 1.25

fuzzy: Нечеткое сравнение строк в SQLite

No-Code и заклинатели дождя

Stack Overflow помер (ну почти)

Опыт с книгой

rand.Text

Метод-значение

Пропуск нулевых значений в JSON

SHA-3 и его друзья

Больше итераторов в Go 1.24

Контекст для тестов

Как стать дата-сатанистом, не выходя из VS Code

Заглушить логи

Say It in Russian

cmp.Or