Data Engineering
про инжиниринг данных и аналитику
🏢 %company% Engineering
AirBnb Engineering
последний пост 3 дня, 4 часа назад
Migrating Kafka transparently between Zookeeper clusters
Migrating Kafka transparently between Zookeeper clusters Migrating Kafka transparently between Zookeeper clusters

Learn more about how to migrate your Kafka cluster from one Zookeeper cluster to another without any user impact.By: Edmund MokIntroductionKafka is an open-source distributed event-streaming platform. It depends on Zookeeper, another open-source distributed coordination system, to store cluster metadata. At Airbnb, Kafka forms the backbone of our data infrastructure, powering use cases such as event logging and change data capture that help us better understand our guests and hosts, and make decisions that improve our product.We run several production Kafka clusters, the largest of which being our oldest cluster consisting of hundreds of brokers and supporting over 1GB/s of incoming traffic…

3 дня, 4 часа назад @ medium.com
Designing for Productivity in a Large-Scale iOS Application
Designing for Productivity in a Large-Scale iOS Application Designing for Productivity in a Large-Scale iOS Application

How innovation in technology and people processes have enabled iOS developers to remain productive in a large codebase.Every iOS engineer remembers the joy of seeing their first application running on an iOS device. The human-centric interface of the iPhone brings the program to life. When you choose iOS development as a career, that joy grows as your application touches more people’s lives.Affecting more users often involves new iOS features, flows, and functionality. But as an application grows to serve more users, new features and functionality can introduce additional weight and complexity, which slows product iteration and precludes atomic refactors.We have undergone this journey as an…

1 неделя, 3 дня назад @ medium.com
How Airbnb Tech Fosters a Culture of Learning
How Airbnb Tech Fosters a Culture of Learning How Airbnb Tech Fosters a Culture of Learning

Leveraging technical learning and development to enable engineers to do their best work.Authors: Hanna Dooley, Jennifer Rice, Tamera ScholzIntroductionThe Airbnb TechED team believes each individual’s success is critical to the health of our technical teams. This fundamental belief in the power of human potential drives us to bring high quality, relevant educational content to our technical teams to meet both their needs and the needs of Airbnb. We work with our technical leaders and subject matter experts (SMEs) to build and deliver unique, interactive, multimodal learning experiences at scale.We have three principles for approaching technical learning:Embrace the adventureShare what you k…

2 недели, 1 день назад @ medium.com
The Airflow Smart Sensor Service
The Airflow Smart Sensor Service The Airflow Smart Sensor Service

Consolidating long-running, lightweight tasks for improved resource utilizationBy: Yingbo Wang, Kevin YangIntroductionAirflow is a platform to programmatically author, schedule, and monitor data pipelines. A typical Airflow cluster supports thousands of workflows, called DAGs (directed acyclic graphs), and there could be tens of thousands of concurrently running tasks at peak hours. Back in 2018, Airbnb’s Airflow cluster had several thousand DAGs and more than 30 thousand tasks running at the same time. This amount of workload would often result in Airflow’s database being overloaded. It also made the cluster quite expensive since it required a lot of resources to support those concurrent t…

2 недели, 3 дня назад @ medium.com
My Journey to Airbnb — Rachel Zhao
My Journey to Airbnb — Rachel Zhao My Journey to Airbnb — Rachel Zhao

My Journey to Airbnb — Rachel ZhaoFrom an uncertain software engineering student to Head of Search Engineering.If there’s one thing travel teaches us, it’s that the journey is just as important as the destination. With this in mind, we’re launching a new series of blog posts to bring you the personal stories of our amazing Airfam! How did they initially connect with their passion, what brought them to Airbnb, and what’s fueling them every day?We could think of no one better to kick off this series than Rachel Zhao, the head of engineering for our Search product group, which contributed to the set of incredible features this year to respond to the changing world of travel. In addition to maj…

2 недели, 4 дня назад @ medium.com
How Airbnb Enables Consistent Data Consumption at Scale
How Airbnb Enables Consistent Data Consumption at Scale How Airbnb Enables Consistent Data Consumption at Scale

Part-III: Building a coherent consumption experienceBy: Amit Pahwa, Cristian Figueroa, Donghan Zhang, Haim Grosman, John Bodley, Jonathan Parks, Jenny Liu, Krishna Bhupatiraju, Maggie Zhu, Mike Lin, Philip Weiss, Robert Chang, Shao Xie, Sylvia Tomiyama, Toby Mao, Xiaohui SunIntroductionIn the first post of this series, we highlighted the role Minerva plays in transforming how Analytics works at Airbnb. In the second post, we dove into Minerva’s core compute infrastructure and explained how we enforce data consistency across datasets and teams. In this third and final post, we will focus our story on how Minerva drastically simplifies and improves the data consumption experience for our user…

3 недели, 3 дня назад @ medium.com
Commitment to Craft
Commitment to Craft Commitment to Craft

Ari Balogh, CTO at Airbnb, shares how striving towards excellence has served us well in a time of uncertainty.If you’ve ever been part of a startup, you understand the importance of speed. Sometimes it feels like nothing else matters, since getting your products to market quickly can determine whether you survive. When Airbnb was an emerging company with a radical new vision for travel, we often had to prioritize speed in making tough engineering tradeoffs.These decisions paid off, and Airbnb grew into a platform that supports millions of Hosts and Guests globally. Now, in addition to delivering fast, our success depends on providing an experience of exceptional quality that considers every…

4 недели, 1 день назад @ medium.com
Automating Data Protection at Scale, Part 1
Automating Data Protection at Scale, Part 1 Automating Data Protection at Scale, Part 1

Part one of a series on how we provide powerful, automated, and scalable data privacy and security engineering capabilities at Airbnb.Elizabeth Nammour, Wendy Jin, Shengpu LiuOur community of hosts and guests trust that we will keep their data safe and honor their privacy rights. With frequent news reports of data security breaches, coupled with global regulations and security requirements, monitoring and protecting data has become an even more critical problem to solve.At Airbnb, data is collected, stored, and propagated across different data stores and infrastructures, making it hard to rely on engineers to manually keep track of how user and sensitive data flows through our environment. …

1 месяц назад @ medium.com
Task-Oriented Conversational AI in Airbnb Customer Support
Task-Oriented Conversational AI in Airbnb Customer Support Task-Oriented Conversational AI in Airbnb Customer Support

How Airbnb is powering automated support to enhance the host and guest experienceGavin Li, Mia ZhaoCustomer Support (CS) can make or break a guest’s travel experience. To support Airbnb’s community of guests and Hosts, we have been investing heavily in developing intelligent CS solutions leveraging state-of-the-art natural language processing (NLP), machine learning (ML), and artificial intelligence (AI) technologies.In this blog post, we’ll introduce the automated support system at Airbnb, which employs the latest task-oriented conversational AI technology, through the lens of a recently launched feature called Mutual Cancellation. We will describe in detail how we framed the business prob…

2 месяца назад @ medium.com
How Airbnb Built “Wall” to prevent data bugs
How Airbnb Built “Wall” to prevent data bugs How Airbnb Built “Wall” to prevent data bugs

Gaining trust in data with extensive data quality, accuracy and anomaly checksAs shared in our Data Quality Initiative post, Airbnb has embarked on a project of massive scale to ensure trustworthy data across the company. To enable employees to make faster decisions with data and provide better support for business metric monitoring, we introduced Midas, an analytical data certification process that certifies all important metrics and data sets. As part of that process, we made robust data quality checks and anomaly detection mandatory requirements to prevent data bugs propagating through the data warehouse. We also created guidelines on which specific data quality checks need to be impleme…

2 месяца, 1 неделя назад @ medium.com
Using Sentiment Score to Assess Customer Service Quality
Using Sentiment Score to Assess Customer Service Quality Using Sentiment Score to Assess Customer Service Quality

How AI-based Sentiment Models Complement Net Promoter ScoreBy Shuai Shao, Mia Zhao, Yuanyuan NiNet Promoter Score (NPS) is a well-accepted measurement of customer satisfaction in most customer-facing industries. We leverage NPS at Airbnb to help measure how well we serve our community of guests and hosts through our customer service. But NPS has two major drawbacks: 1) NPS is sparse, given only a fraction of users respond to the survey, and 2) NPS is slow. It takes at least a week for results to show up. Airbnb uses A/B testing heavily across our core products and customer service offerings. In the A/B testing world, the longer it takes to see results and interpret experiments, the longer i…

2 месяца, 2 недели назад @ medium.com
How Airbnb Measures Future Value to Standardize Tradeoffs
How Airbnb Measures Future Value to Standardize Tradeoffs How Airbnb Measures Future Value to Standardize Tradeoffs

The propensity score matching model powering how we optimize for long-term decision-makingBy Mitra Akhtari, Jenny Chen, Amelia Lemionet, Dan Nguyen, Hassan Obeid, Yunshan ZhuAt Airbnb, we have a vision to build a 21st century company by operating over an infinite time horizon and balancing the interests of all stakeholders. To do so effectively, we need to be able to compare, in a common currency, both the short and long-term value of actions and events that take place on our platform. These actions could be a guest making a booking or a host adding amenities to their listing, to name just two examples.Though randomized experiments measure the initial impact of some of these actions, others…

3 месяца назад @ medium.com
A Deep Dive into Airbnb’s Server-Driven UI System
A Deep Dive into Airbnb’s Server-Driven UI System A Deep Dive into Airbnb’s Server-Driven UI System

How Airbnb ships features faster across web, iOS, and Android using a server-driven UI system named Ghost Platform 👻.By Ryan BrooksBackground: Server-Driven UIBefore we dive into Airbnb’s implementation of server-driven UI (SDUI), it’s important to understand the general idea of SDUI and how it provides an advantage over traditional client-driven UI.In a traditional world, data is driven by the backend and the UI is driven by each client (web, iOS, and Android). As an example, let’s take Airbnb’s listing page. To show our users a listing, we might request listing data from the backend. Upon receiving this listing data, the client transforms that data into UI.This comes with a few issues. Fi…

3 месяца, 2 недели назад @ medium.com
Building an Inclusive Codebase
Building an Inclusive Codebase Building an Inclusive Codebase

Our playbook for driving down non-inclusive terminologyBy: Michael Bachand, Amanda Vawter, Dan Federman, Jake Silver, Julia Wang, Mark TaiCode is our craft. At Airbnb, we view our code and product as a reflection of our values. Each developer imbues their work with a piece of themselves. We want all engineers to be proud of the codebase in which they work and the systems that they use every day.We want to share with you some of the work that we are doing at Airbnb to build an inclusive engineering culture. We hope that sharing our story may energize and bolster similar efforts to eliminate non-inclusive terminology throughout the industry.Bootstrapping ChangeAirbnb’s mission is to create a …

4 месяца назад @ medium.com
How Airbnb Standardized Metric Computation at Scale
How Airbnb Standardized Metric Computation at Scale How Airbnb Standardized Metric Computation at Scale

Metric Infrastructure with Minerva @ AirbnbPart II: The six design principles of Minerva compute infrastructureBy: Amit Pahwa, Cristian Figueroa, Donghan Zhang, Haim Grosman, John Bodley, Jonathan Parks, Maggie Zhu, Philip Weiss, Robert Chang, Shao Xie, Sylvia Tomiyama, Xiaohui SunIntroductionAs described in the first post of this series, Airbnb invested significantly in building Minerva, a single source of truth metric platform that standardizes the way business metrics are created, computed, served, and consumed. We spent years iterating toward the right metric infrastructure and designing the right user experience. Because of this multi-year investment, when Airbnb’s business was severel…

4 месяца, 2 недели назад @ medium.com
Netflix Engineering Netflix Engineering
последний пост 1 день, 4 часа назад
Revisiting BetterTLS: Certificate Path Building
Revisiting BetterTLS: Certificate Path Building Revisiting BetterTLS: Certificate Path Building

By Ian HakenLast year the AddTrust root certificate expired and lots of clients had a bad time. Some Roku devices weren’t working right, Heroku had problems, and some folks couldn’t even curl. In the aftermath Ryan Sleevi wrote a really great blog post not just about the issue of this one certificate’s expiry, but the problem that so many TLS implementations have in general with certificate path building. If you haven’t read that blog post, you should. This post is probably going to make a lot more sense if you’ve read that one first, so go ahead and read it now.To recap that previous AddTrust root certificate expiry, there was a certificate graph that looked like this:The AddTrust certific…

1 день, 4 часа назад @ netflixtechblog.com
CAMBI, a banding artifact detector
CAMBI, a banding artifact detector CAMBI, a banding artifact detector

by Joel Sole, Mariana Afonso, Lukas Krasula, Zhi Li, and Pulkit TandonIntroducing the banding artifacts detector developed by Netflix aiming at further improving the delivered video qualityBanding artifacts can be pretty annoying. But, first of all, you may wonder, what is a banding artifact?Banding artifact?You are at home enjoying a show on your brand-new TV. Great content delivered at excellent quality. But then, you notice some bands in an otherwise beautiful sunset scene. What was that? A sci-fi plot twist? Some device glitch? More likely, banding artifacts, which appear as false staircase edges in what should be smoothly varying image areas.Bands can show up in the sky in that sunset …

1 день, 6 часов назад @ netflixtechblog.com
Safe Updates of Client Applications at Netflix
Safe Updates of Client Applications at Netflix Safe Updates of Client Applications at Netflix

By Minal MishraQuality of a client application is of paramount importance to global digital products, as it is the primary way customers interact with a brand. At Netflix, we have significant investments in ensuring new versions of our applications are well tested. However, Netflix is available for streaming on thousands of types of devices and it is powered by hundreds of micro-services which are deployed independently, making it extremely challenging to comprehensively test internally. Hence, it became important to supplement our release decisions with strong evidence received from the field during the update process.Our team was formed to mine health signals from the field to quickly eva…

1 неделя, 1 день назад @ netflixtechblog.com
Interpreting A/B test results: false positives and statistical significance
Interpreting A/B test results: false positives and statistical significance Interpreting A/B test results: false positives and statistical significance

Martin Tingley with Wenjing Zheng, Simon Ejdemyr, Stephanie Lane, and Colin McFarlandThis is the third post in a multi-part series on how Netflix uses A/B tests to inform decisions and continuously innovate on our products. Need to catch up? Have a look at Part 1 (Decision Making at Netflix) and Part 2 (What is an A/B Test?). Subsequent posts will go into more details on experimentation across Netflix, how Netflix has invested in infrastructure to support and scale experimentation, and the importance of the culture of experimentation within Netflix.In Part 2: What is an A/B Test we talked about testing the Top 10 lists on Netflix, and how the primary decision metric for this test was a meas…

1 неделя, 1 день назад @ netflixtechblog.com
How We Build Micro Frontends With Lattice
How We Build Micro Frontends With Lattice How We Build Micro Frontends With Lattice

Written by Michael Possumato, Nick Tomlin, Jordan Andree, Andrew Shim, and Rahul Pilani.As we continue to grow here at Netflix, the needs of Revenue and Growth Engineering are rapidly evolving; and our tools must also evolve just as rapidly. The Revenue and Growth Tools (RGT) team decided to set off on a journey to build tools in an abstract manner to have solutions readily available within our organization. We identified common design patterns and architectures scattered across various tools which were all duplicating efforts in some way or another.We needed to consolidate these tools in a way that scaled with the teams we served. It needed to have the agility of a micro frontend and the e…

2 недели, 3 дня назад @ netflixtechblog.com
Netflix Cloud Packaging in the Terabyte Era
Netflix Cloud Packaging in the Terabyte Era Netflix Cloud Packaging in the Terabyte Era

By Xiaomei Liu, Rosanna Lee, Cyril ConcolatoIntroductionBehind the scenes of the beloved Netflix streaming service and content, there are many technology innovations in media processing. Packaging has always been an important step in media processing. After content ingestion, inspection and encoding, the packaging step encapsulates encoded video and audio in codec agnostic container formats and provides features such as audio video synchronization, random access and DRM protection. Our previous tech blog Packaging award-winning shows with award-winning technology detailed our packaging technology deployed on the streaming side.As Netflix becomes a producer of award winning content, the stud…

3 недели назад @ netflixtechblog.com
What is an A/B Test?
What is an A/B Test? What is an A/B Test?

Martin Tingley with Wenjing Zheng, Simon Ejdemyr, Stephanie Lane, and Colin McFarlandThis is the second post in a multi-part series on how Netflix uses A/B tests to inform decisions and continuously innovate on our products. See here for Part 1: Decision Making at Netflix. Subsequent posts will go into more details on the statistics of A/B tests, experimentation across Netflix, how Netflix has invested in infrastructure to support and scale experimentation, and the importance of the culture of experimentation within Netflix.An A/B test is a simple controlled experiment. Let’s say — this is a hypothetical! — we want to learn if a new product experience that flips all of the boxart upside dow…

3 недели, 2 дня назад @ netflixtechblog.com
Practical API Design at Netflix, Part 2: Protobuf FieldMask for Mutation Operations
Practical API Design at Netflix, Part 2: Protobuf FieldMask for Mutation Operations Practical API Design at Netflix, Part 2: Protobuf FieldMask for Mutation Operations

By Ricky Gardiner, Alex BorysovBackgroundIn our previous post, we discussed how we utilize FieldMask as a solution when designing our APIs so that consumers can request the data they need when fetched via gRPC. In this blog post we will continue to cover how Netflix Studio Engineering uses FieldMask for mutation operations such as update and remove.Example: Netflix Studio ProductionMoney Heist (La casa de papel) / NetflixPreviously we outlined what a Production is and how the Production Service makes gRPC calls to other microservices such as the Schedule Service and Script Service to retrieve schedules and scripts (aka screenplay) for a particular production such as La Casa De Papel. We can…

1 месяц назад @ netflixtechblog.com
The Show Must Go On: Securing Netflix Studios At Scale
The Show Must Go On: Securing Netflix Studios At Scale The Show Must Go On: Securing Netflix Studios At Scale

Written by Jose Fernandez, Arthur Gonigberg, Julia Knecht, and Patrick ThomasIn 2017, Netflix Studios was hitting an inflection point from a period of merely rapid growth to the sort of explosive growth that throws “how do we scale?” into every conversation. The vision was to create a “Studio in the Cloud”, with applications supporting every part of the business from pitch to play. The security team was working diligently to support this effort, faced with two apparently contradictory priorities:1) streamline any security processes so that we could get applications built and deployed to the public internet faster2) raise the overall security bar so that the accumulated risk of this giant an…

1 месяц назад @ netflixtechblog.com
Decision Making at Netflix
Decision Making at Netflix Decision Making at Netflix

Martin Tingley with Wenjing Zheng, Simon Ejdemyr, Stephanie Lane, and Colin McFarlandThis introduction is the first in a multi-part series on how Netflix uses A/B tests to make decisions that continuously improve our products, so we can deliver more joy and satisfaction to our members. Subsequent posts will cover the basic statistical concepts underpinning A/B tests, the role of experimentation across Netflix, how Netflix has invested in infrastructure to support and scale experimentation, and the importance of the culture of experimentation within Netflix.Netflix was created with the idea of putting consumer choice and control at the center of the entertainment experience, and as a company…

1 месяц, 1 неделя назад @ netflixtechblog.com
Practical API Design at Netflix, Part 1: Using Protobuf FieldMask
Practical API Design at Netflix, Part 1: Using Protobuf FieldMask Practical API Design at Netflix, Part 1: Using Protobuf FieldMask

By Alex Borysov, Ricky GardinerBackgroundAt Netflix, we heavily use gRPC for the purpose of backend to backend communication. When we process a request it is often beneficial to know which fields the caller is interested in and which ones they ignore. Some response fields can be expensive to compute, some fields can require remote calls to other services. Remote calls are never free; they impose extra latency, increase probability of an error, and consume network bandwidth. How can we understand which fields the caller doesn’t need to be supplied in the response, so we can avoid making unnecessary computations and remove calls? With GraphQL this comes out of the box through the use of field…

1 месяц, 1 неделя назад @ netflixtechblog.com
Towards a Reliable Device Management Platform
Towards a Reliable Device Management Platform Towards a Reliable Device Management Platform

By Benson Ma, Alok AhujaIntroductionAt Netflix, hundreds of different device types, from streaming sticks to smart TVs, are tested every day through automation to ensure that new software releases continue to deliver the quality of the Netflix experience that our customers enjoy. In addition, Netflix continuously works with its partners (such as Roku, Samsung, LG, Amazon) to port the Netflix SDK to their new and upcoming devices (TVs, smart boxes, etc), to ensure the quality bar is reached before allowing the Netflix application on the device to go out into the world. The Partner Infrastructure team at Netflix provides solutions to support these two significant efforts by enabling device ma…

1 месяц, 2 недели назад @ netflixtechblog.com
Data Movement in Netflix Studio via Data Mesh
Data Movement in Netflix Studio via Data Mesh Data Movement in Netflix Studio via Data Mesh

By Andrew Nguonly, Armando Magalhães, Obi-Ike Nwoke, Shervin Afshar, Sreyashi Das, Tongliang Liu, Wei Liu, Yucheng ZengBackgroundOver the next few years, most content on Netflix will come from Netflix’s own Studio. From the moment a Netflix film or series is pitched and long before it becomes available on Netflix, it goes through many phases. This happens at an unprecedented scale and introduces many interesting challenges; one of the challenges is how to provide visibility of Studio data across multiple phases and systems to facilitate operational excellence and empower decision making. Netflix is known for its loosely coupled microservice architecture and with a global studio footprint, s…

2 месяца, 3 недели назад @ netflixtechblog.com
Data Engineers of Netflix — Interview with Kevin Wylie
Data Engineers of Netflix — Interview with Kevin Wylie Data Engineers of Netflix — Interview with Kevin Wylie

Data Engineers of Netflix — Interview with Kevin WylieThis post is part of our “Data Engineers of Netflix” series, where our very own data engineers talk about their journeys to Data Engineering @ Netflix.Kevin WylieKevin Wylie is a Data Engineer on the Content Data Science and Engineering team. In this post, Kevin talks about his extensive experience in content analytics at Netflix since joining more than 10 years ago.Kevin grew up in the Washington, DC area, and received his undergraduate degree in Mathematics from Virginia Tech. Before joining Netflix, he worked at MySpace, helping implement page categorization, pathing analysis, sessionization, and more. In his free time he enjoys garde…

3 месяца назад @ netflixtechblog.com
Exploring Data @ Netflix
Exploring Data @ Netflix Exploring Data @ Netflix

By Gim Mahasintunan on behalf of Data Platform Engineering.Supporting a rapidly growing base of engineers of varied backgrounds using different data stores can be challenging in any organization. Netflix’s internal teams strive to provide leverage by investing in easy-to-use tooling that streamlines the user experience and incorporates best practices.In this blog post, we are thrilled to share that we are open-sourcing one such tool: the Netflix Data Explorer. The Data Explorer gives our engineers fast, safe access to their data stored in Cassandra and Dynomite/Redis data stores.Netflix Data Explorer on GitHubHistoryWe began this project several years ago when we were onboarding many new Dy…

3 месяца, 3 недели назад @ netflixtechblog.com
Pinterest Engineering
последний пост 1 день, 5 часов назад
Efficient Resource Management at Pinterest’s Batch Processing Platform
Efficient Resource Management at Pinterest’s Batch Processing Platform Efficient Resource Management at Pinterest’s Batch Processing Platform

Yongjun Zhang | Software Engineer; Ang Zhang | Engineering Manager; Shaowen Wang | Software Engineer, Batch Processing Platform TeamPinterest’s Batch Processing Platform, Monarch, runs most of the batch processing workflows of the company. At the scale shown in Table 1, it is important to manage the platform resources to provide quality of service (QoS) while achieving cost efficiency. This article shares how we do that and future work.Table 1: Scale of Monarch Batch Processing PlatformIntroduction of MonarchFigure 1 shows what Pinterest’s data system looks like at a high level. When users are using Pinterest applications on their mobile or desktop devices, they generate various logs that a…

1 день, 5 часов назад @ medium.com
Evita el spam mediante la agrupación y la creación automática de reglas
Evita el spam mediante la agrupación y la creación automática de reglas Evita el spam mediante la agrupación y la creación automática de reglas

Cathy Yang | Ingeniera de software, confianza y seguridadThis article was originally posted in English; read the English version here.En Pinterest, una de nuestras mayores prioridades es mantener la seguridad de los usuarios, esto incluye protegerlos del spam. El objetivo del equipo de Confianza y seguridad no es solo detectar el spam, sino eliminarlo lo más rápido posible para minimizar el impacto en los usuarios.El objetivo de los spammers es ganar dinero, y la mejor manera de hacerlo es enviar spam a gran escala. Es un juego de números: un millón de correos electrónicos de spam son mucho más efectivos que solo uno. Con el fin de eliminar el spam de manera rápida, analizamos las tendencia…

1 неделя, 1 день назад @ medium.com
Ensuring High Availability of Ads Realtime Streaming Services
Ensuring High Availability of Ads Realtime Streaming Services Ensuring High Availability of Ads Realtime Streaming Services

Sreshta Vijayaraghavan | Tech Lead, Ads Indexing PlatformThe Pinterest Ad Business has grown multi-fold in the past couple years, with respect to both advertisers and users. As we scale our revenue, it becomes imperative to:Distribute advertiser spend smoothly over the course of the dayAvoid over-spending beyond the advertiser’s daily / lifetime budgetMaximize advertiser valueBackgroundTo meet these goals, we maintain 3 real-time streaming services with low latency and high uptime requirements. Here’s an overview of how they work together:Fig. 1. Simplified overview of the Ad systems interaction. The Ads Server retrieves ads and sends insertion / billable events to the Spend Aggregator, whi…

2 недели, 3 дня назад @ medium.com
Faster Flink adoption with self-service diagnosis tool at Pinterest
Faster Flink adoption with self-service diagnosis tool at Pinterest Faster Flink adoption with self-service diagnosis tool at Pinterest

Fanshu Jiang & Lu Niu | Software Engineers, Stream Processing Platform TeamAt Pinterest, stream data processing powers a wide range of real-time use cases. In recent years, the platform powered by Flink has proven to be of great value to the business by providing near real-time content activation and metrics reporting, with the potential to unlock more use cases in the future. However, to take advantage of that potential, we needed to address the issue of developer velocity.It can take weeks to go from writing the first line of code to a stable data flow in production. Troubleshooting and tuning Flink jobs can be particularly time-consuming, due to the number of logs and metrics to investig…

4 недели назад @ medium.com
Pinterest Home Feed Unified Lightweight Scoring: A Two-tower Approach
Pinterest Home Feed Unified Lightweight Scoring: A Two-tower Approach Pinterest Home Feed Unified Lightweight Scoring: A Two-tower Approach

Dafang He | Software Engineer, Home Candidate Generation; Andrew Liu | Software Engineer, Home Candidate Generation; Jay Adams | Software Engineer, InspireIntroPinterest is a place where users (Pinners) can save and discover content from both web and mobile platforms, and where increasingly Creators can publish native content right to Pinterest. We hold billions of content (Pins) in our corpus and serve personalized recommendations that inspire Pinners to create a life they love. One of the key and most complicated surfaces for Pinterest is the home feed, where Pinners will see personalized feeds based on their engagement and interests. In this blog, we will discuss how we unify our light-w…

1 месяц назад @ medium.com
Pinterest’s Analytics as a Platform on Druid (Part 3 of 3)
Pinterest’s Analytics as a Platform on Druid (Part 3 of 3) Pinterest’s Analytics as a Platform on Druid (Part 3 of 3)

Jian Wang, Jiaqi Gu, Yi Yang, Isabel Tallam, Lakshmi Narayana Namala, Kapil Bajaj | Real Time Analytics TeamThis is a three-part blog series. Click to read part 1 and part 2.In this blog post series, we are going to discuss Pinterest’s Analytics as a Platform on Druid and share some learnings on using Druid. This is the third of the blog post series, and will discuss learnings on optimizing Druid for real-time use cases.Learnings on Optimizing Druid for Real Time Use CasesWhen we first brought Druid to Pinterest, it was mainly used to serve queries for batch ingested data. Over time, we have been shifting to a real-time based reporting system to make metrics ready for query within minutes o…

1 месяц, 1 неделя назад @ medium.com
Pinterest’s Analytics as a Platform on Druid (Part 2 of 3)
Pinterest’s Analytics as a Platform on Druid (Part 2 of 3) Pinterest’s Analytics as a Platform on Druid (Part 2 of 3)

Jian Wang, Jiaqi Gu, Yi Yang, Isabel Tallam, Lakshmi Narayana Namala, Kapil Bajaj | Real Time Analytics TeamThis series is three parts. To read part 1, click here. Part 3 coming soon.In this blog post series, we’ll discuss Pinterest’s Analytics as a Platform on Druid and share some learnings on using Druid. This is the second of the blog post series, and will discuss learnings on optimizing Druid for batch use cases.Learnings on Optimizing Druid for Batch Use CasesSystem VisibilityDuring the process of onboarding different use cases, we found many critical system metrics were missing in Druid. In response, we added metrics on usage of processing threads, merge buffers, rows in memory, etc.,…

1 месяц, 2 недели назад @ medium.com
Pinterest’s Analytics as a Platform on Druid (Part 1 of 3)
Pinterest’s Analytics as a Platform on Druid (Part 1 of 3) Pinterest’s Analytics as a Platform on Druid (Part 1 of 3)

Jian Wang, Jiaqi Gu, Yi Yang, Isabel Tallam, Lakshmi Narayana Namala, Kapil Bajaj | Real Time Analytics TeamIn this blog post series, we’ll discuss Pinterest’s Analytics as a Platform on Druid and share some learnings on using Druid. This is the first of the blog post series with a short history on switching to Druid, system architecture with Druid, and learnings on optimizing host types for Mmap.A Short History on Switching to DruidHistorically, most of the analytical use cases in Pinterest were powered by Hbase, which was then a well-supported, key value store in the company. All the reporting metrics were precomputed in an hourly or daily batch job, transformed into a key value data mode…

1 месяц, 3 недели назад @ medium.com
Confiar en las métricas en Pinterest
Confiar en las métricas en Pinterest Confiar en las métricas en Pinterest

Ryan Cooke | Mánager de ingenieríaThis article was originally posted in English; read the English version here.Pinterest, como muchas empresas de tecnología, depende en gran medida de los datos para orientar la toma de decisiones e impulsar el aprendizaje automático. Esta estrategia depende fundamentalmente de que los datos sean precisos. A lo largo de los años, trabajamos para mejorar los procesos por los cuales corroboramos que podemos confiar en los datos clave para tomar decisiones y asegurarnos de que las métricas sean precisas.Cómo puede haber errores en los datosPara aquellos que no están familiarizados con las métricas, este puede parecer un problema extraño. Algo como el número de …

2 месяца назад @ medium.com
Improving efficiency and reducing runtime using S3 read optimization
Improving efficiency and reducing runtime using S3 read optimization Improving efficiency and reducing runtime using S3 read optimization

Bhalchandra Pandit | Software EngineerOverviewWe describe a novel approach we took to improving S3 read throughput and how we used it to improve the efficiency of our production jobs. The results have been very encouraging. A standalone benchmark showed a 12x improvement in S3 read throughput (from 21 MB/s to 269 MB/s). Increased throughput allowed our production jobs to finish sooner. As a result, we saw 22% reduction in vcore-hours, 23% reduction in memory-hours, and similar reduction in run time of a typical production job. Although we are happy with the results, we are exploring additional enhancements in the future. They are briefly described at the end of this blog.MotivationWe proces…

2 месяца назад @ medium.com
How we scaled the size of Pinterest’s ad corpus by 60x
How we scaled the size of Pinterest’s ad corpus by 60x How we scaled the size of Pinterest’s ad corpus by 60x

Nishant Roy | Tech Lead, Ads Serving PlatformIn May 2020, Pinterest launched a partnership with Shopify that allowed merchants to easily upload their catalogs to the Pinterest platform and create Product Pins and shopping ads. This vastly increased the number of shopping ads in our corpus available for our recommendation engine to choose from, when serving an ad on Pinterest. In order to continue to support this rapid growth, we leveraged a key-value (KV) store and some memory optimizations in Go to scale the size of our ad corpus by 60x. We had three main goals:Simplify scaling our ads business without a linear increase in infrastructure costsImprove system performanceMinimize maintenance …

2 месяца, 1 неделя назад @ medium.com
Fighting Spam using Clustering and Automated Rule Creation
Fighting Spam using Clustering and Automated Rule Creation Fighting Spam using Clustering and Automated Rule Creation

Cathy Yang | Software Engineer, Trust & SafetyOne of our biggest priorities at Pinterest is keeping Pinners safe, and that includes protecting them from spam. The Trust & Safety team’s goal is not only to catch spam, but to remove it as quickly as possible to minimize Pinner impact.The goal of spammers is to make money, and the best way to do this is to spam at scale. It’s a numbers game: one million spam emails are much more effective than one spam email. In order to remove spam quickly, we look at common trends in spam attacks to identify suspect behavior.To achieve the scale required to be effective, spammers must automate their actions, and each of these “attacks” can be thought of as a…

2 месяца, 1 неделя назад @ medium.com
Building scalable near-real time indexing on HBase
Building scalable near-real time indexing on HBase Building scalable near-real time indexing on HBase

Ankita Wagh | Software Engineer, Storage and CachingHBase is one of the most critical storage backends at Pinterest., powering many of our online traffic storage services like Zen (graph database) and UMS (wide column data store). Although HBase has many advantages like strong consistency at row level in high volume requests, flexible schema, low latency access to data, and Hadoop integration, it doesn’t natively support advanced indexing and querying. Secondary indexing is one of the most demanded features by our clients, but supporting that directly in HBase is quite challenging. Maintaining separate index tables as the number of indexes grows is not a scalable solution in terms of query …

2 месяца, 3 недели назад @ medium.com
The machine learning behind delivering relevant ads
The machine learning behind delivering relevant ads The machine learning behind delivering relevant ads

Felix Fang | Software Engineer, Advertiser Solutions GroupChi Xu | Software Engineer, Advertiser Solutions GroupPinterest is where people go to plan and shop, making ideas and ads from brands helpful in taking Pinners from inspiration to action. It’s our goal to ensure ads continue to be additive and not intrusive on Pinterest. Because of the unique and powerful first party signals on the platform, advertisers can reach Pinners based on their interests, intent and engagement on the platform.To help in delivering the right ads to the right Pinners in an audience of hundreds of millions of people, we offer advertisers features to achieve relevance including Actalike (AAL) audiences, also know…

2 месяца, 3 недели назад @ medium.com
Cómo protegemos las contraseñas de los usuarios
Cómo protegemos las contraseñas de los usuarios Cómo protegemos las contraseñas de los usuarios

This article was originally published in English, view the English version here.Yuru Shao | Ingeniero de softwareAalaa Satti | Ingeniero de softwareAmine Kamel | Jefe de seguridad de producciónEn Pinterest, un método con el que garantizamos la seguridad de la cuenta es mediante la protección de las contraseñas de los usuarios. Las contraseñas pueden ser problemáticas por una gran cantidad de razones, incluido el hecho de que las personas suelen reutilizar sus contraseñas, eligen aquellas que son fáciles de recordar y comparten los detalles que componen sus contraseñas o sus contraseñas reales con otras personas. Por lo tanto, lidiar con estos problemas no es tarea fácil si deseamos ofrecer …

3 месяца назад @ medium.com
Facebook
последний пост 3 месяца назад
Fully Sharded Data Parallel: faster AI training with fewer GPUs
Fully Sharded Data Parallel: faster AI training with fewer GPUs

Training AI models at a large scale isn’t easy. Aside from the need for large amounts of computing power and resources, there is also considerable engineering complexity behind training very large models. At Facebook AI Research (FAIR) Engineering, we have been working on building tools and infrastructure to make training large AI models easier. Our [...]

Read More...

The post Fully Sharded Data Parallel: faster AI training with fewer GPUs appeared first on Facebook Engineering.

3 месяца назад @ engineering.fb.com
Asicmon: A platform agnostic observability system for AI accelerators
Asicmon: A platform agnostic observability system for AI accelerators

We will be hosting a talk about our work on, “A Platform Agnostic Observability System for AI Accelerators” during our virtual Systems @Scale event at 10:20 a.m. PT on Wednesday, June 30, followed by a live Q&A session. Please submit any questions to systemsatscale@fb.com before the event. Accelerators are special-purpose hardware devices optimized for specific [...]

Read More...

The post Asicmon: A platform agnostic observability system for AI accelerators appeared first on Facebook Engineering.

3 месяца, 2 недели назад @ engineering.fb.com
How Facebook encodes your videos
How Facebook encodes your videos

People upload hundreds of millions of videos to Facebook every day. Making sure every video is delivered at the best quality — with the highest resolution and as little buffering as possible — means optimizing not only when and how our video codecs compress and decompress videos for viewing, but also which codecs are used [...]

Read More...

The post How Facebook encodes your videos appeared first on Facebook Engineering.

6 месяцев, 1 неделя назад @ engineering.fb.com
How machine learning powers Facebook’s News Feed ranking algorithm
How machine learning powers Facebook’s News Feed ranking algorithm

Designing a personalized ranking system for more than 2 billion people (all with different interests) and a plethora of content to select from presents significant, complex challenges. This is something we tackle every day with News Feed ranking. Without machine learning (ML), people’s News Feeds could be flooded with content they don’t find as relevant [...]

Read More...

The post How machine learning powers Facebook’s News Feed ranking algorithm appeared first on Facebook Engineering.

8 месяцев, 3 недели назад @ engineering.fb.com
Uber Engineering
последний пост 2 дня, 7 часов назад
Improving HDFS I/O Utilization for Efficiency
Improving HDFS I/O Utilization for Efficiency

Scaling our data infrastructure with lower hardware costs while maintaining high performance and service reliability has been no easy feat. To accommodate the exponential growth in both Data Storage and Analytics Compute at Uber, the Data Infrastructure team massively overhauled …

The post Improving HDFS I/O Utilization for Efficiency appeared first on Uber Engineering Blog.

2 дня, 7 часов назад @ eng.uber.com
Building Uber’s Fulfillment Platform for Planet-Scale using Google Cloud Spanner
Building Uber’s Fulfillment Platform for Planet-Scale using Google Cloud Spanner

Introduction

The Fulfillment Platform is a foundational Uber domain that enables the rapid scaling of new verticals. The platform handles billions of database transactions each day, ranging from user actions (e.g., a driver starting a trip) and system actions …

The post Building Uber’s Fulfillment Platform for Planet-Scale using Google Cloud Spanner appeared first on Uber Engineering Blog.

2 недели, 2 дня назад @ eng.uber.com
Real-Time Exactly-Once Ad Event Processing with Apache Flink, Kafka, and Pinot
Real-Time Exactly-Once Ad Event Processing with Apache Flink, Kafka, and Pinot

Uber recently launched a new capability: Ads on UberEats. With this new ability came new challenges that needed to be solved at Uber, such as systems for ad auctions, bidding, attribution, reporting, and more. This article focuses on how we …

The post Real-Time Exactly-Once Ad Event Processing with Apache Flink, Kafka, and Pinot appeared first on Uber Engineering Blog.

3 недели, 1 день назад @ eng.uber.com
YAML Generator for Funnel YAML Files: Streamlining the Mobile Data Workflow Process
YAML Generator for Funnel YAML Files: Streamlining the Mobile Data Workflow Process

At Uber, real-time mobile analytics events—generated by button taps, page views, and more—form the backbone of the mobile data workflow process.

To process these events, our Mobile Data Platform Team designed and developed the Fontana library, which converts the nearly-one-million-QPS …

The post YAML Generator for Funnel YAML Files: Streamlining the Mobile Data Workflow Process appeared first on Uber Engineering Blog.

4 недели, 1 день назад @ eng.uber.com
Jellyfish: Cost-Effective Data Tiering for Uber’s Largest Storage System
Jellyfish: Cost-Effective Data Tiering for Uber’s Largest Storage System

Problem

Uber deploys a few storage technologies to store business data based on their application model. One such technology is called Schemaless, which enables the modeling of related entries in one single row of multiple columns, as well as …

The post Jellyfish: Cost-Effective Data Tiering for Uber’s Largest Storage System appeared first on Uber Engineering Blog.

1 месяц назад @ eng.uber.com
Streaming Real-Time Analytics with Redis, AWS Fargate, and Dash Framework
Streaming Real-Time Analytics with Redis, AWS Fargate, and Dash Framework

Introduction

Uber’s GSS (Global Scaled Solutions) team runs scaled programs for diverse products and businesses, including but not limited to Eats, Rides, and Freight. The team transforms Uber’s ideas into agile, global solutions by designing and implementing scalable solutions. One …

The post Streaming Real-Time Analytics with Redis, AWS Fargate, and Dash Framework appeared first on Uber Engineering Blog.

1 месяц, 1 неделя назад @ eng.uber.com
Enabling Seamless Kafka Async Queuing with Consumer Proxy
Enabling Seamless Kafka Async Queuing with Consumer Proxy

Uber has one of the largest deployments of Apache Kafka in the world, processing trillions of messages and multiple petabytes of data per day. As Figure 1 shows, today we position Apache Kafka as a cornerstone of our technology stack. …

The post Enabling Seamless Kafka Async Queuing with Consumer Proxy appeared first on Uber Engineering Blog.

1 месяц, 2 недели назад @ eng.uber.com
How Data Shapes the Uber Rider App
How Data Shapes the Uber Rider App

Introduction

Data is crucial for our products. Data analytics help us provide a frictionless experience to the people that use our services. It also enables our engineers, product managers, data analysts, and data scientists to make informed decisions. The impact …

The post How Data Shapes the Uber Rider App appeared first on Uber Engineering Blog.

1 месяц, 2 недели назад @ eng.uber.com
Powering the Network Pricing Model with Near Real-Time Features
Powering the Network Pricing Model with Near Real-Time Features

Background

Drivers within the same area may have quite different earnings, depending on the trips they take. For example, consider two hypothetical drivers in downtown San Francisco. Two riders request two rides: one is within downtown San Francisco, and the …

The post Powering the Network Pricing Model with Near Real-Time Features appeared first on Uber Engineering Blog.

1 месяц, 3 недели назад @ eng.uber.com
Eats Safety Team On-Call Overview
Eats Safety Team On-Call Overview

Introduction

Our engineers have the responsibility of ensuring a consistent and positive experience for our riders, drivers, eaters, and delivery/restaurant partners.

Ensuring such an experience requires reliable systems: our apps have to work when anyone needs them. A major component …

The post Eats Safety Team On-Call Overview appeared first on Uber Engineering Blog.

1 месяц, 3 недели назад @ eng.uber.com
Unifying Support Content to Enable More Empathetic and Personalized Customer Support Experiences
Unifying Support Content to Enable More Empathetic and Personalized Customer Support Experiences

Introduction Content quality is critical to the support experienced by Uber’s customers. Consider an Eater who reached out for help to cancel a very delayed order. The same resolution, such as refunding the charge, can be delivered alongside a robotic-sounding …

The post Unifying Support Content to Enable More Empathetic and Personalized Customer Support Experiences appeared first on Uber Engineering Blog.

1 месяц, 4 недели назад @ eng.uber.com
Efficiently Managing the Supply and Demand on Uber’s Big Data Platform
Efficiently Managing the Supply and Demand on Uber’s Big Data Platform

With Uber’s business growth and the fast adoption of big data and AI, Big Data scaled to become our most costly infrastructure platform. To reduce operational expenses, we developed a holistic framework with 3 pillars: platform efficiency, supply, and demand …

The post Efficiently Managing the Supply and Demand on Uber’s Big Data Platform appeared first on Uber Engineering Blog.

2 месяца назад @ eng.uber.com
Cost-Efficient Open Source Big Data Platform at Uber
Cost-Efficient Open Source Big Data Platform at Uber

As Uber’s business has expanded, the underlying pool of data that powers it has grown exponentially, and thus ever more expensive to process. When Big Data rose to become one of our largest operational expenses, we began an initiative to …

The post Cost-Efficient Open Source Big Data Platform at Uber appeared first on Uber Engineering Blog.

2 месяца назад @ eng.uber.com
Challenges and Opportunities to Dramatically Reduce the Cost of Uber’s Big Data
Challenges and Opportunities to Dramatically Reduce the Cost of Uber’s Big Data

Introduction

Big data is at the core of Uber’s business. We continue to innovate and provide better experiences for our earners, riders, and eaters by leveraging big data, machine learning, and artificial intelligence technology. As a result, over the last …

The post Challenges and Opportunities to Dramatically Reduce the Cost of Uber’s Big Data appeared first on Uber Engineering Blog.

2 месяца, 1 неделя назад @ eng.uber.com
How Uber Achieves Operational Excellence in the Data Quality Experience
How Uber Achieves Operational Excellence in the Data Quality Experience

Uber delivers efficient and reliable transportation across the global marketplace, which is powered by hundreds of services, machine learning models, and tens of thousands of datasets. While growing rapidly, we’re also committed to maintaining data quality, as it can greatly …

The post How Uber Achieves Operational Excellence in the Data Quality Experience appeared first on Uber Engineering Blog.

2 месяца, 1 неделя назад @ eng.uber.com
Spotify Engineering Spotify Engineering
последний пост 1 неделя, 3 дня назад
A Product Story: Three Lessons We Learned from Developing the Mobile App
A Product Story: Three Lessons We Learned from Developing the Mobile App A Product Story: Three Lessons We Learned from Developing the Mobile App

TL;DR Remember what life was like before smartphones? Remember manually having to sync your computer’s playlists with your iPod every time you added a few songs? One of Spotify’s core products, our mobile app, was designed specifically to leave all of that busywork in the past, changing how we travel with our music forever. In [...]

1 неделя, 3 дня назад @ engineering.atspotify.com
How Backstage Made Our Developers More Effective — And How It Can Help Yours, Too
How Backstage Made Our Developers More Effective — And How It Can Help Yours, Too How Backstage Made Our Developers More Effective — And How It Can Help Yours, Too

What’s the best way to assess your developers’ experience and performance to discover what they need help with? Is it by measuring something arbitrary, like how many lines of code they’ve written or how many commits they’ve made? Nope. How much useful data are you really getting out of those numbers anyway? Instead, it’s more [...]

3 недели, 1 день назад @ engineering.atspotify.com
Introducing Pedalboard: Spotify’s Audio Effects Library for Python
Introducing Pedalboard: Spotify’s Audio Effects Library for Python Introducing Pedalboard: Spotify’s Audio Effects Library for Python

We’ve just open sourced Pedalboard, Spotify’s framework for adding effects to audio in Python. Pedalboard makes it easy to use studio-quality audio effects in your code, rather than just in your digital audio workstation (DAW). If you ask any music or podcast producer where they spend most of their time, chances are they’ll say their [...]

1 месяц, 1 неделя назад @ engineering.atspotify.com
Four Lessons We Learned from Creating Spotify’s Desktop App
Four Lessons We Learned from Creating Spotify’s Desktop App Four Lessons We Learned from Creating Spotify’s Desktop App

TL;DR Over the years, Spotify’s brand has expanded to encompass a number of products, from mobile apps to web players to car things. But sitting at the core is our flagship product, the one that started it all: the desktop app. In the first episode of our podcast series, “Spotify: A Product Story”, host and [...]

2 месяца, 1 неделя назад @ engineering.atspotify.com
Patrick Balestra: Senior Engineer
Patrick Balestra: Senior Engineer Patrick Balestra: Senior Engineer

8:30am I’m at my best after nine hours’ sleep, so I tend to wake up pretty late, shower and dress as though I’m going into the office. Although I’ve been in Stockholm a while now, I’m still not a fan of the Swedish breakfast of bread and cheese or salami – give me Nutella on toast [...]

4 месяца, 1 неделя назад @ engineering.atspotify.com
Achieving Team Purpose and Pride with Scrum
Achieving Team Purpose and Pride with Scrum Achieving Team Purpose and Pride with Scrum

Team purpose and pride — my team hit those high marks, but it was a long journey to get there from where we started. At Spotify, we strive for “aligned autonomy” among our teams. Meaning: we align on what it is we set out to do, but preserve flexibility to choose how we’ll achieve those [...]

4 месяца, 3 недели назад @ engineering.atspotify.com
A Product Story: The Lessons of Backstage and Spotify’s Autonomous Culture
A Product Story: The Lessons of Backstage and Spotify’s Autonomous Culture A Product Story: The Lessons of Backstage and Spotify’s Autonomous Culture

TLDR; In episode 08 of our podcast series “Spotify: A Product Story”, we share stories and lessons from building and open sourcing Backstage, our homegrown developer portal. Hear why a developer-friendly, market-based platform like Backstage could only have been developed at Spotify (where autonomy is prized, not top-down mandates) and why that ends up making [...]

5 месяцев назад @ engineering.atspotify.com
Protected: Spotify Wins CNCF’s Top End User Award and Toots Own Horn About It
Protected: Spotify Wins CNCF’s Top End User Award and Toots Own Horn About It Protected: Spotify Wins CNCF’s Top End User Award and Toots Own Horn About It

There is no excerpt because this is a protected post.

5 месяцев, 1 неделя назад @ engineering.atspotify.com
Customization vs. Configuration in Evolving Design Systems
Customization vs. Configuration in Evolving Design Systems Customization vs. Configuration in Evolving Design Systems

When a design system first starts out, the promise of visual consistency glows bright — the ideal product would have only one set of buttons, a unified typography scale, and elements that look the same no matter which designer made the design or which developer programmed them to be real and deployed. As the product [...]

5 месяцев, 2 недели назад @ engineering.atspotify.com
Nour Daoud Bösing: Security Engineer
Nour Daoud Bösing: Security Engineer Nour Daoud Bösing: Security Engineer

Nour is a Security Engineer at Spotify New York – juggling her busy day job with completing her Masters in Cyber Security and looking after her 10-month-old daughter, Leya.

5 месяцев, 3 недели назад @ engineering.atspotify.com
Rethinking Spotify Search
Rethinking Spotify Search Rethinking Spotify Search

Search @ Spotify Search is a well-established functionality across different industries, devices, and applications. When users come to any kind of search, they already have something in mind, whether they come looking for one thing in particular or are open to becoming inspired. Spotify Search is no exception, helping a vast majority of users find joy [...]

6 месяцев назад @ engineering.atspotify.com
Building the Future of Our Desktop Apps
Building the Future of Our Desktop Apps Building the Future of Our Desktop Apps

For the past couple of years, we’ve been on a mission to modernize our Spotify clients by creating one single desktop UI for both the Desktop application and the Web Player. We couldn’t build everything we wanted to for our users with our old setup, so we decided to do something about it. In the [...]

6 месяцев, 1 неделя назад @ engineering.atspotify.com
David Riordan: Product Manager
David Riordan: Product Manager David Riordan: Product Manager

5:00 am My days begin with an early morning wake-up call from Zev – he comes through at around 5am and we get a couple of dedicated hours of playtime before the rest of the world gets up. It’s fun – this morning, we baked oatmeal cookies. Then once my wife and I are ready, we [...]

6 месяцев, 2 недели назад @ engineering.atspotify.com
Dmitry Anoshin recommends
Snowflake
последний пост 3 дня, 10 часов назад
Key Pricing Considerations for Building and Delivering SaaS Solutions
Key Pricing Considerations for Building and Delivering SaaS Solutions

A SaaS revenue model describes the framework for how a software provider will generate income. Pricing and billing for your products within this model is a simple concept: It’s what customers are willing to pay for a product or service. However, determining the right pricing structure for your SaaS solution may not feel quite as […]

The post Key Pricing Considerations for Building and Delivering SaaS Solutions appeared first on Snowflake.

3 дня, 10 часов назад @ snowflake.com
Fantasy Football: A Game of Data
Fantasy Football: A Game of Data

On October 31, the NFL’s Jacksonville Jaguars will play a road game at Seattle, roughly 3,000 miles away from their home stadium. Those keenly following the game’s results will include not only Jaguar and Seahawk fans, but also a third group that may not be fans of either: Fantasy football enthusiasts have drafted Jacksonville rookie […]

The post Fantasy Football: A Game of Data appeared first on Snowflake.

1 неделя назад @ snowflake.com
How Roche Diagnostics Uses the Data Cloud to Empower Its Data Lifecycle Teams
How Roche Diagnostics Uses the Data Cloud to Empower Its Data Lifecycle Teams

Global healthcare company Roche is a great believer in data sharing and decentralization whenever those approaches empower its employees. Omar Khawaja, Global Head of Business Intelligence at Roche Diagnostics, joined us on the latest episode of Rise of the Data Cloud to discuss those topics and share his view on emerging data and analytics trends. […]

The post How Roche Diagnostics Uses the Data Cloud to Empower Its Data Lifecycle Teams appeared first on Snowflake.

1 неделя, 1 день назад @ snowflake.com
Choosing Primary and Secondary Regions in Snowflake for Business Continuity
Choosing Primary and Secondary Regions in Snowflake for Business Continuity

Natural disaster. Errant code. Regional downtime. In the event of such disruptions, it can be crucial to have a secondary region for recovery to ensure business continuity and data durability. Snowflake Database Replication enables customers to replicate databases and keep them synchronized across multiple accounts in different regions and for different cloud providers. Customers can […]

The post Choosing Primary and Secondary Regions in Snowflake for Business Continuity appeared first on Snowflake.

1 неделя, 1 день назад @ snowflake.com
BUILD 2021: The Future of Development on Snowflake
BUILD 2021: The Future of Development on Snowflake

This year’s BUILD, the Data Cloud Dev Summit, brought together thousands of developers, data scientists, engineers, and entrepreneurs from around the world. The two-day, global, virtual summit was truly the place where data and developers intersected, as participants and Snowflake customers such as including Ally Financial, IQVIA, and Twilio shared an exciting vision for the […]

The post BUILD 2021: The Future of Development on Snowflake appeared first on Snowflake.

1 неделя, 2 дня назад @ snowflake.com
Announcing Snowflake Startup Challenge 2022 with Prizes Totaling Up to $1M
Announcing Snowflake Startup Challenge 2022 with Prizes Totaling Up to $1M

We’re thrilled to announce that Snowflake’s pitch-based global Startup Challenge will be back for its second year. Seven hundred companies from 56 countries participated in the inaugural challenge, and 2022 is poised to be even bigger. “Due to the huge success of this competition, we’re extremely excited to announce that this year’s competition is going […]

The post Announcing Snowflake Startup Challenge 2022 with Prizes Totaling Up to $1M appeared first on Snowflake.

1 неделя, 3 дня назад @ snowflake.com
How Dia & Co Uses Data from Snowflake Data Marketplace to Help Women Get Their Best Clothing Fit
How Dia & Co Uses Data from Snowflake Data Marketplace to Help Women Get Their Best Clothing Fit

According to the fashion-industry trade journal WWD, most women in the U.S. today are underserved by the fashion market. Part of the problem is the limited merchandise selection available in the most common women’s clothing sizes: 10–32. But companies such as Dia & Co are changing that, fueled by a passion for helping women find clothes […]

The post How Dia & Co Uses Data from Snowflake Data Marketplace to Help Women Get Their Best Clothing Fit appeared first on Snowflake.

1 неделя, 4 дня назад @ snowflake.com
Banking on Data, the New Currency of Financial Services
Banking on Data, the New Currency of Financial Services

At Snowflake’s FinServ Data Summit in EMEA last week, attendees heard how Snowflake is helping customers share data to improve their operations and deliver better customer experiences. The post Banking on Data, the New Currency of Financial Services appeared first on Snowflake.

2 недели, 1 день назад @ snowflake.com
Recover in Seconds with Snowflake Client Redirect
Recover in Seconds with Snowflake Client Redirect

Organizations increasingly rely on Snowflake’s Data Cloud to connect their business to the data they need, when they need it. Ensuring this data is always available, accessible, and accurate to all users and applications is critical. This means organizations need to trust that their data and platform are resilient, even in the event of an […]

The post Recover in Seconds with Snowflake Client Redirect appeared first on Snowflake.

2 недели, 2 дня назад @ snowflake.com
Seven Tips to Creating a Successful Customer Advocacy Program
Seven Tips to Creating a Successful Customer Advocacy Program

The best marketers for your brand are not sitting in your marketing department. No offense to my fellow marketers but the fact is that the best people to promote and advertise your brand are your customers. Why? Because people trust their peers: According to Gartner, more than 75% of B2B buyers consult three or more […]

The post Seven Tips to Creating a Successful Customer Advocacy Program appeared first on Snowflake.

2 недели, 2 дня назад @ snowflake.com
Snowflake Partners with and Invests in Anaconda to Bring Enterprise-Grade Open-Source Python Innovation to the Data Cloud
Snowflake Partners with and Invests in Anaconda to Bring Enterprise-Grade Open-Source Python Innovation to the Data Cloud

Today we are delighted to share that Snowflake and Anaconda are partnering to provide the growing Python community of data scientists, data engineers, and developers with effortless access to open-source Python packages to build secure and scalable data pipelines and machine learning workflows. As part of the strategic partnership, Snowflake Ventures has also invested in […]

The post Snowflake Partners with and Invests in Anaconda to Bring Enterprise-Grade Open-Source Python Innovation to the Data Cloud appeared first on Snowflake.

2 недели, 2 дня назад @ snowflake.com
Snowflake’s Financial Services Data Summit: Now Available on Demand
Snowflake’s Financial Services Data Summit: Now Available on Demand

Did you miss Snowflake’s Financial Services Data Summit, or are you interested in rewatching or sharing a session? Happy news: All sessions are now available to watch on demand. Financial services is in the midst of an analytical renaissance born out of the need for data access. Virtually every organization is now looking to capitalize […]

The post Snowflake’s Financial Services Data Summit: Now Available on Demand appeared first on Snowflake.

2 недели, 3 дня назад @ snowflake.com
5 Reasons to Attend BUILD 2021
5 Reasons to Attend BUILD 2021

We’re counting down the days to Snowflake BUILD, our Data Cloud developer summit. The agenda is filled with product announcements, hands-on labs, and advice straight from our developer community. Here are five reasons this year’s virtual global summit is a must-attend: We’ve got news. Snowflake’s Senior Vice President of Engineering and Support, Greg Czajkowski, and […]

The post 5 Reasons to Attend BUILD 2021 appeared first on Snowflake.

2 недели, 4 дня назад @ snowflake.com
How ADP Embarked on New Data Distribution Models Using the Data Cloud
How ADP Embarked on New Data Distribution Models Using the Data Cloud

Payroll and HR solutions giant ADP generates vast amounts of data, which it anonymizes and delivers as data-driven insights to customers, governments, financial analysts, and university researchers. On a recent episode of our podcast, Rise of the Data Cloud, Jack Berkowitz, Senior Vice President of Product and Development for ADP DataCloud, shared how Snowflake is […]

The post How ADP Embarked on New Data Distribution Models Using the Data Cloud appeared first on Snowflake.

3 недели, 1 день назад @ snowflake.com
Snowflake Ventures Invests in Robling to Add More Retail Capabilities to the Data Cloud
Snowflake Ventures Invests in Robling to Add More Retail Capabilities to the Data Cloud

In our quest to continually enhance the Data Cloud for Snowflake customers, we are embarking on a major initiative to expand the value of the Data Cloud to industry verticals, one of which is retail. Think of it as our doubling down on building out an industry-focused Data Cloud that addresses customers’ real-world vertical needs […]

The post Snowflake Ventures Invests in Robling to Add More Retail Capabilities to the Data Cloud appeared first on Snowflake.

3 недели, 1 день назад @ snowflake.com
Cloudera Cloudera
последний пост 4 дня, 1 час назад
Accelerate Your Data Mesh in the Cloud with Cloudera Data Engineering and Modak NabuTM
Accelerate Your Data Mesh in the Cloud with Cloudera Data Engineering and Modak NabuTM

Modak, a leading provider of modern data engineering solutions, is now a certified solution partner with Cloudera. Customers can now seamlessly automate migration to Cloudera’s Hybrid Data Platform — Cloudera Data Platform (CDP) to dynamically auto-scale cloud services with Cloudera Data Engineering (CDE) integration with Modak Nabu™. Modak’s Nabu™is a born in the […]

The post Accelerate Your Data Mesh in the Cloud with Cloudera Data Engineering and Modak NabuTM appeared first on Cloudera Blog.

4 дня, 1 час назад @ blog.cloudera.com
Struggling to Manage your Multi-Tenant Environments? Use Chargeback!
Struggling to Manage your Multi-Tenant Environments? Use Chargeback!

If your organization is using multi-tenant big data clusters (and everyone should be), do you know the usage and cost efficiency of resources in the cluster by tenants? A chargeback or showback model allows IT to determine costs and resource usage by the actual analytic users in the multi-tenant cluster, instead of attributing those to […]

The post Struggling to Manage your Multi-Tenant Environments? Use Chargeback! appeared first on Cloudera Blog.

1 неделя, 3 дня назад @ blog.cloudera.com
Supercharge your Airflow Pipelines with the Cloudera Provider Package
Supercharge your Airflow Pipelines with the Cloudera Provider Package

Many customers looking at modernizing their pipeline orchestration have turned to Apache Airflow, a flexible and scalable workflow manager for data engineers. With 100s of open source operators, Airflow makes it easy to deploy pipelines in the cloud and interact with a multitude of services on premise, in the cloud, and across cloud providers for […]

The post Supercharge your Airflow Pipelines with the Cloudera Provider Package appeared first on Cloudera Blog.

3 недели, 3 дня назад @ blog.cloudera.com
Cloudera and NVIDIA Help IRS Fight Fraud, Safeguard Taxpayers
Cloudera and NVIDIA Help IRS Fight Fraud, Safeguard Taxpayers

Across the federal government, agencies are struggling to identify, organize, analyze, and act on troves of data. It’s a problem that leaders are working actively to tackle, but they’re in a race against immeasurable volumes of data that is continuously being generated in perpetuity in stores known and unknown. At the Internal Revenue Service, decades’ […]

The post Cloudera and NVIDIA Help IRS Fight Fraud, Safeguard Taxpayers appeared first on Cloudera Blog.

1 месяц назад @ blog.cloudera.com
Optimizing Cloudera Data Engineering Autoscaling Performance
Optimizing Cloudera Data Engineering Autoscaling Performance

The shift to cloud has been accelerating, and with it, a push to modernize data pipelines that fuel key applications. That is why cloud native solutions which take advantage of the capabilities such as disaggregated storage & compute, elasticity, and containerization are more paramount than ever. At Cloudera, we introduced Cloudera Data Engineering (CDE) as […]

The post Optimizing Cloudera Data Engineering Autoscaling Performance appeared first on Cloudera Blog.

1 месяц, 1 неделя назад @ blog.cloudera.com
Automating Data Pipelines in CDP with CDE Managed Airflow Service
Automating Data Pipelines in CDP with CDE Managed Airflow Service

When we announced the GA of Cloudera Data Engineering back in September of last year, a key vision we had was to simplify the automation of data transformation pipelines at scale. By leveraging Spark on Kubernetes as the foundation along with a first class job management API many of our customers have been able to […]

The post Automating Data Pipelines in CDP with CDE Managed Airflow Service appeared first on Cloudera Blog.

1 месяц, 4 недели назад @ blog.cloudera.com
Delivering Modern Enterprise Data Engineering with Cloudera Data Engineering on Azure
Delivering Modern Enterprise Data Engineering with Cloudera Data Engineering on Azure

After the launch of CDP Data Engineering (CDE) on AWS a few months ago, we are thrilled to announce that CDE, the only cloud-native service purpose built for enterprise data engineers, is now available on Microsoft Azure. CDP Data Engineering offers an all-inclusive toolset that enables data pipeline orchestration, automation, advanced monitoring, visual profiling, and […]

The post Delivering Modern Enterprise Data Engineering with Cloudera Data Engineering on Azure appeared first on Cloudera Blog.

3 месяца назад @ blog.cloudera.com
Migrate Hive data from CDH to CDP public cloud
Migrate Hive data from CDH to CDP public cloud

Introduction Many Cloudera customers are making the transition from being completely on-prem to cloud by either backing up their data in the cloud, or running multi-functional analytics on CDP Public cloud in AWS or Azure. The Replication Manager service facilitates both disaster recovery and data migration across different environments. Using easy-to-define policies, Replication Manager solves […]

The post Migrate Hive data from CDH to CDP public cloud appeared first on Cloudera Blog.

3 месяца, 3 недели назад @ blog.cloudera.com
Workforce competency key to digital transformation efforts, more possibilities available through Skillsfuture Singapore
Workforce competency key to digital transformation efforts, more possibilities available through Skillsfuture Singapore

A sturdy data infrastructure coupled with a proficient workforce are pillars for an organization’s digital transformation efforts. McKinsey lists building capabilities for the workforce of the future as one of five categories of factors improving the chances of a successful digital transformation. Investing the right amount in digital talent and scaling up workforce planning and […]

The post Workforce competency key to digital transformation efforts, more possibilities available through Skillsfuture Singapore appeared first on Cloudera Blog.

4 месяца, 1 неделя назад @ blog.cloudera.com
Modernizing Data Pipelines using Cloudera Data Platform – Part 1
Modernizing Data Pipelines using Cloudera Data Platform – Part 1

Data pipelines are in high demand in today’s data-driven organizations. As critical elements in supplying trusted, curated, and usable data for end-to-end analytic and machine learning workflows, the role of data pipelines is becoming indispensable. To keep up, data pipelines are being vigorously reshaped with modern tools and techniques. At Cloudera, we recently introduced several […]

The post Modernizing Data Pipelines using Cloudera Data Platform – Part 1 appeared first on Cloudera Blog.

4 месяца, 2 недели назад @ blog.cloudera.com
Spark on Kubernetes – Gang Scheduling with YuniKorn
Spark on Kubernetes – Gang Scheduling with YuniKorn

Apache YuniKorn (Incubating) has just released 0.10.0 (release announcement). As part of this release, a new feature called Gang Scheduling has become available. By leveraging the Gang Scheduling feature, Spark jobs scheduling on Kubernetes becomes more efficient. What is Apache YuniKorn (Incubating)? Apache YuniKorn (Incubating) is a new Apache incubator project that offers rich scheduling […]

The post Spark on Kubernetes – Gang Scheduling with YuniKorn appeared first on Cloudera Blog.

5 месяцев, 1 неделя назад @ blog.cloudera.com
Managing Python dependencies for Spark workloads in Cloudera Data Engineering
Managing Python dependencies for Spark workloads in Cloudera Data Engineering

Update August 2021: Starting with CDE v1.9, you can now use the python-env resource (Option 2) for all Python packages, including those dependent on C base libraries such as Pandas, Pyarrow, etc. Use custom-runtime-image (Option 3) only for custom libraries & more advanced scenarios. Apache Spark is now widely used in many enterprises for building […]

The post Managing Python dependencies for Spark workloads in Cloudera Data Engineering appeared first on Cloudera Blog.

5 месяцев, 2 недели назад @ blog.cloudera.com
Cloudera Data Engineering – Integration steps to leverage Spark on Kubernetes
Cloudera Data Engineering – Integration steps to leverage Spark on Kubernetes

What is Cloudera Data Engineering (CDE) ? Cloudera Data Engineering is a serverless service for Cloudera Data Platform (CDP) that allows you to submit jobs to auto-scaling virtual clusters. CDE enables you to spend more time on your applications, and less time on infrastructure. CDE allows you to create, manage, and schedule Apache Spark jobs […]

The post Cloudera Data Engineering – Integration steps to leverage Spark on Kubernetes appeared first on Cloudera Blog.

6 месяцев назад @ blog.cloudera.com
Using other CDP services with Cloudera Operational Database
Using other CDP services with Cloudera Operational Database

In the previous blog post, we looked at some of the application development concepts for the Cloudera Operational Database (COD). In this blog post, we’ll see how you can use other CDP services with COD. COD is an operational database-as-a-service that brings ease of use and flexibility to Apache HBase. Cloudera Operational Database enables developers […]

The post Using other CDP services with Cloudera Operational Database appeared first on Cloudera Blog.

8 месяцев назад @ blog.cloudera.com
Next Stop – Building a Data Pipeline from Edge to Insight
Next Stop – Building a Data Pipeline from Edge to Insight

This is part 2 in this blog series. You can read part 1, here: Digital Transformation is a Data Journey From Edge to Insight This blog series follows the manufacturing, operations and sales data for a connected vehicle manufacturer as the data goes through stages and transformations typically experienced in a large manufacturing company on […]

The post Next Stop – Building a Data Pipeline from Edge to Insight appeared first on Cloudera Blog.

8 месяцев, 1 неделя назад @ blog.cloudera.com
Smart Data
последний пост 6 часов назад
Be the Best – 9 Ways to Market Your Business with Big Data
Be the Best – 9 Ways to Market Your Business with Big Data

Big data technology has been a highly valuable asset for many companies around the world. Countless companies are utilizing big data to improve many aspects of their business. Some of the best applications of data analytics and AI technology has been in the field of marketing. Data-Driven Marketing is More Important than Ever The competition […]

The post Be the Best – 9 Ways to Market Your Business with Big Data appeared first on SmartData Collective.

6 часов назад @ smartdatacollective.com
Important Steps to Take to Address the Bias in AI
Important Steps to Take to Address the Bias in AI

We mentioned previously that bias is a big problem in machine learning that has to be mitigated. People need to take important steps to help mitigate it for the future. Regardless of how culturally, socially, or environmentally aware people consider themselves to be, bias is an inherent trait that everyone has. We are naturally attracted […]

The post Important Steps to Take to Address the Bias in AI appeared first on SmartData Collective.

2 дня, 1 час назад @ smartdatacollective.com
Why Investing in Data Is Crucial for Business Growth In 2022
Why Investing in Data Is Crucial for Business Growth In 2022

There’s no denying that data is everywhere in life. The rate at which information is being collected is growing exponentially, with approximately 2.5 quintillion bytes (that’s 2,5000, 000, 000, 000, 000, 000!) of data being produced every day. As technology continues to advance data generation across the world, it’s safe to say that investing in […]

The post Why Investing in Data Is Crucial for Business Growth In 2022 appeared first on SmartData Collective.

2 дня, 2 часа назад @ smartdatacollective.com
Starting a Career as an Analytics-Driven Video Game Coach
Starting a Career as an Analytics-Driven Video Game Coach

There are tremendous career opportunities for people that are knowledgeable about analytics. You will need to know what steps to take if you are interested in using your analytics knowledge to find a new career. Some of the career opportunities for people with a background in analytics are pretty obvious. You will be able to […]

The post Starting a Career as an Analytics-Driven Video Game Coach appeared first on SmartData Collective.

3 дня, 2 часа назад @ smartdatacollective.com
The Evolving Importance of Analytics in Generating Leads through PPC
The Evolving Importance of Analytics in Generating Leads through PPC

Analytics technology has been invaluable to modern marketing. The market for web analytics is projected to be worth $9.11 billion by 2025. The utilization of analytics and big data in the marketing industry has played a massive role in this robust growth. One of the most important benefits of analytics in marketing is with PPC […]

The post The Evolving Importance of Analytics in Generating Leads through PPC appeared first on SmartData Collective.

1 неделя, 3 дня назад @ smartdatacollective.com
How To Maintain Accurate Data Through Conversational Analysis?
How To Maintain Accurate Data Through Conversational Analysis?

There is no question that big data is very important for many businesses. Unfortunately, big data is only as useful as it is accurate. Data quality issues can cause serious problems in your big data strategy. Customers won’t always directly tell you the information your company needs to provide better products or services. However, their […]

The post How To Maintain Accurate Data Through Conversational Analysis? appeared first on SmartData Collective.

1 неделя, 4 дня назад @ smartdatacollective.com
Benefits of Using Drupal to Create a Website with AI Capabilities
Benefits of Using Drupal to Create a Website with AI Capabilities

AI technology has become a gamechanger for website development. Many developers are using AI to create better sites. However, it is also important to create sites with great AI features. AI-based solutions are becoming more and more popular among various industries. AI features can significantly improve the quality of your customer service and provide you […]

The post Benefits of Using Drupal to Create a Website with AI Capabilities appeared first on SmartData Collective.

1 неделя, 5 дней назад @ smartdatacollective.com
How Big Data and AI are Revolutionizing Payments
How Big Data and AI are Revolutionizing Payments

Data has become an essential asset for companies everywhere. The financial sector has been one of the most affected industries. By interpreting and analyzing the data, organizations can understand and predict trends, improve security and make data-driven decisions. Big data and the artificial intelligence technologies used to leverage it can go beyond market predictions, and […]

The post How Big Data and AI are Revolutionizing Payments appeared first on SmartData Collective.

2 недели, 1 день назад @ smartdatacollective.com
How Businesses Use Their Target Audience Data
How Businesses Use Their Target Audience Data

Big data has been instrumental in the evolution of marketing. More businesses are finding ways to create data-driven marketing strategies that are tailored to the needs of individual customers and customer segments. Every year businesses employ a variety of tactics in order to obtain data about their target audience, be that by using surveys, interviews, […]

The post How Businesses Use Their Target Audience Data appeared first on SmartData Collective.

2 недели, 1 день назад @ smartdatacollective.com
AI Developments Which Will Shape Our Future
AI Developments Which Will Shape Our Future

Despite all the unexpected events we’ve witnessed in 2020, artificial intelligence wasn’t much affected by the pandemic and everything that was happening as a consequence of it across the globe. On the contrary, this technology has been included in many discussions as a solution for numerous challenges and issues we are now facing not only […]

The post AI Developments Which Will Shape Our Future appeared first on SmartData Collective.

2 недели, 1 день назад @ smartdatacollective.com
Using Analytics to Successfully Use Instagram Stories for Your Business
Using Analytics to Successfully Use Instagram Stories for Your Business

Analytics technology is essential to the success of modern marketing. In the past, marketers had to rely heavily on their gut instinct, because the performance of various strategies was harder to measure. In the digital era, however, data analytics has made it much easier to figure out what strategies perform optimally. Instagram marketing is one […]

The post Using Analytics to Successfully Use Instagram Stories for Your Business appeared first on SmartData Collective.

2 недели, 1 день назад @ smartdatacollective.com
How Businesses Use Analytics to Rank Higher in Search Engines
How Businesses Use Analytics to Rank Higher in Search Engines

Analytics has become very important in the field of marketing. A growing number of businesses are finding new analytics tools to streamline their marketing efforts in a variety of ways. A lot of analytics tools are focused around improving social media marketing. However, analytics technology can be just as valuable when it comes to search […]

The post How Businesses Use Analytics to Rank Higher in Search Engines appeared first on SmartData Collective.

2 недели, 2 дня назад @ smartdatacollective.com
How AI and IoT Solutions Can Improve Your Business
How AI and IoT Solutions Can Improve Your Business

In today’s modern era, AI and IoT are technologies poised to impact every part of the industry and society radically. Because most businesses devote their primary efforts to developing their brand, software applications, or network, new technologies are apt to transform how they operate. In addition, as companies attempt to draw better significance from the […]

The post How AI and IoT Solutions Can Improve Your Business appeared first on SmartData Collective.

2 недели, 3 дня назад @ smartdatacollective.com
The Impact of Artificial Intelligence on Commercial Real Estate: The Ways AI Will Change Things
The Impact of Artificial Intelligence on Commercial Real Estate: The Ways AI Will Change Things

Artificial Intelligence (AI) is changing the commercial real estate industry by making everything more efficient, accessible, and transparent. Many companies are using AI to analyze their data and make better business decisions. AI can also be used to provide valuable insights into leasing trends, maximize vacancy rates, and forecast future demand. Below are the myriad […]

The post The Impact of Artificial Intelligence on Commercial Real Estate: The Ways AI Will Change Things appeared first on SmartData Collective.

2 недели, 4 дня назад @ smartdatacollective.com
Benefits of Hiring a Creative Agency with a Background in Data Analytics
Benefits of Hiring a Creative Agency with a Background in Data Analytics

You may not have thought about creative professionals having a strong foundation in data analytics. Artists are known for their creative insights, rather than their analytical or scientific competencies. However, the world has changed, which means that a background in big data and other types of technology is equally important. Data-driven businesses need to keep […]

The post Benefits of Hiring a Creative Agency with a Background in Data Analytics appeared first on SmartData Collective.

3 недели, 1 день назад @ smartdatacollective.com
Knoldus
последний пост 3 дня, 6 часов назад
Getting Started With Django web framework
Getting Started With Django web framework

Reading Time: 4 minutes What is Django? Django web framework is a full-fledged python based web framework that can be used to build complex and highly scalable web apps. It closely follows the MVC(Model, View, Controller) pattern of software development i.e., MVT(Model, View, Template) where the template is equivalent to the controller in the MVC pattern. Model defines the data structure. This is the base layer to an application Continue Reading

The post Getting Started With Django web framework appeared first on Knoldus Blogs.

3 дня, 6 часов назад @ blog.knoldus.com
Alerts in grafana, all you need to know
Alerts in grafana, all you need to know

Reading Time: 3 minutes Grafana alerts are useful since they tell you about the problems in your system moments after they occur. Which in turn results in quickly resolving the issue. Also reducing the disruption time of the service. Main components of Alerts Alerting rule– This consists of one or more query/expression, a condition, the frequency of evaluation. Also the duration (optional) that a condition must met for the Continue Reading

The post Alerts in grafana, all you need to know appeared first on Knoldus Blogs.

3 дня, 14 часов назад @ blog.knoldus.com
Why Solidity is used to Develop Smart Contracts?
Why Solidity is used to Develop Smart Contracts?

Reading Time: 3 minutes Solidity was first proposed and developed in year 2014 by Gavin Woodand since then it has come a long way. Then Ethereum’s Solidity team led by Christian Reitwiessner developed it later. It is a high-level , object-oriented language used for implementing smart contracts. A smart contract is a self-executing contract. It has the terms of the agreement between buyer and seller. The code and the agreements Continue Reading

The post Why Solidity is used to Develop Smart Contracts? appeared first on Knoldus Blogs.

1 неделя, 1 день назад @ blog.knoldus.com
Fundamentals of Tensorflow – Part I
Fundamentals of Tensorflow – Part I

Reading Time: 4 minutes What is TensorFlow? TensorFlow is an open-source end-to-end machine learning library. It is for preprocessing data, modeling data, and serving models (getting them into the hands of others). It has a comprehensive, flexible ecosystem of tools, libraries, and community resources that lets researchers push the state-of-the-art in ML. And developers easily build and deploy ML-powered applications. Installing TensorFlow TensorFlow is tested and supported on the following Continue Reading

The post Fundamentals of Tensorflow – Part I appeared first on Knoldus Blogs.

1 неделя, 2 дня назад @ blog.knoldus.com
Accelerometer as Puncho-o-meter | The “stm32-Discovery Board Sensor”- Part 3
Accelerometer as Puncho-o-meter | The “stm32-Discovery Board Sensor”- Part 3

Reading Time: 4 minutes Hello everyone, In this blog, we are going to provide you the way to use the Accelerometer Sensor of the Discovery Board as a Punch-o-meter. This is going to be the last part of the series in which we will work with Accelerometer as Puncho-o-meter. In the previous part, we have discussed the Accelerometer Sensor of the Discovery Board and we also got the readings Continue Reading

The post Accelerometer as Puncho-o-meter | The “stm32-Discovery Board Sensor”- Part 3 appeared first on Knoldus Blogs.

1 неделя, 2 дня назад @ blog.knoldus.com
JavaScript Fundamentals
JavaScript Fundamentals

Reading Time: 3 minutes “this” keyword in JavaScript The “this” keyword in JavaScript refers to an object, that object which is executing the current bit of the code.“Execution context means how the function is being called”. Every java script function while executing has a reference to its current execution context called “this”. “this” refers to a global object. To put it in simpler terms “this” refers points to the Continue Reading

The post JavaScript Fundamentals appeared first on Knoldus Blogs.

1 неделя, 3 дня назад @ blog.knoldus.com
Spring Security – A Starter Guide
Spring Security – A Starter Guide

Reading Time: 5 minutes spring security – authentication and authorization in detail Topics covered Basics of spring security What is spring security? What spring security can do? 5 core concepts of spring security and their detailed breakdown. Definition of Spring Security : The proper definition of spring security is: spring security is an application level security framework that provides ways to to apply application level security to the application. Continue Reading

The post Spring Security – A Starter Guide appeared first on Knoldus Blogs.

1 неделя, 3 дня назад @ blog.knoldus.com
Big Data Analytics: An Introduction
Big Data Analytics: An Introduction

Reading Time: 5 minutes DATA ANALYTICS Data can help businesses better understand their customers and improve their advertising campaigns. It can also help personalise their content, and improve their bottom lines. The advantages of data are many, but you can’t access these benefits without the proper data analytics tools and processes. While raw data has a lot of potentials, you need data analytics to unlock the power to grow Continue Reading

The post Big Data Analytics: An Introduction appeared first on Knoldus Blogs.

1 неделя, 4 дня назад @ blog.knoldus.com
Tensorflow used for Image Classification
Tensorflow used for Image Classification

Reading Time: 2 minutes What is TensorFlow? Tensorflow is an open-source library for numerical computation and large-scale machine learning that ease Google Brain TensorFlow, the process of acquiring data, training models, serving predictions, and refining future results. How Tensorflow and Keras used for Image Classification This blogs shows how to classify images of wheat classes. It creates an image classifier using a keras.Sequential model, and loads data using preprocessing.image_dataset_from_directory. You will gain practical experience Continue Reading

The post Tensorflow used for Image Classification appeared first on Knoldus Blogs.

1 неделя, 6 дней назад @ blog.knoldus.com
How to encrypt and decrypt files using GPG
How to encrypt and decrypt files using GPG

Reading Time: 3 minutes In Linux, you keep your data in form of files. But what if the data you are storing is sensitive. How can you protect that from unauthorized access? One of the ways is encrypting the files using GPG. In this blog, I’ll tell you what GPG is and how you can use it to encrypt and decrypt files in the Linux system. What are GPG Continue Reading

The post How to encrypt and decrypt files using GPG appeared first on Knoldus Blogs.

2 недели, 1 день назад @ blog.knoldus.com
Node JS Server with Express framework
Node JS Server with Express framework

Reading Time: 3 minutes Introduction: Express is a minimal and flexible Node.js web application framework that provides a robust set of features to develop web and mobile applications. It facilitates the rapid development of Node based Web applications. Following are some of the core features of Express framework − Allows to set up middlewares to respond to HTTP Requests. Defines a routing table which is used to perform different Continue Reading

The post Node JS Server with Express framework appeared first on Knoldus Blogs.

2 недели, 1 день назад @ blog.knoldus.com
Enabling CORS in Node.js
Enabling CORS in Node.js

Reading Time: 2 minutes In the last blog, we’ve learnt the basic about the CORS, how we can setup and how it works. Now ini this blog, we’re going to learn how we can enable the it in node.js CORS is a browser security feature that restricts cross-origin HTTP requests with other servers and specifies which domains access your resources. Let’s say accessing images, videos, iframes, or scripts from Continue Reading

The post Enabling CORS in Node.js appeared first on Knoldus Blogs.

2 недели, 1 день назад @ blog.knoldus.com
Angular Routing Guards: Understanding canActivate Guard (Part-2)
Angular Routing Guards: Understanding canActivate Guard (Part-2)

Reading Time: 7 minutes If you are trying to block some routes from loading based on some permissions or blocking a route based if not authenticated, then you can read along and at the end, you will understand about the canActivate Guard. In the series of Angular Routing Guards Part-1, we’ve learned and understood the basics of angular route guards. If you’ve no prior knowledge about Angular Route Guards, Continue Reading

The post Angular Routing Guards: Understanding canActivate Guard (Part-2) appeared first on Knoldus Blogs.

2 недели, 1 день назад @ blog.knoldus.com
A Guide to CORS in Node.js with Express
A Guide to CORS in Node.js with Express

Reading Time: 4 minutes Introduction Node.js is an open-source and cross-platform runtime used when executing JavaScript code on the server-side. One of the popular Node.js server frameworks is Express. Implementing CORS in Node.js helps you access numerous functionalities on the browser. Express allows you to configure and manage an HTTP server to access resources from the same domain. The three parts that form an origin are protocal, domain, and port. Let’s Continue Reading

The post A Guide to CORS in Node.js with Express appeared first on Knoldus Blogs.

2 недели, 1 день назад @ blog.knoldus.com
Error Handling in Rust – Error are a fact of life in Software.
Error Handling in Rust – Error are a fact of life in Software.

Reading Time: 4 minutes Hello Readers!! Again I am here with an exciting topic that is Error Handling. As we know errors are things that no one wants in their program. So lets see what are Errors and how we can handle them . An error is basically an unexpected behaviour or event that may lead a program to produce undesired output or terminate abruptly. We can try to find Continue Reading

The post Error Handling in Rust – Error are a fact of life in Software. appeared first on Knoldus Blogs.

2 недели, 1 день назад @ blog.knoldus.com
Learn Data Engineering Learn Data Engineering
последний пост 1 неделя, 3 дня назад
10 Steps to get a Data Engineering job
10 Steps to get a Data Engineering job

Jobs in the field of Data Engineering are in great demand. But how do you get a job like this? 1) Set your personal Goals The first thing you have to do is set personal goals. What do you actually want to achieve? Where do you see yourself in the next few years? What exactly do you want to...

1 неделя, 3 дня назад @ learndataengineering.com
How To Best Start Your First Data Engineering Project!
How To Best Start Your First Data Engineering Project!

You want to become a Data Engineer, but don't know how to set up a data engineering project? I will show you! Do not make this mistake! First of all you should not make the mistake that unfortunately many people make! Often people want to build the whole thing from the beginning. They say:...

1 неделя, 4 дня назад @ learndataengineering.com
Data Engineering vs Data Science
Data Engineering vs Data Science

What is the difference between data science and data engineering? Data Science

Data Scientists work with the data and are basically doing the analytics part. They take the data and create new insights. They do the analytics for instance by using Machine Learning techniques or do just simple...

1 месяц, 1 неделя назад @ learndataengineering.com
Where to validate incoming data?
Where to validate incoming data?

When you watch the blueprint I also use in my cookbook you see the different phases: Connect, Processing Framework, Store and Buffer. At the beginning you think about where you validate the data? To make sure that the data is okay and makes sense. Do you validate the data directly on the API -...

1 месяц, 3 недели назад @ learndataengineering.com
AWS, Azure or GCP?
AWS, Azure or GCP?

I get often asked: What is the best or easiest cloud platform to start with for data engineering? Here are my thoughts on this. A general overview. Market shares Amazon Web Services (AWS) is globally the biggest cloud provider (approx. 50% of the market). This goes for the US and the EU...

1 месяц, 3 недели назад @ learndataengineering.com
Scala vs. PySpark!
Scala vs. PySpark!

In one of my livestreams, a viewer asked me the question: Scala or PySpark? Which one I prefer and why, I'll answer you in this video: https://youtu.be/64iMuH2QLjE Let me know in the comments how you think about it! See you later. Andreas Check out our Data Engineering Academy to...

7 месяцев, 3 недели назад @ learndataengineering.com
How to Draw Cool Architecture Diagrams For AWS, Google Cloud and Azure
How to Draw Cool Architecture Diagrams For AWS, Google Cloud and Azure

How to draw architecture diagrams for AWS, Google Cloud and Azure in an easy and time-saving way? Check out this video to find out! The tool is really great! https://youtu.be/hNoVd-XKbmI Let me know in the comments how you think about it! See you later. Andreas Check out our Data...

7 месяцев, 4 недели назад @ learndataengineering.com
Salary Of A Junior Data Engineer
Salary Of A Junior Data Engineer

Jobs as a Junior Data Engineer are in great demand. But what do you really earn as such? Check out this video to find out:https://youtu.be/Yve3Yl37mrE Let me know in the comments how you think about it! See you later. Andreas Check out our Data Engineering Academy to learn the Plumbing...

8 месяцев назад @ learndataengineering.com
Roadmap For Data Engineers To Learn The Necessary Skills
Roadmap For Data Engineers To Learn The Necessary Skills

You're an aspiring Data Engineer and don't know exactly how to proceed to best acquire all the skills you need? Then be sure to watch this video. There you will get a roadmap on how to proceed: https://youtu.be/LKhdmm4CzbU Let me know in the comments how you think about it! See you...

8 месяцев назад @ learndataengineering.com
Skills You Should Have As a Data Engineer
Skills You Should Have As a Data Engineer

SQL and Python - two skills everyone talks about. But what other skills should you have as a Data Engineer? Check out this video to find out: https://youtu.be/8f1AL_BW6nQ Let me know in the comments how you think about it! See you later. Andreas Check out our Data Engineering Academy...

8 месяцев назад @ learndataengineering.com
How to deal with job rejections!
How to deal with job rejections!

You got a job rejection? No need to worry. You can learn from it! How? I explain it to you in this video: https://youtu.be/Gp9kEG_cuOM Let me know in the comments how you think about it! See you later. Andreas Check out our Data Engineering Academy to learn the Plumbing of Data Science!

8 месяцев назад @ learndataengineering.com
What you should do if your company doesn't give you a data engineer title!
What you should do if your company doesn't give you a data engineer title!

You work as a Data Engineer but your company titles your job differently and doesn't want to give you a Data Engineer title? No need to worry. Chek out this video to see what you should do: https://youtu.be/qmzF2dthv58 Let me know in the comments how you think about it! See you...

8 месяцев, 1 неделя назад @ learndataengineering.com
How deep do you need to know operating systems for Data Engineering?
How deep do you need to know operating systems for Data Engineering?

How deep do you need to know operating systems for Data Engineering? Watch this video to find out: https://youtu.be/nFzFvyeUY2o Let me know in the comments how you think about it! See you later. Andreas Check out our Data Engineering Academy to learn the Plumbing of Data Science!

8 месяцев, 1 неделя назад @ learndataengineering.com
How to choose what cloud platform to learn?
How to choose what cloud platform to learn?

You want to gain knowledge about a platform. But you are not sure which platform to choose? Check out this video, to see what you need to know to make that decision: https://youtu.be/t5a3QvXdav8 Let me know in the comments how you think about it! See you later. Andreas Check out our...

8 месяцев, 1 неделя назад @ learndataengineering.com
How to rate Spark from 1 to 10!
How to rate Spark from 1 to 10!

Spark is just great! But what makes it that great and how would i rate it on a scale of 1 to 10? Check out this video to find out: https://youtu.be/b0_4d-8qkoM Let me know in the comments how you think about it! See you later. Andreas Check out our Data Engineering Academy to learn the...

8 месяцев, 1 неделя назад @ learndataengineering.com
SCRIBD
последний пост 2 недели, 2 дня назад
Armadillo makes audio players in Android easy
Armadillo makes audio players in Android easy Armadillo makes audio players in Android easy

Armadillo is the fully featured audio player library Scribd uses to play and

download all of its audiobooks and podcasts, which is now open

source. It specializes in playing HLS

or MP3 content that is broken down into chapters or tracks. It leverages

Google’s Exoplayer library for its audio engine. Exoplayer wraps a variety of

low level audio and video apis but has few opinions of its own for actually

using audio in an Android app. The leap required from Exoplayer to audio player

is enormous both in terms of the amount of code needed as well as the amount of

domain knowledge required about complex audio related subjects. Armadillo

provides a turn-key solution for powering an audio player an…

2 недели, 2 дня назад @ tech.scribd.com
Categorizing user-uploaded documents
Categorizing user-uploaded documents Categorizing user-uploaded documents

Scribd offers a variety of publisher and user-uploaded content to our users and

while the publisher content is rich in metadata, user-uploaded content

typically is not. Documents uploaded by the users have varied subjects and

content types which can make it challenging to link them together. One way to

connect content can be through a taxonomy - an important type of structured

information widely used in various domains. In this series, we have already

shared how we identify document

types and extract information

from documents, this post

will discuss how insights from data were used to help build the taxonomy and

our approach to assign categories to the user-uploaded documents.

Building the…

2 месяца, 2 недели назад @ tech.scribd.com
Information Extraction at Scribd
Information Extraction at Scribd Information Extraction at Scribd

Extracting metadata from our documents is an important part of our discovery

and recommendation pipeline, but discerning useful and relevant details

from text-heavy user-uploaded documents can be challenging. This is

part 2 in a series of blog posts describing a multi-component machine learning

system the Applied Research team built to extract metadata from our documents in order to enrich downstream discovery models. In this post, we present the challenges and

limitations the team faced when building information extraction NLP models for Scribd’s text-heavy documents and how they were solved.

As mentioned in part 1, we now have a way of identifying text-heavy documents. Having done that, w…

2 месяца, 3 недели назад @ tech.scribd.com
Presenting Rust and Python Support for Delta Lake
Presenting Rust and Python Support for Delta Lake

Delta Lake is integral to our data platform which is why we have invested

heavily in delta-rs to support our

non-JVM Delta Lake needs. This year I had the opportunity to share the progress

of delta-rs at Data and AI Summit. Delta-rs was originally started by my colleague QP just over a year ago and it has now grown to now a multi-company project with numerous contributors, and downstream projects such as kafka-delta-ingest.

In the session embedded below, I introduce the delta-rs project which is

helping bring the power of Delta Lake outside of the Spark ecosystem. By

providing a foundational Delta Lake library in Rust, delta-rs can enable native

bindings in Python, Ruby, Golang, and more.We…

2 месяца, 3 недели назад @ tech.scribd.com
Identifying Document Types at Scribd
Identifying Document Types at Scribd Identifying Document Types at Scribd

User-uploaded documents have been a core component of Scribd’s business from

the very beginning, understanding what is actually in the document corpus

unlocks exciting new opportunities for discovery and recommendation.

With Scribd anybody can upload and share

documents, analogous to YouTube and videos. Over

the years, our document corpus has become larger and more diverse which has

made understanding it an ever-increasing challenge.

Over the past year one of the missions of the Applied Research team has been to

extract key document metadata to enrich

downstream discovery systems. Our approach combines semantic understanding with

user behaviour in a multi-component machine learning system.

3 месяца назад @ tech.scribd.com
Automating Databricks with Terraform
Automating Databricks with Terraform

The long term success of our data platform relies on putting tools into the

hands of developers and data scientists to “choose their own adventure”. A big

part of that story has been Databricks which we

recently integrated with Terraform to make it easy to

scale a top-notch developer experience. At the 2021 Data and AI Summit, Core

Platform infrastructure engineer Hamilton

Hord and Databricks engineer Serge

Smertin presented on the Databricks terraform provider

and how it’s been used by Scribd.

In the session embedded below, they share the details on the Databricks (Labs)

Terraform

integration

and how it can automate literally every aspect required for a production-grade

platform: data secu…

3 месяца, 1 неделя назад @ tech.scribd.com
Kafka to Delta Lake, as fast as possible
Kafka to Delta Lake, as fast as possible Kafka to Delta Lake, as fast as possible

Streaming data from Apache Kafka into Delta Lake is an integral part of

Scribd’s data platform, but has been challenging to manage and

scale. We use Spark Structured Streaming jobs to read data from

Kafka topics and write that data into Delta Lake tables. This approach gets the job

done but in production our experience has convinced us that a different

approach is necessary to efficiently bring data from Kafka to Delta Lake. To

serve this need, we created

kafka-delta-ingest.

The user requirements are likely relatable to a lot of folks: My application emits data into Kafka that I want to analyze later.

I want my Kafka data to land in the data warehouse and be queryable pretty soon after inge…

4 месяца, 4 недели назад @ tech.scribd.com
Growing the Delta Lake ecosystem with Rust and Python
Growing the Delta Lake ecosystem with Rust and Python

Scribd stores billions of records in Delta Lake but writing

or reading that data had been constrained to a single tech stack, all of that

changed with the creation of delta-rs.

Historically using Delta Lake required applications to be implemented with or

accompanied by Apache Spark. Many of our batch

and streaming data processing applications are all Spark-based, but that’s not

everything that exists! In mid-2020 it became clear that Delta Lake would be a

powerful tool in areas adjacent to the domain that Spark occupies. From my

perspective, I figured that would soon need to bring data into and out of Delta

Lake in dozens of different ways. Some discussions and prototyping led to the

creati…

5 месяцев назад @ tech.scribd.com
Backing up Delta Lake
Backing up Delta Lake

Transitioning from a more traditional database operation (read ACID, RDBMS blah blah) background to a newer data platform is always interesting. As it constantly challenges all yours year old wisdom and kind of forces you to adapt to newer way of getting things done.

At Scribd we have made

Delta Lake a cornerstone of our data platform. All data in

Delta Lake is stored in Apache Parquet format enabling Delta Lake to leverage

the efficient compression and encoding schemes that are native to Parquet. The

Delta Lake transaction log (also known as the DeltaLog) is an ordered record of

every transaction that has ever been performed on a Delta Lake table since its

inception. So a particular datase…

5 месяцев, 2 недели назад @ tech.scribd.com
Integrating Airflow with Okta
Integrating Airflow with Okta Integrating Airflow with Okta

At Scribd we use Airflow as a scheduler for most of our batch workloads, this blog is not about Airflow so we are not getting into why Airflow. This is about one of the biggest challenge that we faced while using Airflow and finally conquer. That is how to do authentication and authorisation for Airflow. Of course Airflow does support LDAP and at Scribd we started using LDAP with Airflow initially, but as the organisation grow and more and more user started using Airflow, it became imperative that we integrate Airflow with our SSO provider that is Okta.

Sadly there is a lack of resources on how to implement airflow with Okta specifically. This write up will describe the journey of integrati…

5 месяцев, 3 недели назад @ tech.scribd.com
Embedding-based Retrieval at Scribd
Embedding-based Retrieval at Scribd Embedding-based Retrieval at Scribd

Building recommendations systems like those implemented at large companies like Facebook and Pinterest can be accomplished using off the shelf tools like Elasticsearch. Many modern recommendation systems implement embedding-based retrieval, a technique that uses embeddings to represent documents, and then converts the recommendations retrieval problem into a similarity search problem in the embedding space. This post details our approach to “embedding-based retrieval” with Elasticsearch.

Context

Recommendations plays an integral part in helping users discover content that delights them on the Scribd platform, which hosts millions of premium ebooks, audiobooks, etc along with over a hundred …

6 месяцев назад @ tech.scribd.com
Data Quest
последний пост 1 неделя, 1 день назад
17 Reasons Why You’re Getting Rejected for Data Science Jobs
17 Reasons Why You’re Getting Rejected for Data Science Jobs

Enter your text hereData science jobs are abundant, and the numbers are growing. Despite the influx in demand, some data professionals are still struggling to find a job. If you’ve filled out numerous job applications you feel you’re easily qualified for, only to be rejected, you’re certainly not alone. In this article, we’ll go over some […]

The post 17 Reasons Why You’re Getting Rejected for Data Science Jobs appeared first on Dataquest.

1 неделя, 1 день назад @ dataquest.io
Discovering Your Data Science Career in 2021
Discovering Your Data Science Career in 2021

Careers in data science are some of the most sought-after in the world and that trend shows no signs of stopping. With the widespread use of AI, IoT devices, and streaming and real-time communication services, it’s no surprise many people are pursuing careers in data. In fact, data scientist is the second best job in […]

The post Discovering Your Data Science Career in 2021 appeared first on Dataquest.

2 недели, 1 день назад @ dataquest.io
30-Day Data Science Challenge
30-Day Data Science Challenge

We're excited to kick off the 30 Day Dataquest Challenge! Here’s why:Building learning habits is crucial to your data career, but it can be difficult to get into a new habit. Maybe you’ve tried building before, but, time and time again, you fall off. Something comes up. What starts off exciting becomes too difficult. Before […]

The post 30-Day Data Science Challenge appeared first on Dataquest.

1 месяц, 2 недели назад @ dataquest.io
How I Learned Data Science in 6 Months
How I Learned Data Science in 6 Months

Everyone’s journey to become a data scientist is different, and the learning curve will vary depending on many factors, including time availability, prior knowledge, the tools you use, etc. One learner shares his story about how he became a data scientist in 6 months with Dataquest. Here’s how his journey began:As the title suggests, this […]

The post How I Learned Data Science in 6 Months appeared first on Dataquest.

2 месяца назад @ dataquest.io
Data Analyst Skills – 8 Skills You Need to Get a Job
Data Analyst Skills – 8 Skills You Need to Get a Job

What are 5 real-world tasks that cover most of the skills someone needs to be hired as a data analyst?

The post Data Analyst Skills – 8 Skills You Need to Get a Job appeared first on Dataquest.

6 месяцев назад @ dataquest.io
Data Engineer, Data Analyst, Data Scientist — What’s the Difference?
Data Engineer, Data Analyst, Data Scientist — What’s the Difference?

In the fast-growing field of data, the "big three" job roles are data engineer, data analyst, and data scientist. Figure out which is the best fit for you.

The post Data Engineer, Data Analyst, Data Scientist — What’s the Difference? appeared first on Dataquest.

6 месяцев назад @ dataquest.io
You Need Data Skills to Future-Proof Your Career
You Need Data Skills to Future-Proof Your Career

No matter what industry you're in, you need data skills to future-proof your career. You might be thinking: Vik is the CEO of a company that teaches data science - of course he'd say that! But stick with me for a few more paragraphs, I'll walk you through how data was key to all of the […]

The post You Need Data Skills to Future-Proof Your Career appeared first on Dataquest.

6 месяцев, 1 неделя назад @ dataquest.io
Data Analytics Certification: Do You Need a Certificate to Get a Job as a Data Analyst?
Data Analytics Certification: Do You Need a Certificate to Get a Job as a Data Analyst?

If you’re interested in becoming a data analyst, or even just interested in adding some data skills to your resume, you’ve probably wondered: do I need some kind of data analytics certification?Finding the real answer to this question is tricky. There are a million data analytics certificate programs out there, and they all have a […]

The post Data Analytics Certification: Do You Need a Certificate to Get a Job as a Data Analyst? appeared first on Dataquest.

7 месяцев назад @ dataquest.io
SQL Interview Questions — Real Questions to Prep for Your Job Interview
SQL Interview Questions — Real Questions to Prep for Your Job Interview

A lot of the SQL interview questions you'll find on the web are generic: "What is SQL?" You'll never be asked that. We've got real questions to help you prep.

The post SQL Interview Questions — Real Questions to Prep for Your Job Interview appeared first on Dataquest.

8 месяцев, 2 недели назад @ dataquest.io
Want a Job in Data? Learn SQL.
Want a Job in Data? Learn SQL.

Learning SQL might not be as "sexy" as learning Python or R, but it's a fundamental skill for almost every data scientist and data analyst job. Here's why.

The post Want a Job in Data? Learn SQL. appeared first on Dataquest.

8 месяцев, 2 недели назад @ dataquest.io
Do You Need a SQL Certification to Get a Data Job in 2021?
Do You Need a SQL Certification to Get a Data Job in 2021?

If you want to work in data, do you need a SQL certification? That’s a question that can be difficult to answer, especially with different organizations pushing to get you to spend money on their certificate programs. Table Of Contents (click to expand) 1Do you need to learn SQL? Yes.2Do you need a SQL certificate? […]

The post Do You Need a SQL Certification to Get a Data Job in 2021? appeared first on Dataquest.

8 месяцев, 4 недели назад @ dataquest.io
Infrastructure
AWS
последний пост 55 минут назад
HawkEye 360 predicts vessel risk using the Deep Graph Library and Amazon Neptune
HawkEye 360 predicts vessel risk using the Deep Graph Library and Amazon Neptune

This post is co-written by Ian Avilez and Tim Pavlick from HawkEye 360. HawkEye 360 is a commercial radio frequency (RF) constellation, data, and analytics provider. Their signals of interest include very high frequency (VHF) push-to-talk radios, maritime radar systems, Automatic Identification System (AIS) beacons, emergency beacons, and more. The signals of interest library will […]

55 минут назад @ aws.amazon.com
Extract, prepare, and analyze Salesforce.com data using Amazon AppFlow, AWS Glue DataBrew, and Amazon Athena
Extract, prepare, and analyze Salesforce.com data using Amazon AppFlow, AWS Glue DataBrew, and Amazon Athena

As organizations embark on their data modernization journey, big data analytics and machine learning (ML) use cases are becoming even more integral parts of business. The ease for data preparation and seamless integration with third-party data sources is of paramount importance in order to gain insights quickly and make critical business decisions faster. AWS Glue […]

6 часов назад @ aws.amazon.com
Amazon Personalize can now unlock intrinsic signals in your catalog to recommend similar items
Amazon Personalize can now unlock intrinsic signals in your catalog to recommend similar items

Today, we’re excited to announce a new similar items recommendation recipe (aws-similar-items) in Amazon Personalize that helps you leverage your users’ interaction histories and what you know about the items in your catalog to deliver relevant recommendations. Across Amazon, we provide personalized experiences for each of our users, and based on a user’s interests, we […]

23 часа назад @ aws.amazon.com
How NSF’s iHARP researchers are enabling active learning for polar ice analysis using Amazon SageMaker and Amazon A2I
How NSF’s iHARP researchers are enabling active learning for polar ice analysis using Amazon SageMaker and Amazon A2I

The University of Maryland, Baltimore County’s Bina lab is a multidisciplinary research lab for employing advanced computer vision, machine learning (ML), and remote sensing techniques to discover new knowledge of our environment, especially in the Arctic and Antarctic regions. The lab’s work is supported by NSF BIGDATA awards (IIS-1947584, IIS-1838230), the NSF HDR Institute award […]

1 день назад @ aws.amazon.com
How Imperva expedites ML development and collaboration via Amazon SageMaker notebooks
How Imperva expedites ML development and collaboration via Amazon SageMaker notebooks

This is a guest post by Imperva, a solutions provider for cybersecurity. Imperva is a cybersecurity leader, headquartered in California, USA, whose mission is to protect data and all paths to it. In the last few years, we’ve been working on integrating machine learning (ML) into our products. This includes detecting malicious activities in databases, […]

1 день, 1 час назад @ aws.amazon.com
Create and reuse governed datasets in Amazon QuickSight with new Dataset-as-a-Source feature
Create and reuse governed datasets in Amazon QuickSight with new Dataset-as-a-Source feature

Amazon QuickSight is a fast, cloud-powered, business intelligence (BI) service that makes it easy to deliver insights to everyone in your organization. QuickSight recently introduced Dataset-as-a-Source, a new feature that allows data owners to create authoritative datasets that can then be reused and further extended by thousands of users across the enterprise. This post walks […]

1 день, 2 часа назад @ aws.amazon.com
How Amazon Transportation Service enabled near-real-time event analytics at petabyte scale using AWS Glue with Apache Hudi
How Amazon Transportation Service enabled near-real-time event analytics at petabyte scale using AWS Glue with Apache Hudi

This post is co-written with Madhavan Sriram and Diego Menin from Amazon Transportation Services (ATS). The transportation and logistics industry covers a wide range of services, such as multi-modal transportation, warehousing, fulfillment, freight forwarding, and delivery. At Amazon Transportation Service (ATS), the lifecycle of the shipment is digitally tracked and appended to tens of tracking […]

1 день, 6 часов назад @ aws.amazon.com
Automate cross-account backups of Amazon RDS and Amazon Aurora databases with AWS Backup
Automate cross-account backups of Amazon RDS and Amazon Aurora databases with AWS Backup

Many organizations around the world, such as government agencies, financial institutions, and non-profits, are looking for ways to protect their valuable data from ransomware attacks and natural disasters. In addition, many businesses are required to maintain their data long term to meet regulatory compliance and business policies. In the cloud, a strategy we see customers […]

1 день, 8 часов назад @ aws.amazon.com
Optimize performance and reduce costs for network analytics with VPC Flow Logs in Apache Parquet format
Optimize performance and reduce costs for network analytics with VPC Flow Logs in Apache Parquet format

VPC Flow Logs help you understand network traffic patterns, identify security issues, audit usage, and diagnose network connectivity on AWS. Customers often route their VPC flow logs directly to Amazon Simple Storage Service (Amazon S3) for long-term retention. You can then use a custom format conversion application to convert these text files into an Apache […]

2 дня, 3 часа назад @ aws.amazon.com
Organize product data to your taxonomy with Amazon SageMaker
Organize product data to your taxonomy with Amazon SageMaker

When companies deal with data that comes from various sources or the collection of this data has changed over time, the data often becomes difficult to organize. Perhaps you have product category names that are similar but don’t match, and on your website you want to surface these products as a group. Therefore, you need […]

2 дня, 3 часа назад @ aws.amazon.com
How Viasat scaled their big data applications by migrating to Amazon EMR
How Viasat scaled their big data applications by migrating to Amazon EMR

This post is co-written with Manoj Gundawar from Viasat. Viasat is a satellite internet service provider based in Carlsbad, CA, with operations across the United States and worldwide. Viasat’s ambition is to be the first truly global, scalable, broadband service provider with a mission to deliver connections that can change the world. Viasat operates across […]

2 дня, 6 часов назад @ aws.amazon.com
Build purpose-built database AMIs using Amazon EC2 Image Builder
Build purpose-built database AMIs using Amazon EC2 Image Builder

Managing virtual machine images that you standardize through configuration, consistent security patching, and hardening (also called “golden images”) is a time-consuming task. System administrators and database administrators responsible for these tasks have to define the characteristics of these images (such as which software to pre-install, which versions to use, and which security configurations to apply). […]

2 дня, 8 часов назад @ aws.amazon.com
Cross-Region, cross-account disaster recovery using Amazon Aurora Global Database
Cross-Region, cross-account disaster recovery using Amazon Aurora Global Database

Critical workloads with a global footprint have strict availability requirements and may need to tolerate a Region-wide outage. Traditionally, this required a difficult trade-off between performance, availability, cost, and data integrity, and sometimes required a considerable re-engineering effort. Due to the high implementation and infrastructure costs that are involved, some businesses are compelled to tier […]

2 дня, 9 часов назад @ aws.amazon.com
Build and load test a multi-tenant SaaS database proxy solution with Amazon RDS Proxy
Build and load test a multi-tenant SaaS database proxy solution with Amazon RDS Proxy

Many software as a service (SaaS) customers on AWS are familiar with multi-tenancy and tenant isolation. Indeed, customers using MySQL, for instance, may have adopted the bridge model of multi-tenancy, where each tenant has access to their own isolated database or schema. AWS provides many tools and best practices to get started, but achieving database […]

2 дня, 9 часов назад @ aws.amazon.com
Train and deploy deep learning models using JAX with Amazon SageMaker
Train and deploy deep learning models using JAX with Amazon SageMaker

Amazon SageMaker is a fully managed service that enables developers and data scientists to quickly and easily build, train, and deploy machine learning (ML) models at any scale. Typically, you can use the pre-built and optimized training and inference containers that have been optimized for AWS hardware. Although those containers cover many deep learning workloads, […]

3 дня, 1 час назад @ aws.amazon.com
AWS
последний пост 55 минут назад
How to approach conversation design: Getting started with Amazon Lex (Part 2)
How to approach conversation design: Getting started with Amazon Lex (Part 2)

As you plan your new Amazon Lex application, the following conversation design best practices can help your team succeed in creating a great customer experience. In our previous post, we discussed how to create the foundation for good conversation design. We explored the business value of good conversational design and provided some tips on building a team. We also talked about the importance of identifying use cases to create an informed foundation for your conversational interfaces. Throughout our series, we emphasize the importance of keeping the customer at the focus of your design process—this will improve the customer experience.

3 дня, 4 часа назад @ aws.amazon.com
Continuous monitoring with Sumo Logic using Amazon Kinesis Data Firehose HTTP endpoints
Continuous monitoring with Sumo Logic using Amazon Kinesis Data Firehose HTTP endpoints

Amazon Kinesis Data Firehose streams data to AWS destinations such as Amazon Simple Storage Service (Amazon S3), Amazon Redshift, and Amazon OpenSearch Service (successor to Amazon Elasticsearch Service). Additionally, Kinesis Data Firehose supports destinations to third-party partners. This ability to send data to third-party partners is a vital feature for customers who already use these […]

3 дня, 5 часов назад @ aws.amazon.com
Build and orchestrate ETL pipelines using Amazon Athena and AWS Step Functions
Build and orchestrate ETL pipelines using Amazon Athena and AWS Step Functions

Extract, transform, and load (ETL) is the process of reading source data, applying transformation rules to this data, and loading it into the target structures. ETL is performed for various reasons. Sometimes ETL helps align source data to target data structures, whereas other times ETL is done to derive business value by cleansing, standardizing, combining, […]

3 дня, 7 часов назад @ aws.amazon.com
Build conversational experiences for credit card services using Amazon Lex
Build conversational experiences for credit card services using Amazon Lex

New trends are shaping the credit card industry as shopping habits have rapidly evolved over the last 18 months. The pandemic has accelerated the move away from cash towards cards. Card issuers are transforming their products to better serve cardmembers through innovations such as contactless payments and mobile wallet. The rapid change in consumer behavior […]

3 дня, 18 часов назад @ aws.amazon.com
Implement a slowly changing dimension in Amazon Redshift
Implement a slowly changing dimension in Amazon Redshift

Amazon Redshift is a fully managed, petabyte-scale data warehouse service in the cloud. A star schema is a database organization structure optimized for use in a data warehouse. In a star schema, a dimension is a structure that categorizes the facts and measures in order to enable you to answer business questions. The attributes (or […]

3 дня, 23 часа назад @ aws.amazon.com
Detect online transaction fraud with new Amazon Fraud Detector features
Detect online transaction fraud with new Amazon Fraud Detector features

Fraud teams need a secure, fast, and flexible transaction fraud detection solution to combat global fraudsters. Unlike many solutions on the market, Amazon Fraud Detector allows you to tailor your fraud detection efforts specifically to your data and business challenge while also bringing the latest in fraud detection machine learning (ML) technology to bear on […]

4 дня, 1 час назад @ aws.amazon.com
Build, tune, and deploy an end-to-end churn prediction model using Amazon SageMaker Pipelines
Build, tune, and deploy an end-to-end churn prediction model using Amazon SageMaker Pipelines

The ability to predict that a particular customer is at a high risk of churning, while there is still time to do something about it, represents a huge potential revenue source for every online business. Depending on the industry and business objective, the problem statement can be multi-layered. The following are some business objectives based […]

4 дня, 6 часов назад @ aws.amazon.com
Automated security and compliance remediation at HDI
Automated security and compliance remediation at HDI

with Dr. Malte Polley (HDI Systeme AG – Cloud Solutions Architect) At HDI, one of the biggest European insurance group companies, we use AWS to build new services and capabilities and delight our customers. Working in the financial services industry, the company has to comply with numerous regulatory requirements in the areas of data protection […]

4 дня, 8 часов назад @ aws.amazon.com
Align with best practices while creating infrastructure using CDK Aspects
Align with best practices while creating infrastructure using CDK Aspects

Organizations implement compliance rules for cloud infrastructure to ensure that they run the applications according to their best practices. They utilize AWS Config to determine overall compliance against the configurations specified in their internal guidelines. This is determined after the creation of cloud resources in their AWS account. This post will demonstrate how to use […]

1 неделя, 1 день назад @ aws.amazon.com
Target cross-platform Go builds with AWS CodeBuild Batch builds
Target cross-platform Go builds with AWS CodeBuild Batch builds

Many different operating systems and architectures could end up as the destination for our applications. By using a AWS CodeBuild batch build, we can run builds for a Go application targeted at multiple platforms concurrently. Cross-compiling Go binaries for different platforms is as simple as setting two environment variables $GOOS and $GOARCH, regardless of the […]

1 неделя, 1 день назад @ aws.amazon.com
Prepare, transform, and orchestrate your data using AWS Glue DataBrew, AWS Glue ETL, and AWS Step Functions
Prepare, transform, and orchestrate your data using AWS Glue DataBrew, AWS Glue ETL, and AWS Step Functions

Data volumes in organizations are increasing at an unprecedented rate, exploding from terabytes to petabytes and in some cases exabytes. As data volume increases, it attracts more and more users and applications to use the data in many different ways—sometime referred to as data gravity. As data gravity increases, we need to find tools and […]

1 неделя, 1 день назад @ aws.amazon.com
Build your own brand detection and visibility using Amazon SageMaker Ground Truth and Amazon Rekognition Custom Labels – Part 2: Training and analysis workflows
Build your own brand detection and visibility using Amazon SageMaker Ground Truth and Amazon Rekognition Custom Labels – Part 2: Training and analysis workflows

In Part 1 of this series, we showed how to build a brand detection solution using Amazon SageMaker Ground Truth and Amazon Rekognition Custom Labels. The solution was built on a serverless architecture with a custom user interface to identify a company brand or logo from video content and get an in-depth view of screen […]

1 неделя, 1 день назад @ aws.amazon.com
Capture key source table headers data using AWS DMS and use it for Amazon S3 data lake operations
Capture key source table headers data using AWS DMS and use it for Amazon S3 data lake operations

Migrating the raw data from source systems into a central repository is usually the first step in establishing a data lake. Many systems store source data in relational database tables, therefore a mechanism is required to ingest this data in the data lake and also get some relevant metadata about these tables so that data […]

1 неделя, 1 день назад @ aws.amazon.com
How to encrypt Amazon Aurora using AWS KMS and your own CMK
How to encrypt Amazon Aurora using AWS KMS and your own CMK

When selecting a relational database engine, customers look at many different aspects, including management, performance, reliability, automation, and more recently, the ability to natively encrypt data at rest. Amazon Aurora provides a highly available, optimal, and scalable relational database engine that supports both MySQL and PostgreSQL. Amazon Aurora also supports native encryption of data at […]

1 неделя, 1 день назад @ aws.amazon.com
Simulated location data with Amazon Location Service
Simulated location data with Amazon Location Service

Modern location-based applications require the processing and storage of real-world assets in real-time. The recent release of Amazon Location Service and its Tracker feature makes it possible to quickly and easily build these applications on the AWS platform. Tracking real-world assets is important, but at some point when working with Location Services you will need to […]

1 неделя, 1 день назад @ aws.amazon.com
Astronomer Astronomer
последний пост 1 день, 15 часов назад
Airflow at BBC—Data Orchestration Solution in Media
Airflow at BBC—Data Orchestration Solution in Media

A conversation with the BBC's Principal Data Engineer about how Apache Airflow helps them deliver personalized experiences to the audience.

1 день, 15 часов назад @ astronomer.io
Scheduling and Timetables in Airflow
Scheduling and Timetables in Airflow

Everything you need to know about scheduling your Airflow DAGs.

2 дня, 23 часа назад @ astronomer.io
Everything You Need to Know about Apache Airflow 2.2.0
Everything You Need to Know about Apache Airflow 2.2.0

It's here! Discover the major Airflow 2.2.0 features including customisable timetables, deferrable tasks, Airflow standalone and many more.

3 дня, 11 часов назад @ astronomer.io
Big Data Architecture: Core Components, Use Cases and Limitations
Big Data Architecture: Core Components, Use Cases and Limitations

Is Big Data Architecture the answer to major business problems, or just a crucial piece of a bigger puzzle? Discover our insights on the topic in this short blog post!

1 неделя, 3 дня назад @ astronomer.io
The Future of Banking: How Can Apache Airflow Help?
The Future of Banking: How Can Apache Airflow Help?

Learn what are the challenges of the banking industry today, and how Apache Airflow can help with digital transformation.

2 недели, 2 дня назад @ astronomer.io
Apache Airflow vs. Apache NiFi
Apache Airflow vs. Apache NiFi

Overview and comparison study of two popular ETL tools for managing the golden asset of most organisations: data. Can these two be compared at all?

3 недели, 2 дня назад @ astronomer.io
Apache NiFi vs. Apache Airflow
Apache NiFi vs. Apache Airflow

Overview and comparison study of two popular ETL tools for managing the golden asset of most organisations: data. Can these two be compared at all?

3 недели, 2 дня назад @ astronomer.io
Airflow at Wise: Data Orchestrator in Machine Learning
Airflow at Wise: Data Orchestrator in Machine Learning

A talk with Alexandra Abbas—a Machine Learning Engineer at Wise—about how they leverage Apache Airflow in their ML initiatives.

4 недели, 1 день назад @ astronomer.io
How to Build a Modern Data Stack
How to Build a Modern Data Stack

Breaking down what a modern data stack means in practice. We discuss four core components, five reasons to set it up, and how to orchestrate it.

1 месяц назад @ astronomer.io
Airflow Data Quality Checks with SQL Operators
Airflow Data Quality Checks with SQL Operators

Executing queries in Apache Airflow DAGs to ensure data quality.

1 месяц назад @ astronomer.io
How CRED Built 90+ DAGs in 6 months with Astronomer
How CRED Built 90+ DAGs in 6 months with Astronomer

Check out the story of CRED—a FinTech company based in India—and how they leveraged the power of Apache Airflow.

1 месяц, 1 неделя назад @ astronomer.io
How to Build an ETL Process?
How to Build an ETL Process?

Extract, transform, load. Discover the vital steps and methods of building an ETL process for your business.

1 месяц, 1 неделя назад @ astronomer.io
Airflow Pools
Airflow Pools

Using pools to control task parallelism in Airflow.

1 месяц, 2 недели назад @ astronomer.io
Data Silos: What Are They and How to Fix Them?
Data Silos: What Are They and How to Fix Them?

Everything you need to know about data silos—how they influence your business, where they come from, and how to fix them.

1 месяц, 3 недели назад @ astronomer.io
Airflow at Societe Generale: Data Orchestration Solution in Banking
Airflow at Societe Generale: Data Orchestration Solution in Banking

A conversation with Societe Generale about their Airflow implementation and development of the data orchestration solution.

1 месяц, 4 недели назад @ astronomer.io
DBT — Data Build Tool DBT — Data Build Tool
последний пост 2 дня, 7 часов назад
Refactoring legacy SQL to dbt
Refactoring legacy SQL to dbt Refactoring legacy SQL to dbt

Where to begin when migrating legacy SQL transformation code to dbt? In a new (free!) on-demand course, analytics engineers from dbt Labs unpack the refactoring process they've employed across dozens of projects.

2 дня, 7 часов назад @ blog.getdbt.com
Adopting CI/CD with dbt Cloud
Adopting CI/CD with dbt Cloud Adopting CI/CD with dbt Cloud

Choosing between Continuous Delivery and Continuous Deployment based on business needs

2 недели, 1 день назад @ blog.getdbt.com
Getting ready for v1.0
Getting ready for v1.0 Getting ready for v1.0

It's finally (almost) here. The best way to get ready is by upgrading *now* to the latest & greatest that dbt Core has to offer

3 недели, 1 день назад @ blog.getdbt.com
We'll gather in person again... just not in 2021
We'll gather in person again... just not in 2021 We'll gather in person again... just not in 2021

We are cancelling in-person events for the remainder of 2021. We know these are disappointing news but remain confident that it's the right decision for safely engaging with our dbt Community.

1 месяц, 3 недели назад @ blog.getdbt.com
On DAGs, Hierarchies, and IDEs
On DAGs, Hierarchies, and IDEs On DAGs, Hierarchies, and IDEs

With the DAG-in-the-IDE (now available to all dbt Cloud users), analytics engineers can seamlessly navigate the core structure of their dbt project with low friction and low cognitive load, making the entire development process more intuitive, pleasant, and efficient.

1 месяц, 3 недели назад @ blog.getdbt.com
We the purple people
We the purple people We the purple people

The data world needs more purple people — generalists who can navigate both the business context and the modern data stack. Let's put aside skillset dichotomies, and learn to feel comfortable in the space between.

2 месяца, 2 недели назад @ blog.getdbt.com
dbt and Hightouch are putting your transformed data to work
dbt and Hightouch are putting your transformed data to work dbt and Hightouch are putting your transformed data to work

Give your business teams access to transformed data in the tools they use every day. Hightouch now integrates with dbt to help you bring “Reverse ETL” to your stack.

2 месяца, 2 недели назад @ blog.getdbt.com
Announcing: The Foundry Program
Announcing: The Foundry Program Announcing: The Foundry Program

Over the past few months, the dbt Labs’ recruiting team has partnered with leaders from our Engineering and Analytics Engineering organizations to design the Foundry Program. This program will provide a gateway for those that are new to the field or looking to make a career change.

3 месяца назад @ blog.getdbt.com
Of the Community, By the Community, For the Community
Of the Community, By the Community, For the Community Of the Community, By the Community, For the Community

Or: why we raised a series C.

3 месяца, 2 недели назад @ blog.getdbt.com
dbt + Materialize: Streaming to a dbt project near you
dbt + Materialize: Streaming to a dbt project near you dbt + Materialize: Streaming to a dbt project near you

Our friends at Materialize, the world’s first SQL-platform for processing streaming data, have officially launched a new dbt adapter, now available in open beta. Together, we’re opening the door for analysts to become first-class creators and users of streaming analytics.

4 месяца, 2 недели назад @ blog.getdbt.com
dbt + Materialize: Streaming to a dbt project near you
dbt + Materialize: Streaming to a dbt project near you dbt + Materialize: Streaming to a dbt project near you

Our friends at Materialize, the world’s first SQL-platform for processing streaming data, have officially launched a new dbt adapter, now available in open beta. Together, we’re opening the door for analysts to become first-class creators and users of streaming analytics.

4 месяца, 2 недели назад @ blog.getdbt.com
Analytics Engineering for Everyone: Databricks in dbt Cloud
Analytics Engineering for Everyone: Databricks in dbt Cloud Analytics Engineering for Everyone: Databricks in dbt Cloud

This SQL-first integration with Databricks means that analysts can build fully automated data pipelines in the same space that data engineers & data scientists work in their preferred frameworks.

5 месяцев, 2 недели назад @ blog.getdbt.com
Analytics Engineering for Everyone: Databricks in dbt Cloud
Analytics Engineering for Everyone: Databricks in dbt Cloud Analytics Engineering for Everyone: Databricks in dbt Cloud

This SQL-first integration with Databricks means that analysts can build fully automated data pipelines in the same space that data engineers & data scientists work in their preferred frameworks.

5 месяцев, 2 недели назад @ blog.getdbt.com
Announcing Staging: dbt Demo Days
Announcing Staging: dbt Demo Days Announcing Staging: dbt Demo Days

Staging is a ✨new✨ quarterly event that brings dbt users (that’s you!) into the product development lifecycle (where I spend my days 😅).

9 месяцев назад @ blog.getdbt.com
Announcing Staging: dbt Demo Days
Announcing Staging: dbt Demo Days Announcing Staging: dbt Demo Days

Staging is a ✨new✨ quarterly event that brings dbt users (that’s you!) into the product development lifecycle (where I spend my days 😅).

9 месяцев назад @ blog.getdbt.com
FiveTran FiveTran
последний пост 2 дня, 17 часов назад
Fivetran in 2022 and Beyond
Fivetran in 2022 and Beyond

Our VP of Product previews the next stage in the evolution of Fivetran.

2 дня, 17 часов назад @ fivetran.com
Fivetran Integrations Highlighted at Google Cloud Next '21
Fivetran Integrations Highlighted at Google Cloud Next '21

Fivetran integrates seamlessly with multiple Google Cloud services, and the addition of HVR technology will improve the experience.

3 дня, 12 часов назад @ fivetran.com
Super Dispatch drives revenue impact with Fivetran and the Modern Data Stack
Super Dispatch drives revenue impact with Fivetran and the Modern Data Stack

Online platform for auto transport uses Fivetran to build a centralized data architecture that empowers data-driven decision making

1 неделя назад @ fivetran.com
Fivetran helps Testing for All deliver fast and affordable Covid-19 testing
Fivetran helps Testing for All deliver fast and affordable Covid-19 testing

A UK non-profit organisation joined the race to test more people more accurately for Covid-19 with Fivetran playing a key role in its success

1 неделя, 2 дня назад @ fivetran.com
Data Lakes vs. Data Warehouses
Data Lakes vs. Data Warehouses

Successful analytics depends on choosing the right approach to storing your enterprise data.

1 неделя, 3 дня назад @ fivetran.com
Fivetran Wins Comparably Awards for Best Companies for Happiness and Compensation
Fivetran Wins Comparably Awards for Best Companies for Happiness and Compensation Fivetran Wins Comparably Awards for Best Companies for Happiness and Compensation

Oakland, Calif., October 5, 2021 -- Fivetran, the leading automated data integration provider, today announced it has been recognized as a Best Company for Happiness and Best Company for Compensation by Comparably, a leading workplace culture and compensation monitoring site. The accolades were announced as part of Comparably’s 2021 Workplace Culture Awards. Comparably’s awards are based on real employee feedback in response to a variety of company culture questions related to both compensation and happiness at work. All feedback is submitted anonymously. Fivetran ranked in the top 50 for large companies (500+ employees) for Best Company Happiness and in the top 50 for Best Company Compensa…

1 неделя, 3 дня назад @ fivetran.com
Imagining the Future of Analytics and the Modern Data Stack
Imagining the Future of Analytics and the Modern Data Stack

At the Modern Data Stack Conference 2021, three tech leaders discussed where analytics is headed — and how to get the most value from it.

1 неделя, 3 дня назад @ fivetran.com
ETL vs. ELT: Choose the Right Approach for Data Integration
ETL vs. ELT: Choose the Right Approach for Data Integration

Learn about ETL and ELT so you can decide which method works for you.

1 неделя, 4 дня назад @ fivetran.com
It’s Official: Fivetran and HVR Are Now One
It’s Official: Fivetran and HVR Are Now One

Fivetran has closed its acquisition of HVR. CEOs George Fraser and Anthony Brooks-Williams explain how it happened and what it means for customers.

2 недели назад @ fivetran.com
Lendi makes data-driven decisions with Fivetran
Lendi makes data-driven decisions with Fivetran

Australian mortgage broker uses Fivetran to transform into a frictionless, data-driven business

2 недели, 5 дней назад @ fivetran.com
Fivetran Goes Multi-Cloud With Business Critical Plan
Fivetran Goes Multi-Cloud With Business Critical Plan

Run Fivetran on different clouds to gain flexibility and control while reducing costs.

3 недели назад @ fivetran.com
Announcing the Winners of the 2021 Modern Data Stack Awards
Announcing the Winners of the 2021 Modern Data Stack Awards

Celebrating data professionals who are transforming their businesses and communities, one data-driven decision at a time.

3 недели, 1 день назад @ fivetran.com
Fivetran Now Deploys on Microsoft Azure
Fivetran Now Deploys on Microsoft Azure

Our joint customers can remain within Azure for all their cloud services, facilitating compliance and minimizing data movement costs.

3 недели, 2 дня назад @ fivetran.com
Modern Data Stack Conference 2021: Don’t Miss These Sessions
Modern Data Stack Conference 2021: Don’t Miss These Sessions

You should attend every single session at this year’s conference — but if life forces you to make cruel choices, consider these first.

3 недели, 3 дня назад @ fivetran.com
How to Build an Effective Enterprise Data Catalog
How to Build an Effective Enterprise Data Catalog

Learn how you can keep track of all of your organization’s data assets in one place

3 недели, 3 дня назад @ fivetran.com
DataBricks DataBricks
последний пост 1 день, 6 часов назад
Developing Databricks’ Runbot CI Solution
Developing Databricks’ Runbot CI Solution Developing Databricks’ Runbot CI Solution

Runbot is a bespoke continuous integration (CI) solution developed specifically for Databricks’ needs. Originally developed in 2019, Runbot incrementally replaces our aging Jenkins infrastructure with something more performant, scalable, and user friendly for both users and maintainers of the service. This blog post will explore the motivations behind developing Runbot, the core design decisions that...

The post Developing Databricks’ Runbot CI Solution appeared first on Databricks.

1 день, 6 часов назад @ databricks.com
Native Support of Session Window in Spark Structured Streaming
Native Support of Session Window in Spark Structured Streaming Native Support of Session Window in Spark Structured Streaming

Apache Spark™ Structured Streaming allowed users to do aggregations on windows over event-time. Before Apache Spark 3.2™, Spark supported tumbling windows and sliding windows. In the upcoming Apache Spark 3.2, we add “session windows” as new supported types of windows, which works for both streaming and batch queries What is a “session window”? Tumbling...

The post Native Support of Session Window in Spark Structured Streaming appeared first on Databricks.

3 дня, 7 часов назад @ databricks.com
Efficient Point in Polygon Joins via PySpark and BNG Geospatial Indexing
Efficient Point in Polygon Joins via PySpark and BNG Geospatial Indexing Efficient Point in Polygon Joins via PySpark and BNG Geospatial Indexing

This is a collaborative post by Ordnance Survey, Microsoft and Databricks. We thank Charis Doidge, Senior Data Engineer, and Steve Kingston, Senior Data Scientist, Ordnance Survey, and Linda Sheard, Cloud Solution Architect for Advanced Analytics and AI at Microsoft, for their contributions. This blog presents a collaboration between Ordnance Survey (OS), Databricks and Microsoft...

The post Efficient Point in Polygon Joins via PySpark and BNG Geospatial Indexing appeared first on Databricks.

4 дня, 3 часа назад @ databricks.com
Pandas API on Upcoming Apache Spark™ 3.2
Pandas API on Upcoming Apache Spark™ 3.2 Pandas API on Upcoming Apache Spark™ 3.2

We’re thrilled to announce the pandas API as part of the upcoming Apache Spark™ 3.2 release. pandas is a powerful, flexible library and has grown rapidly to become one of the standard data science libraries. Now pandas users can leverage the pandas API on their existing Spark clusters. A few years ago, we launched Koalas,...

The post Pandas API on Upcoming Apache Spark™ 3.2 appeared first on Databricks.

1 неделя, 4 дня назад @ databricks.com
Shiny and Environments for R Notebooks
Shiny and Environments for R Notebooks Shiny and Environments for R Notebooks

At Databricks, we want the Lakehouse ecosystem widely accessible to all data practitioners, and R is a great interface language for this purpose because of its rich ecosystem of open source packages and broad use as a computing language for many non-computing scientific disciplines. The product team at Databricks actively engages with R users to...

The post Shiny and Environments for R Notebooks appeared first on Databricks.

2 недели, 4 дня назад @ databricks.com
Catalog and Discover Your Databricks Notebooks Faster
Catalog and Discover Your Databricks Notebooks Faster Catalog and Discover Your Databricks Notebooks Faster

This is a collaborative post from Databricks and Elsevier. We thank Darin McBeath, Director Disruptive Technologies — Elsevier, for his contributions. As a global leader in information and analytics, Elsevier helps researchers and healthcare professionals advance science and improve health outcomes for the benefit of society. It has supported the work of its research...

The post Catalog and Discover Your Databricks Notebooks Faster appeared first on Databricks.

3 недели, 2 дня назад @ databricks.com
Extracting Oncology Insights From Real-world Clinical Data With NLP
Extracting Oncology Insights From Real-world Clinical Data With NLP Extracting Oncology Insights From Real-world Clinical Data With NLP

Cancer is the leading cause of death and disease in the U.S., and the numbers are staggering with nearly 2 million new cases of cancer expected to be diagnosed in the U.S. this coming year. Cancer also represents a significant portion of total U.S. healthcare spending, estimated at more than $200B in 2020. As such,...

The post Extracting Oncology Insights From Real-world Clinical Data With NLP appeared first on Databricks.

3 недели, 2 дня назад @ databricks.com
Managing Model Ensembles With MLflow
Managing Model Ensembles With MLflow Managing Model Ensembles With MLflow

In machine learning, an ensemble is a collection of diverse models that provide more predictive power together than any single model would on its own. The outputs of multiple learning algorithms are combined through a process of averaging or voting, resulting in potentially a better prediction for a given set of inputs. However, there are...

The post Managing Model Ensembles With MLflow appeared first on Databricks.

3 недели, 3 дня назад @ databricks.com
How YipitData Extracts Insights From Alternative Data Using Delta Lake
How YipitData Extracts Insights From Alternative Data Using Delta Lake How YipitData Extracts Insights From Alternative Data Using Delta Lake

This is a guest post from YipitData. We thank Anup Segu, Data Engineering Tech Lead, and Bobby Muldoon: Director of Data Engineering, at YipitData for their contributions. Choosing the right storage format for any data lake is an important responsibility for data administrators. Tradeoffs between storage costs, performance, migration cost, and compatibility are top...

The post How YipitData Extracts Insights From Alternative Data Using Delta Lake appeared first on Databricks.

3 недели, 3 дня назад @ databricks.com
Timeliness and Reliability in the Transmission of Regulatory Reports
Timeliness and Reliability in the Transmission of Regulatory Reports Timeliness and Reliability in the Transmission of Regulatory Reports

Managing risk and regulatory compliance is an increasingly complex and costly endeavour. Regulatory change has increased 500% since the 2008 global financial crisis and boosted the regulatory costs in the process. Given the fines associated with non-compliance and SLA breaches (banks hit an all-time high in fines of $10 billion in 2019 for AML), processing...

The post Timeliness and Reliability in the Transmission of Regulatory Reports appeared first on Databricks.

4 недели назад @ databricks.com
Real-time Point-of-Sale Analytics With a Data Lakehouse
Real-time Point-of-Sale Analytics With a Data Lakehouse Real-time Point-of-Sale Analytics With a Data Lakehouse

Disruptions in the supply chain – from reduced product supply and diminished warehouse capacity – coupled with rapidly shifting consumer expectations for seamless consumer demands in the new normal. In this blog, we’ll address the need for real-time data in retail, and how to overcome the challenges of moving real-time streaming of point-of-sale data at...

The post Real-time Point-of-Sale Analytics With a Data Lakehouse appeared first on Databricks.

1 месяц назад @ databricks.com
How Incremental ETL Makes Life Simpler With Data Lakes
How Incremental ETL Makes Life Simpler With Data Lakes How Incremental ETL Makes Life Simpler With Data Lakes

Incremental ETL (Extract, Transform and Load) in a conventional data warehouse has become commonplace with CDC (change data capture) sources, but scale, cost, accounting for state and the lack of machine learning access make it less than ideal. In contrast, incremental ETL in a data lake hasn’t been possible due to factors such as the...

The post How Incremental ETL Makes Life Simpler With Data Lakes appeared first on Databricks.

1 месяц, 2 недели назад @ databricks.com
Announcing Databricks Autologging for Automated ML Experiment Tracking
Announcing Databricks Autologging for Automated ML Experiment Tracking Announcing Databricks Autologging for Automated ML Experiment Tracking

Machine learning teams require the ability to reproduce and explain their results–whether for regulatory, debugging or other purposes. This means every production model must have a record of its lineage and performance characteristics. While some ML practitioners diligently version their source code, hyperparameters and performance metrics, others find it cumbersome or distracting from their rapid...

The post Announcing Databricks Autologging for Automated ML Experiment Tracking appeared first on Databricks.

1 месяц, 2 недели назад @ databricks.com
Improving On-Shelf Availability for Items with AI Out of Stock Modeling
Improving On-Shelf Availability for Items with AI Out of Stock Modeling Improving On-Shelf Availability for Items with AI Out of Stock Modeling

This post was written in collaboration with Databricks partner Tredence. We thank Rich Williams, Vice President Data Engineering, and Morgan Seybert, Chief Business Officer, of Tredence for their contributions. Retailers are missing out on nearly $1 trillion in global sales because they don’t have on-hand what customers want to buy in their stores. Adding...

The post Improving On-Shelf Availability for Items with AI Out of Stock Modeling appeared first on Databricks.

1 месяц, 3 недели назад @ databricks.com
Solution Accelerator: Multi-touch Attribution
Solution Accelerator: Multi-touch Attribution Solution Accelerator: Multi-touch Attribution

Behind the growth of every consumer-facing product is the acquisition and retention of an engaged user base. When it comes to customer acquisition, the goal is to attract high-quality users as cost effectively as possible. With marketing dollars dispersed across a wide array of different touchpoints — campaigns, channels, and creatives — measuring effectiveness is...

The post Solution Accelerator: Multi-touch Attribution appeared first on Databricks.

1 месяц, 3 недели назад @ databricks.com
Mix
/r/DataEngineering
последний пост 24 минуты назад
changing your attitude
changing your attitude

I just got back from a 1.5 week vacation trip two days ago. I immediately blew through all my project backlog which I had let sit for the past three months (really). The next day and today was me going back to old projects that didn't work out and fixing them. And responding to requests that I had not seen before (with a little creativity). It's a great feeling. But if i had skipped the trip and just kept "attending" work none of that would have been accomplished. Something to think about. submitted by /u/chaoticalheavy [link] [comments]

24 минуты назад @ reddit.com
Transitioning from DS to DE. Any suggestion on what to learn next?
Transitioning from DS to DE. Any suggestion on what to learn next?

Hey all, I am changing job and also position title from data science to data engineering. Any suggestions which tools/libraries I should learn? (My new position is using AWS) I already know SQL, python (pandas, numpy and all the shabeng), pyspark and got myself the AWS Solution architect training. Thank you for any suggestion :) submitted by /u/french_bench [link] [comments]

2 часа назад @ reddit.com
I'm not a Data Engg but a Data Analyst and really need to learn PySpark. Any guidance? :)
I'm not a Data Engg but a Data Analyst and really need to learn PySpark. Any guidance? :)

The header is pretty much it. I recently started working as an analyst and I have been using SQL queries but since the datasets are huge to deal with, I've been advised to learn PySpark to help fasten things up as well as it helps automate some part of my work too. So if anyone could guide me with anything that could help me, I'd be grateful :') Any help (tips/suggestions/YT vids/courses/projects, literally anything you can come up with) is highly appreciated. submitted by /u/my_other_ideantity [link] [comments]

4 часа назад @ reddit.com
SCD type 2 in spark
SCD type 2 in spark

Data lake - S3, ETL - Spark(pyspark), Data warehouse - RDBMS(MySQL) Above is the setup, we have files landing everyday with new inserts and updates on S3. What is the best approach to implement type 2 in the data warehouse tables using spark? Are we missing something as a tool that will enable us? submitted by /u/soujoshi [link] [comments]

4 часа назад @ reddit.com
Sqoop import on Postgres from Dataproc produces java.lang.NoSuchMethodError: org.apache.avro.Schema$Field when trying to output avro
Sqoop import on Postgres from Dataproc produces java.lang.NoSuchMethodError: org.apache.avro.Schema$Field when trying to output avro

Trying to run a sqoop import job on GCP Dataproc to output avro, this produces an error. Text output however generates fine. Here is the command: gcloud dataproc jobs submit hadoop --cluster=sqoop-cluster --region=us-central1 --class=org.apache.sqoop.Sqoop --jars=$libs -- import -Dmapreduce.job.user.classpath.first=true --connect=$JDBC_STR --username=XXX --password=YYYY --driver=org.postgresql.Driver --target-dir=$STAGING_BUCKET/$TABLE --table=$SCHEMA.$TABLE --split-by=id --as-avrodatafile Detailed error: 2021-10-15 15:41:02,492 INFO manager.SqlManager: Executing SQL statement: SELECT t.* FROM public.markets AS t WHERE 1=02021-10-15 15:41:02,567 INFO manager.SqlManager: Executing SQL statem…

5 часов назад @ reddit.com
How to import to RDS database
How to import to RDS database

Hi, i have CSV files in my S3 Bucket which i want to query in my RDS mysql database.How to import csv files into my database? submitted by /u/pineapplesoda1e-3 [link] [comments]

7 часов назад @ reddit.com
Does anyone have resources in setting up a Prefect pipeline to automate R code?
Does anyone have resources in setting up a Prefect pipeline to automate R code?

I can find alot on Python but I am curious about doing exactly the same with R code; can't find too much on line about the topic submitted by /u/Amishjohnthomas [link] [comments]

8 часов назад @ reddit.com
Airflow multi-user install best practice
Airflow multi-user install best practice

I started using Airflow some months ago to replace some SSIS jobs and it worked a treat. Nice and simple, quick, lots of code reuse, and so on. Now more people want in on it, but the install is under my user on Linux. This is a pip install and Postgres db on an Ubuntu on-prem server, not a docker image. The way I see it is I have 3 options: (1) rename my account to something generic like airflow and have everyone use that when they want to make a job, or (2) move, or delete and re-create the airflow install to a system folder, such as /etc/airflow, or /airflow, or /opt/airflow, or some other folder. Or (3) each user has their own Airflow installation on their account, and get the airflow in…

8 часов назад @ reddit.com
Switching to Data Engineer Job roles? | Azure | Study Buddy
Switching to Data Engineer Job roles? | Azure | Study Buddy

Hey Everyone, Anyone trying to transition into Data engineering job roles? I am on the same path, we connect and discuss and learn together. About me : I am working as Informatica Powercenter ETL developer, SQL and little bit unix since 3 and a half years TLDR; looking for study buddy. submitted by /u/Right-Bathroom-5287 [link] [comments]

9 часов назад @ reddit.com
Incremental Replication from MySQL to Snowflake - Experience anyone?
Incremental Replication from MySQL to Snowflake - Experience anyone?

Hi guys, Anyone has to sync a medium sized MySQL database into snowflake (~1 TB) on a daily basis (updates via binlog) and want to share some experience? I am currently involved in examining existing frameworks and honestly, the results are super disappointing in both stability and performance. We are looking at meltano, airbyte (open source) and other data ingestions tools. Also some paid ones like Rivery, Matilion and Stitch. In general it looks like they are either very expensive or super unstable and slow. Had anyone some good experience with other tools? submitted by /u/ixeption [link] [comments]

10 часов назад @ reddit.com
If leetcode is for software engineers, what's it then for data engineers?
If leetcode is for software engineers, what's it then for data engineers?

To get a high tc for software engineers they must grind leetcode extremely, but what is thd counterpart for this for data engineers submitted by /u/izner82 [link] [comments]

11 часов назад @ reddit.com
dbt profiles.yml in Airflow
dbt profiles.yml in Airflow

Hello All- We are using MWAA(Amazon managed airflow) for orchestrating our jobs. I tested out dbt cloud but am opting to go with just running it locally in Airflow. I created a folder called dbt under /dags/ and that has already been configured for CI/CD. I am having trouble conceptualizing how I will have a profiles.yml file (for dbt) with my Redshift secrets in Airflow. By default it looks like dbt puts that in my home directory locally in a .dbt folder as I am not supposed to commit that to our repo. Even if I use something like airflow-dbt instead of BashOperator, it still is not very clear how my connection to Redshift is handled. Any help would be appreciated! submitted by /u/datanoob…

21 час назад @ reddit.com
Storing Data Effectively
Storing Data Effectively

Hey everyone, I'm working on a project at work and me and a coworker are wondering on what the best implementation is: For a simplified example - we have 5 tables in a relational DB that we query to get some metrics. We do this querying in a mix of python and SQL then offload onto a dashboard where we have 15 different metrics to show to our boss. How should we handle how we store these queries? In a view? In a table? In a materialized view? Don't store it - just run the query when you need to Or is there a better implementation/end state that I am missing? Thank you for any help on navigating this. submitted by /u/zxgrad [link] [comments]

22 часа назад @ reddit.com
Community's thoughts on TPC Benchmarking
Community's thoughts on TPC Benchmarking

Do you use TPC benchmarks for evaluating databases and data warehouses? Why or why not? And in general what are your thoughts or processes for evaluating new technologies in this space? submitted by /u/BoiElroy [link] [comments]

1 день назад @ reddit.com
Net promoter score for data teams
Net promoter score for data teams

Data teams are starting to look and work like product teams. The role of a data product manager is becoming more common and data teams are starting to specialize in specific parts of the data infrastructure. The data product now supports many types of stakeholders in the organization. Some of these stakeholders work closely with the data team on a weekly or even daily basis and some stakeholders rarely chat with the data team but are reliant on the data product to achieve their goals. Data teams have faced growing demands, making it harder to understand the different ways stakeholders interact with data. The product teams rely instead on survey tools such as Net Promoter Score to obtain an …

1 день, 3 часа назад @ reddit.com
Towards Data Science Towards Data Science
последний пост 2 часа назад
Benefits of the CatBoost Machine Learning Algorithm
Benefits of the CatBoost Machine Learning Algorithm Benefits of the CatBoost Machine Learning Algorithm

for Data Scientists and ML EngineersContinue reading on Towards Data Science »

2 часа назад @ towardsdatascience.com
Time-Series Forecasting and Causal Analysis in R with Facebook Prophet and Google CausalImpact
Time-Series Forecasting and Causal Analysis in R with Facebook Prophet and Google CausalImpact Time-Series Forecasting and Causal Analysis in R with Facebook Prophet and Google CausalImpact

A study of Montreal’s crime forecasting in conjunction with COVID’s lockdown impactThis article will be part of my annual dive in R; the idea will be to use two R libraries in time-series forecasting and causal inference.I wanted to write an article for a long time, but I never found the time/resources to do it mostly because I was missing a real dataset to do it but guess what year 2020 came to my rescue. During this COVID / lockdown, most of this event’s impact is negative in our society from the economic mortality perspective. Still, I was thinking during Montreal’s lockdown; there is maybe some positive impacts in the population that are not related to the virus spread (more than people…

4 часа назад @ towardsdatascience.com
7 Data Science Myths That We Should Leave Behind in 2021
7 Data Science Myths That We Should Leave Behind in 2021 7 Data Science Myths That We Should Leave Behind in 2021

Busting common wrongful thoughts about the field of data scienceContinue reading on Towards Data Science »

5 часов назад @ towardsdatascience.com
There’s no shame in regular expressions
There’s no shame in regular expressions There’s no shame in regular expressions

Give your ML pipeline a run for its money.You work at a company that claims to use AI or ML to solve a hard problem, when in reality it is a mixture of rules and ML. We’ve all been there, right? I want to show you today that there is no shame in using some good nonsensical rules in many situations, as long as you treat them like you would a ML algorithm.The company that you work at has gathered some domain expertise over the years, which has translated into a bunch of rules used to solve a business problem. Nobody before you has actually taken some time to assess how good these rules are, or how they would compare to any future machine learning solution. It would be sad to throw away all th…

5 часов назад @ towardsdatascience.com
Salami Coffee Grinding
Salami Coffee Grinding Salami Coffee Grinding

Coffee Data ScienceSlicing a grind in timeA salami espresso shot is when you use multiple cups while pulling a shot to examine differences in taste and/or extraction. It is a helpful experiment for understanding how a shot changes in time. I decided to apply the same concept to grinding because I noticed the grind distribution for a few beans differed greatly from 20g of coffee.These results showed a difference in particle distribution from the beginning to end of the grind, and this could potentially explain why distribution methods that function vertically (like WDT) could improve extraction yield versus horizontal distribution techniques (like OCD).All images by authorI used an ice cube …

9 часов назад @ towardsdatascience.com
10 Things You Might Not Know About Wikipedia Library In Python
10 Things You Might Not Know About Wikipedia Library In Python 10 Things You Might Not Know About Wikipedia Library In Python

Fetching data is much simpler with a line of code using Wikipedia API!Continue reading on Towards Data Science »

9 часов назад @ towardsdatascience.com
Clustering Made Easy with PyCaret
Clustering Made Easy with PyCaret Clustering Made Easy with PyCaret

Low-code Machine Learning with a Powerful Python LibraryPhoto by Lucas Hobbs on UnsplashThe content of this article was originally published in my latest book, Simplifying Machine Learning with PyCaret. You can click here to learn more about it.One of the fundamental tasks in unsupervised machine learning is clustering. The goal in this task is to categorize instances of a given dataset in different clusters, based on their common characteristics. Clustering has many practical applications in various fields, including market research, social network analysis, bioinformatics, medicine and others. In this article, we are going to examine a clustering case study by using PyCaret, a Python libr…

9 часов назад @ towardsdatascience.com
Eliminating AI Bias
Eliminating AI Bias Eliminating AI Bias

Identifying AI Bias and knowing how to prevent it from occurring within the AI/ML pipelineContinue reading on Towards Data Science »

10 часов назад @ towardsdatascience.com
Data Splitting for Model Evaluation
Data Splitting for Model Evaluation Data Splitting for Model Evaluation

Time to return to fundamentals. Data splitting, or train-test split, is such a basic concept that we sometimes forgot its importance.Continue reading on Towards Data Science »

18 часов назад @ towardsdatascience.com
Bayes’ Theorem, Clearly Explained with Visualization
Bayes’ Theorem, Clearly Explained with Visualization Bayes’ Theorem, Clearly Explained with Visualization

If you tested positive with COVID, what is the chance that you actually have COVID?Continue reading on Towards Data Science »

18 часов назад @ towardsdatascience.com
MySQL vs Cassandra DB
MySQL vs Cassandra DB MySQL vs Cassandra DB

Another RDBMS and NoSQL showdown…Continue reading on Towards Data Science »

18 часов назад @ towardsdatascience.com
Not Merely Averages: Using Machine Learning to Estimate Heterogeneous Treatment Effects
Not Merely Averages: Using Machine Learning to Estimate Heterogeneous Treatment Effects Not Merely Averages: Using Machine Learning to Estimate Heterogeneous Treatment Effects

Not Merely Averages: Using Machine Learning to Estimate Heterogeneous Treatment Effects (CATE, BLP, GATES, CLAN)How does the causal impact of a policy or program vary across individuals?This blog post provides a practical introduction on how to use generic machine learning inference on heterogeneous treatment effects in experiments as proposed by Chernozhukow, Demirer, Duflo and Férnandez-Val (2020). I wrote this blog post for the statistically minded practitioner who is interested in applying the method in their work. If you want to learn the theory underlying the method, please consult the original paper. The beta version of the GenericML package developed by Welz, Alfons, Demirer and Che…

19 часов назад @ towardsdatascience.com
Multidimensional Scaling (MDS) for Dimensionality Reduction and Data Visualization
Multidimensional Scaling (MDS) for Dimensionality Reduction and Data Visualization Multidimensional Scaling (MDS) for Dimensionality Reduction and Data Visualization

Explaining and reproducing Multidimensional Scaling (MDS) using different distance approaches with python implementationContinue reading on Towards Data Science »

19 часов назад @ towardsdatascience.com
Getting Started with R Shiny
Getting Started with R Shiny Getting Started with R Shiny

Take the first steps towards becoming an R shiny expertContinue reading on Towards Data Science »

19 часов назад @ towardsdatascience.com
MetaClean Automates Peak Quality Assessments
MetaClean Automates Peak Quality Assessments MetaClean Automates Peak Quality Assessments

Leverage machine learning to detect poor quality integrations and save hours assessing peaks manuallySource: AuthorEven the best metabolomics pipelines have a degree of variance, which can cause poor peak integration between samples. This reduces your ability to accurately quantify a metabolite, and usually means that you have to manually check the quality of every peak (of interest).Kelsey Chetnik, Lauren Petrick, and Gaurav Pandey have developed a new framework and R package called MetaClean. This combines eleven peak quality metrics and eight machine learning algorithms to automatically detect poorly integrated peaks.We interviewed Petrick and Pandey about the recent paper in Metabolomic…

19 часов назад @ towardsdatascience.com
Monte Carlo Data Monte Carlo Data
последний пост 5 часов назад
The Future of the Data Engineer
The Future of the Data Engineer

A conversation with Maxime Beauchemin, creator of Apache Airflow and Apache Superset, on the state of data engineering in 2021.

5 часов назад @ montecarlodata.com
Announcing O’Reilly’s Data Quality Fundamentals
Announcing O’Reilly’s Data Quality Fundamentals

In O'Reilly's latest, we share why and how teams can tackle data quality at scale by leveraging best practices and technologies used by some of the world’s most innovative companies.

2 дня, 10 часов назад @ montecarlodata.com
Announcing O’Reilly’s Data Quality Fundamentals
Announcing O’Reilly’s Data Quality Fundamentals

Available today, Data Quality Fundamental's press release chapters dive into how some of the best teams are architecting for data observability.

2 дня, 10 часов назад @ montecarlodata.com
4 Reasons Why I Joined Monte Carlo’s Data Science Team
4 Reasons Why I Joined Monte Carlo’s Data Science Team

Considering joining a data startup? Learn how and why Ryan Kearns turned his Monte Carlo internship into a job.

1 неделя назад @ montecarlodata.com
Monitors as Code: A New Way to Deploy Custom Data Quality Monitors From Your CI/CD Workflow
Monitors as Code: A New Way to Deploy Custom Data Quality Monitors From Your CI/CD Workflow

Monte Carlo releases Monitors as Code. Allowing data engineers to easily configure new data quality monitors as part of their daily workflow.

1 неделя, 1 день назад @ montecarlodata.com
Monte Carlo Announces dbt Integration to Help Companies Achieve Data Observability in ELT
Monte Carlo Announces dbt Integration to Help Companies Achieve Data Observability in ELT

When it comes to achieving data trust, Monte Carlo, the leading data observability platform, and dbt, the data build tool, are better together.

2 недели, 2 дня назад @ montecarlodata.com
Data Observability: Five Quick Ways to Improve the Reliability of Your Data
Data Observability: Five Quick Ways to Improve the Reliability of Your Data

Five common data observability use cases and how they can help your team improve data quality at scale and trust your data faster.

3 недели, 1 день назад @ montecarlodata.com
Bob Muglia, former Snowflake CEO, to Speak at IMPACT, the World’s First Data Observability Summit
Bob Muglia, former Snowflake CEO, to Speak at IMPACT, the World’s First Data Observability Summit

Muglia will join the first Chief Data Scientist of the U.S., the founder of the data mesh, and the creator of Apache Airflow at Monte Carlo's Data Observability summit.

3 недели, 2 дня назад @ montecarlodata.com
Anomaly Detection: Why Your Data Team Is Just Not That Into It
Anomaly Detection: Why Your Data Team Is Just Not That Into It

Delivering reliable data products doesn't have to be so painful. Introducing a more proactive approach to data quality: the Data Reliability lifecycle

1 месяц назад @ montecarlodata.com
Solving Data’s “Last Mile” Problem with Reverse ETL and Data Observability
Solving Data’s “Last Mile” Problem with Reverse ETL and Data Observability

How Reverse ETL and Data Observability can help teams go the extra mile when it comes to trusting your data products.

1 месяц, 1 неделя назад @ montecarlodata.com
Monte Carlo Recognized as a DataOps Leader by G2
Monte Carlo Recognized as a DataOps Leader by G2

Monte Carlo’s Data Observability Platform wins Best Support and Easiest To Do Business With for Summer 2021 by G2, the peer-to-peer review site.

1 месяц, 1 неделя назад @ montecarlodata.com
The Rise of the Data Incident Commander
The Rise of the Data Incident Commander

When your data breaks, who are you gonna call? Your data incident commander!

1 месяц, 2 недели назад @ montecarlodata.com
The Rise of the Data Incident Commander
The Rise of the Data Incident Commander

When your data breaks, who are you gonna call? Your data incident commander!

1 месяц, 2 недели назад @ montecarlodata.com
How Vimeo Jumped into the Future with Monte Carlo
How Vimeo Jumped into the Future with Monte Carlo

Learn why the the data engineering team at Vimeo chose to partner with Monte Carlo for data observability.

1 месяц, 3 недели назад @ montecarlodata.com
How Vimeo Jumped into the Future with Monte Carlo
How Vimeo Jumped into the Future with Monte Carlo

Learn why the the data engineering team at Vimeo chose to partner with Monte Carlo for data observability.

1 месяц, 3 недели назад @ montecarlodata.com
DE Telegram
DataEng DataEng
последний пост 3 дня, 14 часов назад
Вебинар Бесплатный ML Space на базе инструментов Intel oneAPI для всех желающих.У нас отличные новости, инструменты Intel® oneAPI на облачной платформе ML Space стали доступны для физических лиц. Это значит, что любой желающий может бесплатно использовать
Вебинар Бесплатный ML Space на базе инструментов Intel oneAPI для всех желающих.У нас отличные новости, инструменты Intel® oneAPI на облачной платформе ML Space стали доступны для физических лиц. Это значит, что любой желающий может бесплатно использовать Вебинар Бесплатный ML Space на базе инструментов Intel oneAPI для всех желающих.У нас отличные новости, инструменты Intel® oneAPI на облачной платформе ML Space стали доступны для физических лиц. Это значит, что любой желающий может бесплатно использовать

Вебинар Бесплатный ML Space на базе инструментов Intel oneAPI для всех желающих.У нас отличные новости, инструменты Intel® oneAPI на облачной платформе ML Space стали доступны для физических лиц. Это значит, что любой желающий может бесплатно использовать набор программных инструментов для ускорения машинного обучения, анализа данных, разработки ПО.На вебинаре вы узнаете:— подробности об инструментах Intel® oneAPI;— сценарии применения этих инструментов для построения ML-моделей;— как получить бесплатный доступ к инструментам на платформе ML Space.Вебинар будет полезен всем, кто интересуется data science. Регистрируйтесь по ссылке.Вебинар пройдёт — 14 октября 2021, четверг, 12:00*SberCloud …

3 дня, 14 часов назад @ t.me
Ребята из Notion поделились личным опытом шардинга PostgreSQL: https://www.notion.so/blog/sharding-postgres-at-notionШардинг это всегда про компромисс. PostgreSQL из коробки не умеет в шардинг, поэтому зачастую реализация подразумевает участие самого прило
Ребята из Notion поделились личным опытом шардинга PostgreSQL: https://www.notion.so/blog/sharding-postgres-at-notionШардинг это всегда про компромисс. PostgreSQL из коробки не умеет в шардинг, поэтому зачастую реализация подразумевает участие самого прило

Ребята из Notion поделились личным опытом шардинга PostgreSQL: https://www.notion.so/blog/sharding-postgres-at-notionШардинг это всегда про компромисс. PostgreSQL из коробки не умеет в шардинг, поэтому зачастую реализация подразумевает участие самого приложения в распределении данных между шардами. Шардинг это всегда индивидуальный подход для конкретного приложения. Не существует универсального способа реализации шардинга для всех. Индивидуальный подход подразумевает понимание предметной области приложения, моделирования данных и нагрузки.Я не так давно шардировал PostgreSQL с 1 жирной ноды на 32 физических сервера. Безусловно получили колоссальный буст в производительности запросов, клиент…

4 дня, 12 часов назад @ t.me
Прошла небольшая конференция по data engineering — DataEngBytes 2021. Я собрал список наиболее интересных докладов:- What is a Data Mesh - And How Not To Mesh it Up- Data Quality with Great Expectations and Airflow in a Reverse-ETL World- Shift-left testin
Прошла небольшая конференция по data engineering — DataEngBytes 2021. Я собрал список наиболее интересных докладов:- What is a Data Mesh - And How Not To Mesh it Up- Data Quality with Great Expectations and Airflow in a Reverse-ETL World- Shift-left testin

Прошла небольшая конференция по data engineering — DataEngBytes 2021. Я собрал список наиболее интересных докладов:- What is a Data Mesh - And How Not To Mesh it Up- Data Quality with Great Expectations and Airflow in a Reverse-ETL World- Shift-left testing : Building reliable Data Pipelines- Data quality: the key to long term happiness- Reliable data engineering made easy- Data quality: the key to long term happiness- Gone Streaming: dbt+Materialize- Streaming data analytics with Apache FlinkСам ещё не всё посмотрел, список формировал по привлекательности названия докладов 😁 Учтите, что среди докладчиков есть представители data-компаний (Databricks, Materialize, Monte Carlo Data и т.д.), т…

5 дней, 8 часов назад @ t.me
Интересный keynote от создателя Apache Airflow про тренды в области data engineering: https://www.youtube.com/watch?v=se6O5wFXEXwТакже Макс вскользь упоминает 2 своих статьи:— The Rise of the Data Engineer https://www.freecodecamp.org/news/the-rise-of-the-
Интересный keynote от создателя Apache Airflow про тренды в области data engineering: https://www.youtube.com/watch?v=se6O5wFXEXwТакже Макс вскользь упоминает 2 своих статьи:— The Rise of the Data Engineer https://www.freecodecamp.org/news/the-rise-of-the-

Интересный keynote от создателя Apache Airflow про тренды в области data engineering: https://www.youtube.com/watch?v=se6O5wFXEXwТакже Макс вскользь упоминает 2 своих статьи:— The Rise of the Data Engineer https://www.freecodecamp.org/news/the-rise-of-the-data-engineer-91be18f1e603/— The Downfall of the Data Engineer https://maximebeauchemin.medium.com/the-downfall-of-the-data-engineer-5bfb701e5d6bСмотреть удобно на скорости ×1.25, ×1.5

5 дней, 15 часов назад @ t.me
Программа конференции для дата-инженеров SmartData 2021 готова! Начинаем уже 11 октября 💣Вас будут ждать 4 дня, 33 доклада и 2 воркшопа, которые помогут пополнить арсенал инструментов, узнать о лучших практиках и сориентироваться в трендовых технологиях.Те
Программа конференции для дата-инженеров SmartData 2021 готова! Начинаем уже 11 октября 💣Вас будут ждать 4 дня, 33 доклада и 2 воркшопа, которые помогут пополнить арсенал инструментов, узнать о лучших практиках и сориентироваться в трендовых технологиях.Те Программа конференции для дата-инженеров SmartData 2021 готова! Начинаем уже 11 октября 💣Вас будут ждать 4 дня, 33 доклада и 2 воркшопа, которые помогут пополнить арсенал инструментов, узнать о лучших практиках и сориентироваться в трендовых технологиях.Те

Программа конференции для дата-инженеров SmartData 2021 готова! Начинаем уже 11 октября 💣Вас будут ждать 4 дня, 33 доклада и 2 воркшопа, которые помогут пополнить арсенал инструментов, узнать о лучших практиках и сориентироваться в трендовых технологиях.Темы конференции:✔️ Tooling: все об инструментах, которые используют в дата-инжиниринге;✔️ Spark: штука настолько востребованная, что о ней будет сразу три доклада;✔️ Processes: как организовать работу и процессы в команде;✔️ Storage: базы данных, SQL-движки и многое другое;✔️ Architecture: доклады об архитектуре и опыте работы с ней разных команд;✔️ Industry usecases: реальный опыт, боль, успехи и провалы коллег.Кроме докладов и воркшопов, …

1 неделя, 1 день назад @ t.me
Вышел Python 3.10: https://www.python.org/downloads/release/python-3100/В языке появился паттерн-матчинг, которого мне не хватало и который я подсмотрел в своё время в языке Scala. Помимо этой фичи есть и куча других с которыми можно ознакомиться по ссылке
Вышел Python 3.10: https://www.python.org/downloads/release/python-3100/В языке появился паттерн-матчинг, которого мне не хватало и который я подсмотрел в своё время в языке Scala. Помимо этой фичи есть и куча других с которыми можно ознакомиться по ссылке

Вышел Python 3.10: https://www.python.org/downloads/release/python-3100/В языке появился паттерн-матчинг, которого мне не хватало и который я подсмотрел в своё время в языке Scala. Помимо этой фичи есть и куча других с которыми можно ознакомиться по ссылке выше.Ребята из JetBrains подсуетились и выпустили небольшое видео про новшества языка: https://www.youtube.com/watch?v=JteTO3EE7y0

1 неделя, 3 дня назад @ t.me
Бесплатный вебинар «Vertica 11: Новая версия - новые возможности»⏰ 6 октября 2021 года Познакомьтесь с богатым функционалом новой версии аналитической платформы Vertica:📌 работа с ORC-форматом (включая экспорт данных в ORC и поддержку сложных типов данных)
Бесплатный вебинар «Vertica 11: Новая версия - новые возможности»⏰ 6 октября 2021 года Познакомьтесь с богатым функционалом новой версии аналитической платформы Vertica:📌 работа с ORC-форматом (включая экспорт данных в ORC и поддержку сложных типов данных) Бесплатный вебинар «Vertica 11: Новая версия - новые возможности»⏰ 6 октября 2021 года Познакомьтесь с богатым функционалом новой версии аналитической платформы Vertica:📌 работа с ORC-форматом (включая экспорт данных в ORC и поддержку сложных типов данных)

Бесплатный вебинар «Vertica 11: Новая версия - новые возможности»⏰ 6 октября 2021 года Познакомьтесь с богатым функционалом новой версии аналитической платформы Vertica:📌 работа с ORC-форматом (включая экспорт данных в ORC и поддержку сложных типов данных);📌 поддержка сложных типов данных в JDBC-клиенте;📌 партиционированные проекции;📌 резервное копирование и восстановление в Azure;📌 поддержка резервного копирования кластеров Eon с коммунальным хранилищем на Hadoop;📌 множество улучшений в части шифрования подключений и соединений;📌 поддержка развертывания Vertica Eon в инфраструктуре Kubernetes. 🤵 Ведущий — Александр Скоробогатов, архитектор решений Vertica в России и СНГ.🤝 Присоединяйтесь! …

2 недели назад @ t.me
Друзья, мы опубликовали видео с прошедшего митапа DE or DIE #8. Все доступно по ссылке: https://deordie.org/meetups/08/Также, на https://deordie.org/ вы можете найти материалы с наших прошлых митапов, и ссылки на другие проекты: дайджест статей и подкаст.
Друзья, мы опубликовали видео с прошедшего митапа DE or DIE #8. Все доступно по ссылке: https://deordie.org/meetups/08/Также, на https://deordie.org/ вы можете найти материалы с наших прошлых митапов, и ссылки на другие проекты: дайджест статей и подкаст.

Друзья, мы опубликовали видео с прошедшего митапа DE or DIE #8. Все доступно по ссылке: https://deordie.org/meetups/08/Также, на https://deordie.org/ вы можете найти материалы с наших прошлых митапов, и ссылки на другие проекты: дайджест статей и подкаст.

2 недели, 4 дня назад @ t.me
​​Если вы работаете с разнородными данными, поступающими из разных источников, и хотите ускорить свою работу, то этот вебинар для вас.Подключайтесь 21 сентября в 11:00 к эфиру, где эксперт SberCloud расскажет, как пользоваться сервисом Data Lake Insight и
​​Если вы работаете с разнородными данными, поступающими из разных источников, и хотите ускорить свою работу, то этот вебинар для вас.Подключайтесь 21 сентября в 11:00 к эфиру, где эксперт SberCloud расскажет, как пользоваться сервисом Data Lake Insight и

​​Если вы работаете с разнородными данными, поступающими из разных источников, и хотите ускорить свою работу, то этот вебинар для вас.Подключайтесь 21 сентября в 11:00 к эфиру, где эксперт SberCloud расскажет, как пользоваться сервисом Data Lake Insight и как одним SQL-запросом обработать данные, расположенные в разных системах, без предварительной загрузки этих данных в какое-либо единое хранилище.Ждём Data-инженеров, аналитиков, DevOps-инженеров и администраторов.Регистрация на вебинар по ссылке.

3 недели, 4 дня назад @ t.me
SQLpedia - канал про SQL и базы данных, в котором вы найдете:— Возможность предложить нам статью для перевода;— Полезные видео;— Интересные опросы;— Профессиональный юмор;Присоединяйтесь, давайте расти как профессионалы вместе 😉Подписаться: @sql_wiki
SQLpedia - канал про SQL и базы данных, в котором вы найдете:— Возможность предложить нам статью для перевода;— Полезные видео;— Интересные опросы;— Профессиональный юмор;Присоединяйтесь, давайте расти как профессионалы вместе 😉Подписаться: @sql_wiki SQLpedia - канал про SQL и базы данных, в котором вы найдете:— Возможность предложить нам статью для перевода;— Полезные видео;— Интересные опросы;— Профессиональный юмор;Присоединяйтесь, давайте расти как профессионалы вместе 😉Подписаться: @sql_wiki

SQLpedia - канал про SQL и базы данных, в котором вы найдете:— Возможность предложить нам статью для перевода;— Полезные видео;— Интересные опросы;— Профессиональный юмор;Присоединяйтесь, давайте расти как профессионалы вместе 😉Подписаться: @sql_wiki

4 недели, 1 день назад @ t.me
Выпустил августовский выпуск https://blog.jetbrains.com/big-data-tools/2021/09/06/data-engineering-annotated-monthly-august-2021/
Выпустил августовский выпуск https://blog.jetbrains.com/big-data-tools/2021/09/06/data-engineering-annotated-monthly-august-2021/

Выпустил августовский выпуск https://blog.jetbrains.com/big-data-tools/2021/09/06/data-engineering-annotated-monthly-august-2021/

1 месяц, 1 неделя назад @ t.me
Ещё раз про data mesh: https://www.montecarlodata.com/decoding-the-data-mesh/
Ещё раз про data mesh: https://www.montecarlodata.com/decoding-the-data-mesh/

Ещё раз про data mesh: https://www.montecarlodata.com/decoding-the-data-mesh/

1 месяц, 1 неделя назад @ t.me
Хотите пилить расширения для PostgreSQL на Rust? Оно у нас есть: https://tech.marksblogg.com/postgresql-extension-rust.html
Хотите пилить расширения для PostgreSQL на Rust? Оно у нас есть: https://tech.marksblogg.com/postgresql-extension-rust.html

Хотите пилить расширения для PostgreSQL на Rust? Оно у нас есть: https://tech.marksblogg.com/postgresql-extension-rust.html

1 месяц, 2 недели назад @ t.me
Не рекламы ради, а помощи сообществу для. 26 августа в 18:00 компания ITOne вместе с JUG Ru Group проведет бесплатный онлайн митап по Big Data и Java.На «ITOne Meet Up: Java and Big Data» эксперты будут говорить о технологиях, инструментах, методах и много
Не рекламы ради, а помощи сообществу для. 26 августа в 18:00 компания ITOne вместе с JUG Ru Group проведет бесплатный онлайн митап по Big Data и Java.На «ITOne Meet Up: Java and Big Data» эксперты будут говорить о технологиях, инструментах, методах и много Не рекламы ради, а помощи сообществу для. 26 августа в 18:00 компания ITOne вместе с JUG Ru Group проведет бесплатный онлайн митап по Big Data и Java.На «ITOne Meet Up: Java and Big Data» эксперты будут говорить о технологиях, инструментах, методах и много

Не рекламы ради, а помощи сообществу для. 26 августа в 18:00 компания ITOne вместе с JUG Ru Group проведет бесплатный онлайн митап по Big Data и Java.На «ITOne Meet Up: Java and Big Data» эксперты будут говорить о технологиях, инструментах, методах и многом другом, чем живут дата-специалисты.В программе:— Максим Стаценко, «Обзор технологий хранения больших данных. Плюсы, минусы, кому подойдет»;— Вадим Опольский, «Apache Flink vs Свой Java Код. Для приземления данных из Kafka»;— Круглый стол c Максимом Юнусовым, Вадимом Опольским и Максимом Стаценко, на котором спикеры обсудят системы хранения данных, архитектуры и разные подходы к работе с Big Data.А еще вас будет ждать дискуссионная зона и…

1 месяц, 3 недели назад @ t.me
юмор дата инженеров 😁
юмор дата инженеров 😁 юмор дата инженеров 😁

юмор дата инженеров 😁

1 месяц, 3 недели назад @ t.me
Инжиниринг Данных Инжиниринг Данных
последний пост 5 часов назад
Недавно я общался про дата инженера и Спарк, и меня спросили знаю ли я разницу между multithreading and multiprocessing? А я вот не знаю. Но гугл наверно это услышал и подсунул мне вот такую новость в рекомендации:https://towardsdatascience.com/multithread
Недавно я общался про дата инженера и Спарк, и меня спросили знаю ли я разницу между multithreading and multiprocessing? А я вот не знаю. Но гугл наверно это услышал и подсунул мне вот такую новость в рекомендации:https://towardsdatascience.com/multithread

Недавно я общался про дата инженера и Спарк, и меня спросили знаю ли я разницу между multithreading and multiprocessing? А я вот не знаю. Но гугл наверно это услышал и подсунул мне вот такую новость в рекомендации:https://towardsdatascience.com/multithreading-vs-multiprocessing-in-python-3afeb73e105f

5 часов назад @ t.me
Очень часто существуют препятствия между аналитиками BI, дата инженерами и бизнес пользователями. Как вы решаете такие проблемы?Для меня как минимум:1) Документация проектов (автоматическая! - business data catalog)2) Еженедельные office hours3) Ежеквартал
Очень часто существуют препятствия между аналитиками BI, дата инженерами и бизнес пользователями. Как вы решаете такие проблемы?Для меня как минимум:1) Документация проектов (автоматическая! - business data catalog)2) Еженедельные office hours3) Ежеквартал Очень часто существуют препятствия между аналитиками BI, дата инженерами и бизнес пользователями. Как вы решаете такие проблемы?Для меня как минимум:1) Документация проектов (автоматическая! - business data catalog)2) Еженедельные office hours3) Ежеквартал

Очень часто существуют препятствия между аналитиками BI, дата инженерами и бизнес пользователями. Как вы решаете такие проблемы?Для меня как минимум:1) Документация проектов (автоматическая! - business data catalog)2) Еженедельные office hours3) Ежеквартальные опросы (BI survey как в модуле 3 data learn)4) Onboarding материалы (лабы, туториалы и видео)Именно этим сейчас и занимаюсь.

8 часов назад @ t.me
Все приветики! Накидайте плиз материалы по домашнему обучению детей? А то вдруг путешествовать захотим или еще чего🤪
Все приветики! Накидайте плиз материалы по домашнему обучению детей? А то вдруг путешествовать захотим или еще чего🤪

Все приветики! Накидайте плиз материалы по домашнему обучению детей? А то вдруг путешествовать захотим или еще чего🤪

19 часов назад @ t.me
🔥🔥🔥Давайте поприветствуем подписчика #10000 !!!🎊🎉Дорогой друг, @kender_T ты как нас нашел?🤗С ноября 2018 года прошло 3 года почти. Изначально я создал канал для лабы под Snowflake+Tableau workshop на 1м матемаркетинге. Ещё тогда про snowflake никто не знал
🔥🔥🔥Давайте поприветствуем подписчика #10000 !!!🎊🎉Дорогой друг, @kender_T ты как нас нашел?🤗С ноября 2018 года прошло 3 года почти. Изначально я создал канал для лабы под Snowflake+Tableau workshop на 1м матемаркетинге. Ещё тогда про snowflake никто не знал

🔥🔥🔥Давайте поприветствуем подписчика #10000 !!!🎊🎉Дорогой друг, @kender_T ты как нас нашел?🤗С ноября 2018 года прошло 3 года почти. Изначально я создал канал для лабы под Snowflake+Tableau workshop на 1м матемаркетинге. Ещё тогда про snowflake никто не знал даже в Канаде. А теперь, у всех по снежинке)))

22 часа назад @ t.me
Не думайте, что это только вы обманщик, и у вас симптом самозванца. На другой стороне тоже не пушистые зайчики😵
Не думайте, что это только вы обманщик, и у вас симптом самозванца. На другой стороне тоже не пушистые зайчики😵 Не думайте, что это только вы обманщик, и у вас симптом самозванца. На другой стороне тоже не пушистые зайчики😵

Не думайте, что это только вы обманщик, и у вас симптом самозванца. На другой стороне тоже не пушистые зайчики😵

1 день, 8 часов назад @ t.me
Слышали вы про Shopify? Это такой конструктор интернет магазинов, где есть куча интеграцией. Можно продавать свои продукты, а можно делать drop shipping. Я сам создавал интернет магазины на Wix, WordPress и Shopify. Последний самый дорогой, но и самый прия
Слышали вы про Shopify? Это такой конструктор интернет магазинов, где есть куча интеграцией. Можно продавать свои продукты, а можно делать drop shipping. Я сам создавал интернет магазины на Wix, WordPress и Shopify. Последний самый дорогой, но и самый прия

Слышали вы про Shopify? Это такой конструктор интернет магазинов, где есть куча интеграцией. Можно продавать свои продукты, а можно делать drop shipping. Я сам создавал интернет магазины на Wix, WordPress и Shopify. Последний самый дорогой, но и самый приятный. Сегодня увидел новость про появление Enterprise решений в маркетплейс. То есть это уже другой уровень магазинов и сразу подумал, что им не хватает там приложения data warehouse as a service. То есть пару кликов, и у вас готовые отчёты по вашим данным, и ваши данные живут в моей Redshift или Snowflake. Идея очень старая, и многие продукты так и работают. Но может быть кто-нибудь хочет со мной сделать плагин? Я вот только не по плагина…

1 день, 9 часов назад @ t.me
#dataengineering
#dataengineering #dataengineering

#dataengineering

1 день, 21 час назад @ t.me
AWS SageMaker становится все популярнее для задач production ML или простого data science. https://towardsdatascience.com/industrializing-an-ml-platform-with-amazon-sagemaker-studio-91b597802afe
AWS SageMaker становится все популярнее для задач production ML или простого data science. https://towardsdatascience.com/industrializing-an-ml-platform-with-amazon-sagemaker-studio-91b597802afe

AWS SageMaker становится все популярнее для задач production ML или простого data science. https://towardsdatascience.com/industrializing-an-ml-platform-with-amazon-sagemaker-studio-91b597802afe

1 день, 22 часа назад @ t.me
У всех одинаковые возможность, но не все ими пользуются. Это я к чему? Хотел рассказать про недавний случай из Data Learn. В 3м модуле у нас есть выпускное задание от Романа Бунина, одного из ТОП экспертов по визуализации и Табло в России, у него еще есть
У всех одинаковые возможность, но не все ими пользуются. Это я к чему? Хотел рассказать про недавний случай из Data Learn. В 3м модуле у нас есть выпускное задание от Романа Бунина, одного из ТОП экспертов по визуализации и Табло в России, у него еще есть

У всех одинаковые возможность, но не все ими пользуются. Это я к чему? Хотел рассказать про недавний случай из Data Learn. В 3м модуле у нас есть выпускное задание от Романа Бунина, одного из ТОП экспертов по визуализации и Табло в России, у него еще есть отличный канал Reveal The Data, где он, в отличие от меня не спамит читателей так часто😜Хочу показать пример выполнения задания и фидбек от Романа.1. Задание: Использовать данные Airbnb UK и построить дашборд в Табло, с инсайтами, конечно и удобным интефейсом.2. Решение:Андрей Созинов создал такой дашборд - https://public.tableau.com/views/airbnb_16332740965890/Dashboard3. Фидбек от Романа:Супер молодец, что сделал задание! Кайф.Что можно …

2 дня, 4 часа назад @ t.me
Возможно вам понадобится использовать Scala для вашего аналитического решения. Скорей всего вы будете использовать Apache Spark. Вот вам необходимые ресурсы, что подтянуть знания:1. Курс Big Data Analysis with Scala and Spark (бесплатно на курсере)2. Главн
Возможно вам понадобится использовать Scala для вашего аналитического решения. Скорей всего вы будете использовать Apache Spark. Вот вам необходимые ресурсы, что подтянуть знания:1. Курс Big Data Analysis with Scala and Spark (бесплатно на курсере)2. Главн

Возможно вам понадобится использовать Scala для вашего аналитического решения. Скорей всего вы будете использовать Apache Spark. Вот вам необходимые ресурсы, что подтянуть знания:1. Курс Big Data Analysis with Scala and Spark (бесплатно на курсере)2. Главный ресурс на гитхабе про Scala для Spark - Just Enough Scala for Spark3. Еще один курс от Dean Wampler - Apache Spark Scala Tutorial4. Databricks курс в их GitHub - Just Enough Scala for Spark5. [Russian Speaking] Scala User Group6. Телеграм чат @apache_sparkВсе бесплатно и от лучших в индустрии.

2 дня, 6 часов назад @ t.me
Картинка, которую мы заслужили?))
Картинка, которую мы заслужили?)) Картинка, которую мы заслужили?))

Картинка, которую мы заслужили?))

2 дня, 17 часов назад @ t.me
Прособеседуйте команду рекламных продуктов Яндекса13 октября Яндекс проведёт онлайн-встречу Adtech, на которой вам попробуют доказать, что реклама — это прежде всего продукт, который состоит из сложных технологий, интересных задач и вызовов.Приходите общат
Прособеседуйте команду рекламных продуктов Яндекса13 октября Яндекс проведёт онлайн-встречу Adtech, на которой вам попробуют доказать, что реклама — это прежде всего продукт, который состоит из сложных технологий, интересных задач и вызовов.Приходите общат

Прособеседуйте команду рекламных продуктов Яндекса13 октября Яндекс проведёт онлайн-встречу Adtech, на которой вам попробуют доказать, что реклама — это прежде всего продукт, который состоит из сложных технологий, интересных задач и вызовов.Приходите общаться с топовыми спикерами из продуктовых команд Яндекса: - Руководителем рекламных продуктов Верой Лейзерович- Руководителем нового рантайма и больших данных Алексеем Шлюнкиным- Руководителем отдела качества рекламы Алексеем Штоколовым - Руководителем службы конкурентного и бизнес-анализа Сергеем ЛинeвымЕсли вы захотите присоединиться к команде, то 23 и 24 октября в Яндексе проведут Fast Track — онлайн-встречу, на которой можно будет пройти…

3 дня, 5 часов назад @ t.me
Новый перевод для вас: Apache Airflow и будущее инжиниринга данных: вопрос и ответы (В этом посте представлен перевод статьи на Medium от Maxime Beauchemin и Taylor D. Edmiston.)Автор русской версии: Владимир Метенев, работает аналитиком в Belkacar. Пару л
Новый перевод для вас: Apache Airflow и будущее инжиниринга данных: вопрос и ответы (В этом посте представлен перевод статьи на Medium от Maxime Beauchemin и Taylor D. Edmiston.)Автор русской версии: Владимир Метенев, работает аналитиком в Belkacar. Пару л

Новый перевод для вас: Apache Airflow и будущее инжиниринга данных: вопрос и ответы (В этом посте представлен перевод статьи на Medium от Maxime Beauchemin и Taylor D. Edmiston.)Автор русской версии: Владимир Метенев, работает аналитиком в Belkacar. Пару лет назад перешел в сферу анализа данных и DS.

3 дня, 6 часов назад @ t.me
Если вы используете Juputer Notebooks, то вам будет интересно почитать про движки рендеринга для ваших ноутбуков - nbconvert и Voilàhttps://blog.jupyter.org/looking-at-notebooks-from-a-new-perspective-bfd06797f188
Если вы используете Juputer Notebooks, то вам будет интересно почитать про движки рендеринга для ваших ноутбуков - nbconvert и Voilàhttps://blog.jupyter.org/looking-at-notebooks-from-a-new-perspective-bfd06797f188 Если вы используете Juputer Notebooks, то вам будет интересно почитать про движки рендеринга для ваших ноутбуков - nbconvert и Voilàhttps://blog.jupyter.org/looking-at-notebooks-from-a-new-perspective-bfd06797f188

Если вы используете Juputer Notebooks, то вам будет интересно почитать про движки рендеринга для ваших ноутбуков - nbconvert и Voilàhttps://blog.jupyter.org/looking-at-notebooks-from-a-new-perspective-bfd06797f188

3 дня, 19 часов назад @ t.me
Новости из мира Spark:1) Databricks в Spark 3.2 анонсировал Pandas API. Раньше для этого мы использовали Koalas, а теперь можно from pyspark.pandas import read_csv2) PayPal рассказал о новой библиотеке - Dione - an indexing Library for data on HDFS and Sp
Новости из мира Spark:1) Databricks в Spark 3.2 анонсировал Pandas API. Раньше для этого мы использовали Koalas, а теперь можно from pyspark.pandas import read_csv2) PayPal рассказал о новой библиотеке - Dione - an indexing Library for data on HDFS and Sp

Новости из мира Spark:1) Databricks в Spark 3.2 анонсировал Pandas API. Раньше для этого мы использовали Koalas, а теперь можно from pyspark.pandas import read_csv2) PayPal рассказал о новой библиотеке - Dione - an indexing Library for data on HDFS and Spark.

3 дня, 19 часов назад @ t.me
Left Join Left Join
последний пост 5 часов назад
Squid Game retention rate на d3.jsНичего особенного, просто собрал retention rate «Игры в кальмара» на d3.js. Осторожно: спойлеры! 🍿🍿🍿
Squid Game retention rate на d3.jsНичего особенного, просто собрал retention rate «Игры в кальмара» на d3.js. Осторожно: спойлеры! 🍿🍿🍿 Squid Game retention rate на d3.jsНичего особенного, просто собрал retention rate «Игры в кальмара» на d3.js. Осторожно: спойлеры! 🍿🍿🍿

Squid Game retention rate на d3.jsНичего особенного, просто собрал retention rate «Игры в кальмара» на d3.js. Осторожно: спойлеры! 🍿🍿🍿

5 часов назад @ t.me
Эфир с Алексеем КолоколовымНе успел вчера сделать доклад на SmartData, как в субботу иду на прямой эфир в Инстаграме к Алексею Колоколову. Поговорим о жизни, проектах, карьере, аналитике и немного обо мне.Алексей — тренер, основатель Института бизнес-анали
Эфир с Алексеем КолоколовымНе успел вчера сделать доклад на SmartData, как в субботу иду на прямой эфир в Инстаграме к Алексею Колоколову. Поговорим о жизни, проектах, карьере, аналитике и немного обо мне.Алексей — тренер, основатель Института бизнес-анали

Эфир с Алексеем КолоколовымНе успел вчера сделать доклад на SmartData, как в субботу иду на прямой эфир в Инстаграме к Алексею Колоколову. Поговорим о жизни, проектах, карьере, аналитике и немного обо мне.Алексей — тренер, основатель Института бизнес-аналитики и сообщества «Клуб анонимных аналитиков», автор книги «Дашборд для директора». Подключайтесь в субботу, 16 октября, в 12.00, будет интересно. Я уже рассказывал об этом у себя в инстаграме (подпишитесь, чтобы не пропустить), а эфир будет совместно с аккаунтом инстаграма Алексея.

6 часов назад @ t.me
#fridaymeme
#fridaymeme #fridaymeme

#fridaymeme

13 часов назад @ t.me
Туториал от Databricks по использованию Apache Spark на Databricks.#ссылка
Туториал от Databricks по использованию Apache Spark на Databricks.#ссылка

Туториал от Databricks по использованию Apache Spark на Databricks.#ссылка

1 день, 11 часов назад @ t.me
Немного о моем сегодняшнем выступлении на SmartData: хорошая новость, оно будет доступно бесплатно всем желающим 🤓 Как посмотреть выступление? 1. Для просмотра нужно зарегистрироваться на сайте конференции, выбрав вариант билета COMMUNITY DAY.2. Затем в 20
Немного о моем сегодняшнем выступлении на SmartData: хорошая новость, оно будет доступно бесплатно всем желающим 🤓 Как посмотреть выступление? 1. Для просмотра нужно зарегистрироваться на сайте конференции, выбрав вариант билета COMMUNITY DAY.2. Затем в 20

Немного о моем сегодняшнем выступлении на SmartData: хорошая новость, оно будет доступно бесплатно всем желающим 🤓 Как посмотреть выступление? 1. Для просмотра нужно зарегистрироваться на сайте конференции, выбрав вариант билета COMMUNITY DAY.2. Затем в 20:00 перейти на сайт трансляции и запустить ее. 3.🍿🍿🍿

1 день, 15 часов назад @ t.me
Продолжу делится информацией о датавизе: техника визуализации данных о текстовых кластерах и классный интерактивный пример на d3.js (пощелкайте там справа в селекторе Order)#dataviz
Продолжу делится информацией о датавизе: техника визуализации данных о текстовых кластерах и классный интерактивный пример на d3.js (пощелкайте там справа в селекторе Order)#dataviz

Продолжу делится информацией о датавизе: техника визуализации данных о текстовых кластерах и классный интерактивный пример на d3.js (пощелкайте там справа в селекторе Order)#dataviz

3 дня, 12 часов назад @ t.me
🎧 В последнем выпуске Data Engineering подкаста автор MetriQL (про которую я недавно писал) рассказывает про идею созданию и про концепцию взаимодействия с разными сторонними BI-инструментами.#podcast
🎧 В последнем выпуске Data Engineering подкаста автор MetriQL (про которую я недавно писал) рассказывает про идею созданию и про концепцию взаимодействия с разными сторонними BI-инструментами.#podcast

🎧 В последнем выпуске Data Engineering подкаста автор MetriQL (про которую я недавно писал) рассказывает про идею созданию и про концепцию взаимодействия с разными сторонними BI-инструментами.#podcast

4 дня, 11 часов назад @ t.me
Офигенная работа с текстом и визуализацией информации: разбор структуры стенда-апа и причины продолжительного смеха над шуткой, очень круто сделано 😍 #визуализация
Офигенная работа с текстом и визуализацией информации: разбор структуры стенда-апа и причины продолжительного смеха над шуткой, очень круто сделано 😍 #визуализация

Офигенная работа с текстом и визуализацией информации: разбор структуры стенда-апа и причины продолжительного смеха над шуткой, очень круто сделано 😍 #визуализация

1 неделя назад @ t.me
Как и для чего экспортировать красивые отчеты из Jupyter Notebook в PDF? 📗 Мы недавно проводили опрос в канале и выяснили, что многие только начинают свой путь в аналитику. Сегодняшний пост будет полезен, ведь мы расскажем об одном из самых важных навыков
Как и для чего экспортировать красивые отчеты из Jupyter Notebook в PDF? 📗 Мы недавно проводили опрос в канале и выяснили, что многие только начинают свой путь в аналитику. Сегодняшний пост будет полезен, ведь мы расскажем об одном из самых важных навыков

Как и для чего экспортировать красивые отчеты из Jupyter Notebook в PDF? 📗 Мы недавно проводили опрос в канале и выяснили, что многие только начинают свой путь в аналитику. Сегодняшний пост будет полезен, ведь мы расскажем об одном из самых важных навыков аналитика — формировании красивого отчета о проделанной работе. Если вы специалист по анализу данных и вам нужно представить отчет для заказчика, если вы ищете работу и не знаете, как лучше всего оформить тестовое задание, если у вас есть учебные проекты, связанные с аналитикой и визуализацией данных, то скорее читайте дальше. Часто заказчику смотреть на ваши результаты аналтики в Jupyter Notebook бывает проблематично, ведь важная информац…

1 неделя назад @ t.me
Пятнично об R, so true 😅
Пятнично об R, so true 😅 Пятнично об R, so true 😅

Пятнично об R, so true 😅

1 неделя назад @ t.me
Питер едет на Матемаркетинг! Матемаркетинг собирает спикеров со всего мира, и жители Северной столицы не остаются в стороне. Со спикерами, которые приедут в Москву, можно будет встретиться в оффлайне уже 18 ноября и послушать их доклады. Вот некоторые из н
Питер едет на Матемаркетинг! Матемаркетинг собирает спикеров со всего мира, и жители Северной столицы не остаются в стороне. Со спикерами, которые приедут в Москву, можно будет встретиться в оффлайне уже 18 ноября и послушать их доклады. Вот некоторые из н

Питер едет на Матемаркетинг! Матемаркетинг собирает спикеров со всего мира, и жители Северной столицы не остаются в стороне. Со спикерами, которые приедут в Москву, можно будет встретиться в оффлайне уже 18 ноября и послушать их доклады. Вот некоторые из них:Николай Валиотти, основатель и главный аналитик Valiotti Analytics - Этапы проектирования BI-платформы, которая позволяет строить отчеты и получать данные специалистам без знания SQL Михаил Алексеев, Okko - Эксперименты на нескольких платформах: как принимать решение, когда метрики расходятся Рома Осокин, OHM - Изменения в ключевых рекламных системах и типах кампаний после выхода iOS 14+ & SKAD Network, следующий вызов от Google и как п…

1 неделя, 1 день назад @ t.me
И еще анонсы на ноябрь, раньше с Ромой работали за соседним столом, а теперь вот выступаем 😎
И еще анонсы на ноябрь, раньше с Ромой работали за соседним столом, а теперь вот выступаем 😎

И еще анонсы на ноябрь, раньше с Ромой работали за соседним столом, а теперь вот выступаем 😎

1 неделя, 1 день назад @ t.me
Довольно старенький пост, но симпатично. Интуитивно понятное интерактивное объяснение принципа работы метода к-средних для кластеризации с использованием d3.js. #визуализация
Довольно старенький пост, но симпатично. Интуитивно понятное интерактивное объяснение принципа работы метода к-средних для кластеризации с использованием d3.js. #визуализация

Довольно старенький пост, но симпатично. Интуитивно понятное интерактивное объяснение принципа работы метода к-средних для кластеризации с использованием d3.js. #визуализация

1 неделя, 1 день назад @ t.me
Одной из основных тенденций в бизнес-аналитике становится использование решений класса Self-service BI. Николай Валиотти на SmartData 2021 покажет, как создается Self-service BI на примере датасета магазина электронной коммерции. Николай расскажет о систем
Одной из основных тенденций в бизнес-аналитике становится использование решений класса Self-service BI. Николай Валиотти на SmartData 2021 покажет, как создается Self-service BI на примере датасета магазина электронной коммерции. Николай расскажет о систем Одной из основных тенденций в бизнес-аналитике становится использование решений класса Self-service BI. Николай Валиотти на SmartData 2021 покажет, как создается Self-service BI на примере датасета магазина электронной коммерции. Николай расскажет о систем

Одной из основных тенденций в бизнес-аналитике становится использование решений класса Self-service BI. Николай Валиотти на SmartData 2021 покажет, как создается Self-service BI на примере датасета магазина электронной коммерции. Николай расскажет о системе контроля версий для построения модели данных, рассмотрит лучшие практики и представит инструмент Looker. Рекомендуем доклад всем, кто хочет развивать self-service подход в своей компании. Подробности и билеты: https://vk.cc/c6F0fX

1 неделя, 1 день назад @ t.me
Начинается горячая пора осенних конференций и митапов, открываю свое турне петербургским SmartData — конференцией для дата инженеров. Поговорим о self-service подходе и, надеюсь, живо подискутируем. У ребят насыщенная четырехдневная программа, довольно выс
Начинается горячая пора осенних конференций и митапов, открываю свое турне петербургским SmartData — конференцией для дата инженеров. Поговорим о self-service подходе и, надеюсь, живо подискутируем. У ребят насыщенная четырехдневная программа, довольно выс

Начинается горячая пора осенних конференций и митапов, открываю свое турне петербургским SmartData — конференцией для дата инженеров. Поговорим о self-service подходе и, надеюсь, живо подискутируем. У ребят насыщенная четырехдневная программа, довольно высокие требования к докладам по теме (чего только стоят подготовительные дискуссии с легендарным своей ежемесячной рассылкой Jet Brains Data Engineering Пашей Финкельштейном), поэтому должно быть интересно. Конференция пройдет онлайн, но я буду выступать из студии 🎙See ya!

1 неделя, 1 день назад @ t.me
SQLite на практике SQLite на практике
последний пост 3 дня, 10 часов назад
Мат. статистика в SQLiteИз коробки SQLite поддерживает только min(), max() и avg(). Но с помощью расширения stats легко посчитать медиану, моду, процентили и стандартное отклонение:select median(num_pages), mode(num_pages), percentile_90(num_pages), pe
Мат. статистика в SQLiteИз коробки SQLite поддерживает только min(), max() и avg(). Но с помощью расширения stats легко посчитать медиану, моду, процентили и стандартное отклонение:select median(num_pages), mode(num_pages), percentile_90(num_pages), pe

Мат. статистика в SQLiteИз коробки SQLite поддерживает только min(), max() и avg(). Но с помощью расширения stats легко посчитать медиану, моду, процентили и стандартное отклонение:select median(num_pages), mode(num_pages), percentile_90(num_pages), percentile_95(num_pages), percentile_99(num_pages), stddev(num_pages)from books;

3 дня, 10 часов назад @ t.me
Табличные выражния 👍Прием №1, чтобы писать хорошие читаемые SQL-запросы — это табличные выражения (CTE). Люди их боятся, а зря.Любой подзапрос:select a, b, cfrom (X)where e = fМеханически превращается в CTE:with cte_name as (X)select a, b, cfrom cte_namewh
Табличные выражния 👍Прием №1, чтобы писать хорошие читаемые SQL-запросы — это табличные выражения (CTE). Люди их боятся, а зря.Любой подзапрос:select a, b, cfrom (X)where e = fМеханически превращается в CTE:with cte_name as (X)select a, b, cfrom cte_namewh

Табличные выражния 👍Прием №1, чтобы писать хорошие читаемые SQL-запросы — это табличные выражения (CTE). Люди их боятся, а зря.Любой подзапрос:select a, b, cfrom (X)where e = fМеханически превращается в CTE:with cte_name as (X)select a, b, cfrom cte_namewhere e = fВот и вся наука, не надо читать увесистую книгу по SQL или проходить курсы.Существует еще миф, что «CTE медленные», но на современных СУБД это не так. Да и вообще — как с любым утверждением о медленности чего-либо, всегда можно сравнить два варианта (подзапрос и CTE), если сомневаешься.

4 дня, 12 часов назад @ t.me
Написал на хабр, как устроена sqlite-песочница в браузере. Если вы немного знакомы с js, может быть интересно → https://habr.com/ru/post/580240/
Написал на хабр, как устроена sqlite-песочница в браузере. Если вы немного знакомы с js, может быть интересно → https://habr.com/ru/post/580240/

Написал на хабр, как устроена sqlite-песочница в браузере. Если вы немного знакомы с js, может быть интересно → https://habr.com/ru/post/580240/

2 недели, 3 дня назад @ t.me
🌤️ SQLite-песочница в браузереЧего мне всегда не хватало, так это аналога JSFiddle / CodePen для SQL. Онлайн-песочницы, в которой можно быстро проверить запрос и поделиться с другими.Да, есть SQL Fiddle и DB Fiddle, но оба весьма неудобные, на мой взгляд.В
🌤️ SQLite-песочница в браузереЧего мне всегда не хватало, так это аналога JSFiddle / CodePen для SQL. Онлайн-песочницы, в которой можно быстро проверить запрос и поделиться с другими.Да, есть SQL Fiddle и DB Fiddle, но оба весьма неудобные, на мой взгляд.В

🌤️ SQLite-песочница в браузереЧего мне всегда не хватало, так это аналога JSFiddle / CodePen для SQL. Онлайн-песочницы, в которой можно быстро проверить запрос и поделиться с другими.Да, есть SQL Fiddle и DB Fiddle, но оба весьма неудобные, на мой взгляд.Вот чего хотелось:— Возможность загрузить готовую базу, а не писать SQL для создания таблиц.— Подключать как локальные базы, так и удаленные (по url).— Сохранять базу и запросы в облаке.— Бесплатно и без регистрации.— Свежайшая версия SQLite.— Минимализм.В общем, сделал сам:sqlime.org

3 недели, 1 день назад @ t.me
🤔 Задачка о группах — решениеУвидев задачку о группах, коллега написал мне:> Человек, порочащий олимпиадное программирование, просит решить задачку ЗА ОДИН запрос. Зачем?Справедливо. Действительно, главное в решении — не формальное количество запросов,
🤔 Задачка о группах — решениеУвидев задачку о группах, коллега написал мне:> Человек, порочащий олимпиадное программирование, просит решить задачку ЗА ОДИН запрос. Зачем?Справедливо. Действительно, главное в решении — не формальное количество запросов,

🤔 Задачка о группах — решениеУвидев задачку о группах, коллега написал мне:> Человек, порочащий олимпиадное программирование, просит решить задачку ЗА ОДИН запрос. Зачем?Справедливо. Действительно, главное в решении — не формальное количество запросов, а время на понимание. Поэтому давайте решим без олимпиадного ажиотажа, спокойно и по шагам:https://antonz.ru/sql-groups/

4 месяца, 1 неделя назад @ t.me
Первому, кто решит задачу за минимальное количество запросов и сможет объяснить решение — любой мой курс в подарок ツ Пишите → @nalgeon
Первому, кто решит задачу за минимальное количество запросов и сможет объяснить решение — любой мой курс в подарок ツ Пишите → @nalgeon

Первому, кто решит задачу за минимальное количество запросов и сможет объяснить решение — любой мой курс в подарок ツ Пишите → @nalgeon

4 месяца, 2 недели назад @ t.me
🤔 Задачка о группахПодписчик прислал интересную задачку, которая время от времени встречается в реальной жизни. В общем виде звучит так: найти похожие объекты и объединить их в группы.Рассмотрим на конкретном примере. Есть таблица с атрибутами пользователе
🤔 Задачка о группахПодписчик прислал интересную задачку, которая время от времени встречается в реальной жизни. В общем виде звучит так: найти похожие объекты и объединить их в группы.Рассмотрим на конкретном примере. Есть таблица с атрибутами пользователе

🤔 Задачка о группахПодписчик прислал интересную задачку, которая время от времени встречается в реальной жизни. В общем виде звучит так: найти похожие объекты и объединить их в группы.Рассмотрим на конкретном примере. Есть таблица с атрибутами пользователей: user_id, attr1, alpha1, beta2, beta2, gamma3, delta3, epsilon4, delta4, zeta5, zeta5, alpha6, iota7, iota7, kappa8, kappa8, lambdaХотим объединить пользователей в группы. При этом действуют правила:— Если пользователи A и B обладают общим свойством → они входят в одну группу.— Если A и B обладают общим свойством P1, B и C обладают общим свойством P2 → A, B, C входят в одну группу.— Идентификатором группы считается минимальный идентифика…

4 месяца, 2 недели назад @ t.me
Курс по оконным функциямЗакончил курс по «окошкам»! 15 уроков, 39 задачек, бессчётное количество картинок и гифок.Подходит для всех, кто знает обычные селекты и работает с MySQL, PostgreSQL или SQLite.Стоит 500₽, для выпускников «SQLite на практике» — скид
Курс по оконным функциямЗакончил курс по «окошкам»! 15 уроков, 39 задачек, бессчётное количество картинок и гифок.Подходит для всех, кто знает обычные селекты и работает с MySQL, PostgreSQL или SQLite.Стоит 500₽, для выпускников «SQLite на практике» — скид

Курс по оконным функциямЗакончил курс по «окошкам»! 15 уроков, 39 задачек, бессчётное количество картинок и гифок.Подходит для всех, кто знает обычные селекты и работает с MySQL, PostgreSQL или SQLite.Стоит 500₽, для выпускников «SQLite на практике» — скидка 50%.https://stepik.org/z/95367

4 месяца, 2 недели назад @ t.me
Оконные функции: скользящие агрегатыЗаканчиваем разбираться с оконными функциями. В этой части посмотрим, как считать показатели в динамике — скользящее среднее и сумму нарастающим итогом.Это последняя статья серии! Гарантирую, что более понятного введения
Оконные функции: скользящие агрегатыЗаканчиваем разбираться с оконными функциями. В этой части посмотрим, как считать показатели в динамике — скользящее среднее и сумму нарастающим итогом.Это последняя статья серии! Гарантирую, что более понятного введения

Оконные функции: скользящие агрегатыЗаканчиваем разбираться с оконными функциями. В этой части посмотрим, как считать показатели в динамике — скользящее среднее и сумму нарастающим итогом.Это последняя статья серии! Гарантирую, что более понятного введения в «окошки» не найдете во всем интернете 💪https://antonz.ru/window-rolling/

5 месяцев назад @ t.me
Добавить или обновить записи одним запросомУчастник курса спрашивает:Есть таблица, хочу ежедневно загружать в неё обновления из csv. Если по id запись уникальная — добавлять, а если запись существует — обновлять поля, которые отличаются, кроме id. Это можн
Добавить или обновить записи одним запросомУчастник курса спрашивает:Есть таблица, хочу ежедневно загружать в неё обновления из csv. Если по id запись уникальная — добавлять, а если запись существует — обновлять поля, которые отличаются, кроме id. Это можн

Добавить или обновить записи одним запросомУчастник курса спрашивает:Есть таблица, хочу ежедневно загружать в неё обновления из csv. Если по id запись уникальная — добавлять, а если запись существует — обновлять поля, которые отличаются, кроме id. Это можно как-то из коробки?Да! Такой подход (добавить или обновить по необходимости) в мире SQL называется «upsert». В SQLite он реализуется через инструкцию on conflict.Допустим, мы хотим добавить/обновить записи в таблице stats. Тогда запрос будет примерно такой:insert into stats(id, last_updated, usage)select ... from ...on conflict(id) do updateset last_updated = excluded.last_updated, usage = usage + excluded.usage;excluded — это та запись, …

5 месяцев назад @ t.me
Оконные функции: агрегацияПродолжаем разбираться с «окошками». В этой части посмотрим, как считать суммарные и средние показатели.Пожалуй, самая простая тема в оконных функциях, так что нашлось время заодно разобраться с фильтрацией и спецификацией окна.ht
Оконные функции: агрегацияПродолжаем разбираться с «окошками». В этой части посмотрим, как считать суммарные и средние показатели.Пожалуй, самая простая тема в оконных функциях, так что нашлось время заодно разобраться с фильтрацией и спецификацией окна.ht

Оконные функции: агрегацияПродолжаем разбираться с «окошками». В этой части посмотрим, как считать суммарные и средние показатели.Пожалуй, самая простая тема в оконных функциях, так что нашлось время заодно разобраться с фильтрацией и спецификацией окна.https://antonz.ru/window-aggregate/

5 месяцев, 2 недели назад @ t.me
Помните, я восторгался количеством новых функций в SQLite 3.35? За все надо платить: разработчики выпустили уже пятый патч-релиз (впервые в истории SQLite — раньше было не больше четырех).Не знаю, какой урок можно из этого извлечь. Разве что «не пихайте мн
Помните, я восторгался количеством новых функций в SQLite 3.35? За все надо платить: разработчики выпустили уже пятый патч-релиз (впервые в истории SQLite — раньше было не больше четырех).Не знаю, какой урок можно из этого извлечь. Разве что «не пихайте мн Помните, я восторгался количеством новых функций в SQLite 3.35? За все надо платить: разработчики выпустили уже пятый патч-релиз (впервые в истории SQLite — раньше было не больше четырех).Не знаю, какой урок можно из этого извлечь. Разве что «не пихайте мн

Помните, я восторгался количеством новых функций в SQLite 3.35? За все надо платить: разработчики выпустили уже пятый патч-релиз (впервые в истории SQLite — раньше было не больше четырех).Не знаю, какой урок можно из этого извлечь. Разве что «не пихайте много новых фич в один релиз». Хотя звучит довольно очевидно, мы никогда не устаем наступать на эти грабли ツ

5 месяцев, 3 недели назад @ t.me
Оконные функции: смещениеПродолжаем разбираться с «окошками». В этой части посмотрим, как сравнивать соседние строки и границы диапазона.Это одна из неочевидных тем, так что пришлось изготовить особенно много картинок и гифок.https://antonz.ru/window-offse
Оконные функции: смещениеПродолжаем разбираться с «окошками». В этой части посмотрим, как сравнивать соседние строки и границы диапазона.Это одна из неочевидных тем, так что пришлось изготовить особенно много картинок и гифок.https://antonz.ru/window-offse

Оконные функции: смещениеПродолжаем разбираться с «окошками». В этой части посмотрим, как сравнивать соседние строки и границы диапазона.Это одна из неочевидных тем, так что пришлось изготовить особенно много картинок и гифок.https://antonz.ru/window-offset/

5 месяцев, 4 недели назад @ t.me
Недостающие функции SQLiteSQLite традиционно бедна функциями по сравнению с каким-нибудь постгресом. Но их легко добавить, чем многие и занимаются — каждый кто во что горазд. Получается легкий бардак.Поскольку я люблю все упорядочивать, то решил собрать ра
Недостающие функции SQLiteSQLite традиционно бедна функциями по сравнению с каким-нибудь постгресом. Но их легко добавить, чем многие и занимаются — каждый кто во что горазд. Получается легкий бардак.Поскольку я люблю все упорядочивать, то решил собрать ра

Недостающие функции SQLiteSQLite традиционно бедна функциями по сравнению с каким-нибудь постгресом. Но их легко добавить, чем многие и занимаются — каждый кто во что горазд. Получается легкий бардак.Поскольку я люблю все упорядочивать, то решил собрать разбросанный по интернету код в единый набор библиотек, с разделением по предметной области и автоматической сборкой для всех ОС.В программировании на C я не силен, так что дело продвигается не очень быстро. Но кое-что уже удалось сделать:— математические функции (sqrt, pow, log)— мат. статистика (median, percentile, stddev)— строковые функции (reverse, split_part)— регулярные выражения (like, substr, replace)— поддержка юникода— работа с cs…

6 месяцев назад @ t.me
Оконные функции: ранжированиеНачинаем детально разбираться с «окошками». В этой части посмотрим, что такое окно, и как использовать оконные функции для всевозможных рейтингов.https://antonz.ru/window-ranking/
Оконные функции: ранжированиеНачинаем детально разбираться с «окошками». В этой части посмотрим, что такое окно, и как использовать оконные функции для всевозможных рейтингов.https://antonz.ru/window-ranking/

Оконные функции: ранжированиеНачинаем детально разбираться с «окошками». В этой части посмотрим, что такое окно, и как использовать оконные функции для всевозможных рейтингов.https://antonz.ru/window-ranking/

6 месяцев, 1 неделя назад @ t.me
Datalytics Datalytics
последний пост 14 часов назад
Какие ошибки с юнит-экономикой допускает большинство Product Manager-ов, когда работают по наитию? Расскажет Кристина Потоцкая на бесплатной лекции от IAMPM!Вы узнаете:✔️ Какие метрики нужно отслеживать в стартапе и когда начинать это делать.✔️ Сводим деби
Какие ошибки с юнит-экономикой допускает большинство Product Manager-ов, когда работают по наитию? Расскажет Кристина Потоцкая на бесплатной лекции от IAMPM!Вы узнаете:✔️ Какие метрики нужно отслеживать в стартапе и когда начинать это делать.✔️ Сводим деби Какие ошибки с юнит-экономикой допускает большинство Product Manager-ов, когда работают по наитию? Расскажет Кристина Потоцкая на бесплатной лекции от IAMPM!Вы узнаете:✔️ Какие метрики нужно отслеживать в стартапе и когда начинать это делать.✔️ Сводим деби

Какие ошибки с юнит-экономикой допускает большинство Product Manager-ов, когда работают по наитию? Расскажет Кристина Потоцкая на бесплатной лекции от IAMPM!Вы узнаете:✔️ Какие метрики нужно отслеживать в стартапе и когда начинать это делать.✔️ Сводим дебит с кредитом: LTV & CAC в стартапе и зрелом продукте.✔️ Когда падение показателей в метриках продукта — это норма.✔️ Что важно знать о unit-экономике, когда меняешь B2B продукт на B2C.✔️ Страшные истории из опыта спикера.🎙 Спикер: Кристина Потоцкая — более 7 лет опыта на позиции Product Manager, и за это время успешно запускала и улучшала продукты в сфере e-commerce, email и digital marketing. Выступала в качестве спикера на более чем 100 …

14 часов назад @ t.me
Яндекс приглашает разработчиков на онлайн-встречу с командой рекламных продуктовНа встрече 13 октября спикеры объяснят, почему реклама - не то, чем кажется на первый взгляд. Расскажут какие технологии применяются, с какими вызовами и задачами сталкиваются
Яндекс приглашает разработчиков на онлайн-встречу с командой рекламных продуктовНа встрече 13 октября спикеры объяснят, почему реклама - не то, чем кажется на первый взгляд. Расскажут какие технологии применяются, с какими вызовами и задачами сталкиваются Яндекс приглашает разработчиков на онлайн-встречу с командой рекламных продуктовНа встрече 13 октября спикеры объяснят, почему реклама - не то, чем кажется на первый взгляд. Расскажут какие технологии применяются, с какими вызовами и задачами сталкиваются

Яндекс приглашает разработчиков на онлайн-встречу с командой рекламных продуктовНа встрече 13 октября спикеры объяснят, почему реклама - не то, чем кажется на первый взгляд. Расскажут какие технологии применяются, с какими вызовами и задачами сталкиваются ежедневно.А уже после встречи, если заинтересуетесь, можно будет пройти быстрое собеседование в команду рекламных продуктов! 23-24 октября состоится Fast Track -- ивент, где в ходе двух технический секций посмотрят на ваши умения, а лучшие получат быстрый оффер. Регистрация тут.

3 дня, 15 часов назад @ t.me
Наткнулся тут на канал Александра @ershovds про Data science и программирование. На канале есть туториалы по инструментам для анализа данных, разборы практических задач и советы по карьере. Рекомендую подписаться!
Наткнулся тут на канал Александра @ershovds про Data science и программирование. На канале есть туториалы по инструментам для анализа данных, разборы практических задач и советы по карьере. Рекомендую подписаться!

Наткнулся тут на канал Александра @ershovds про Data science и программирование. На канале есть туториалы по инструментам для анализа данных, разборы практических задач и советы по карьере. Рекомендую подписаться!

1 неделя, 1 день назад @ t.me
Datalytics pinned «Сейчас я много времени провожу в разных продуктовых материях: формировании стратегии того куда будет двигаться трудоустройство в Практикуме, анализу рынка data science в России и мире, в попытках предугадать тренды, которые будут определ
Datalytics pinned «Сейчас я много времени провожу в разных продуктовых материях: формировании стратегии того куда будет двигаться трудоустройство в Практикуме, анализу рынка data science в России и мире, в попытках предугадать тренды, которые будут определ

Datalytics pinned «Сейчас я много времени провожу в разных продуктовых материях: формировании стратегии того куда будет двигаться трудоустройство в Практикуме, анализу рынка data science в России и мире, в попытках предугадать тренды, которые будут определять лицо индустрии…»

1 неделя, 1 день назад @ t.me
Сейчас я много времени провожу в разных продуктовых материях: формировании стратегии того куда будет двигаться трудоустройство в Практикуме, анализу рынка data science в России и мире, в попытках предугадать тренды, которые будут определять лицо индустрии
Сейчас я много времени провожу в разных продуктовых материях: формировании стратегии того куда будет двигаться трудоустройство в Практикуме, анализу рынка data science в России и мире, в попытках предугадать тренды, которые будут определять лицо индустрии

Сейчас я много времени провожу в разных продуктовых материях: формировании стратегии того куда будет двигаться трудоустройство в Практикуме, анализу рынка data science в России и мире, в попытках предугадать тренды, которые будут определять лицо индустрии через 5-10 лет. Всё это сильно отдаляет от того, что перестаёшь чувствовать наносимую другим людям пользу на кончиках пальцев. Поэтому я решил выделить несколько слотов в неделю и начать проводить консультации для всех желающихИтак, с чем я могу помочь (список не исчерпывающий, обращайтесь в личку со своим запросом):Проектирование образовательной траектории: ещё до Практикума я много времени уделял развитию менторства в организациях, где я…

1 неделя, 1 день назад @ t.me
NVIDIA DGX A100 уже в Selectel!NVIDIA DGX A100 — самое быстрое в мире решение для работы с ML и AI мощностью 5 петафлопс. Он отлично подойдет, если производительности обычных серверов уже не хватает, а современные задачи требуют высокопроизводительных выч
NVIDIA DGX A100 уже в Selectel!NVIDIA DGX A100 —  самое быстрое в мире решение для работы с ML и AI мощностью 5 петафлопс. Он отлично подойдет, если производительности обычных серверов уже не хватает, а современные задачи требуют высокопроизводительных выч NVIDIA DGX A100 уже в Selectel!NVIDIA DGX A100 — самое быстрое в мире решение для работы с ML и AI мощностью 5 петафлопс. Он отлично подойдет, если производительности обычных серверов уже не хватает, а современные задачи требуют высокопроизводительных выч

NVIDIA DGX A100 уже в Selectel!NVIDIA DGX A100 — самое быстрое в мире решение для работы с ML и AI мощностью 5 петафлопс. Он отлично подойдет, если производительности обычных серверов уже не хватает, а современные задачи требуют высокопроизводительных вычислений.Оставляйте заявку на нашем сайте, чтобы протестировать систему бесплатно: https://slc.tl/p6mrtВместе с DGX A100 вы получите:◾️Помощь с настройкой и тестированием от @Selectel и Forsite;◾️Единую систему всех задач ИИ;◾️Высокую плотность вычислений и производительность;◾️Встроенную технологию безопасности — от контейнера до чипа.

1 неделя, 2 дня назад @ t.me
За последнее время в этом канале много новоприбывших, поэтому имеет смысл немного рассказать о себе, целях этого канала и поделиться парой ссылок, которые могут быть полезны Кто я?👨‍🎨 Я Лёша Макаров, руководитель сервиса трудоустройства в Яндекс.Практик
За последнее время в этом канале много новоприбывших, поэтому имеет смысл немного рассказать о себе, целях этого канала и поделиться парой ссылок, которые могут быть полезны Кто я?👨‍🎨 Я Лёша Макаров, руководитель сервиса трудоустройства в Яндекс.Практик

За последнее время в этом канале много новоприбывших, поэтому имеет смысл немного рассказать о себе, целях этого канала и поделиться парой ссылок, которые могут быть полезны Кто я?👨‍🎨 Я Лёша Макаров, руководитель сервиса трудоустройства в Яндекс.Практикуме. Разные продукты Практикума объединены в направления, я работаю в направлении анализа данных. Основная точка приложения моих усилий тут — развивать инфраструктуру, которая поможет нашим выпускникам успешно устраиваться на работу на позиции, связанные с анализом данных. До прихода в Практикум я был аналитиком с 8-летним стажем. В какой-то момент понял, что сами знания и их распространение для меня представляют даже большую ценность, чем во…

2 недели, 2 дня назад @ t.me
Хорошая статья в блоге Павла Левчука о том, что в последнее время стало очень модным говорить про аналитику с помощью Python, из-за чего BI-системы выглядят недоцененными в то время как они прекрасно решают подавляющее число аналитических задач, а также об
Хорошая статья в блоге Павла Левчука о том, что в последнее время стало очень модным говорить про аналитику с помощью Python, из-за чего BI-системы выглядят недоцененными в то время как они прекрасно решают подавляющее число аналитических задач, а также об

Хорошая статья в блоге Павла Левчука о том, что в последнее время стало очень модным говорить про аналитику с помощью Python, из-за чего BI-системы выглядят недоцененными в то время как они прекрасно решают подавляющее число аналитических задач, а также обаладают гибкостью по отношению к «потребителю данных», которой сложно добиться «аналитическим кодом»Как пример: обеспечение гибкости логики расчётов, при грамотно организованном представлении данных и наличии нужных слайсеров/фильтров с помощью BI-системы можно быстро оценивать retention в различных срезах, управлять окном retention, добавлять дополнительные метрики. Это конечно можно сделать и в python-ноутбуке или через SQL, но зачастую …

2 недели, 3 дня назад @ t.me
Наконец-то созрел сделать подборку аналитических блогов в телеграме в виде новой статьи блога. Однако, чтобы было интереснее подборка составлена не вручную, а на основе графа связей, построенного с помощью Python. В качестве стартовой точки были взяты текс
Наконец-то созрел сделать подборку аналитических блогов в телеграме в виде новой статьи блога. Однако, чтобы было интереснее подборка составлена не вручную, а на основе графа связей, построенного с помощью Python. В качестве стартовой точки были взяты текс

Наконец-то созрел сделать подборку аналитических блогов в телеграме в виде новой статьи блога. Однако, чтобы было интереснее подборка составлена не вручную, а на основе графа связей, построенного с помощью Python. В качестве стартовой точки были взяты тексты телеграм-канала Интернет-аналитика и выделены те аналитические каналы, на которые Леша Никушин в нем ссылался. Получился список таких каналов и процедура проделана еще раз, итеративно: мы взяли тексты всех записей этих каналов и распарсили их, нашли упоминания всех других аналитических телеграм-каналов. С парсингом текстов помогал стажер Андрей, а затем я построил граф связей на основе полученных данных, используя тулзу из Georgia Tech.…

2 недели, 4 дня назад @ t.me
Направление анализа данных в Яндекс.Практикуме, в котором я работаю, ищет авторов для программы по Data EngineeringПрактикум планирует существенно увеличить количество полезного и задорного образовательного контента, посвященного дата-профессиям. Курсы Пра
Направление анализа данных в Яндекс.Практикуме, в котором я работаю, ищет авторов для программы по Data EngineeringПрактикум планирует существенно увеличить количество полезного и задорного образовательного контента, посвященного дата-профессиям. Курсы Пра

Направление анализа данных в Яндекс.Практикуме, в котором я работаю, ищет авторов для программы по Data EngineeringПрактикум планирует существенно увеличить количество полезного и задорного образовательного контента, посвященного дата-профессиям. Курсы Практикума призваны помогать людям менять их качество жизни, компаниям — быстрее и проще нанимать нужных специалистов, а индустрии в целом развиваться. Чтобы создавать такое обучение и успевать за темпом развития отрасли мы много внимания уделяем контенту в нашем интерактивном учебникеМы умеем делать тексты такими, чтобы студенты в них влюблялись: интересными, понятными, образовательными на 100%. Но ничего не получится без экспертов, которые …

3 недели, 1 день назад @ t.me
IT Analyst - канал для аналитиков в индустрии IT. Будет интересен: web-аналитикам, BA/SA, data-аналитикам, продуктовым аналитикам, UX-аналитикам... Ежедневно публикуются обучающие материалы:▪переведённые статьи с английского языка▪обучающие видео с ведущим
IT Analyst - канал для аналитиков в индустрии IT. Будет интересен: web-аналитикам, BA/SA, data-аналитикам, продуктовым аналитикам, UX-аналитикам... Ежедневно публикуются обучающие материалы:▪переведённые статьи с английского языка▪обучающие видео с ведущим IT Analyst - канал для аналитиков в индустрии IT. Будет интересен: web-аналитикам, BA/SA, data-аналитикам, продуктовым аналитикам, UX-аналитикам... Ежедневно публикуются обучающие материалы:▪переведённые статьи с английского языка▪обучающие видео с ведущим

IT Analyst - канал для аналитиков в индустрии IT. Будет интересен: web-аналитикам, BA/SA, data-аналитикам, продуктовым аналитикам, UX-аналитикам... Ежедневно публикуются обучающие материалы:▪переведённые статьи с английского языка▪обучающие видео с ведущими IT-специалистами▪актуальные новости▪профессиональный юмортакже поразбираемся в сортах аналитиков в индустрии IT

3 недели, 2 дня назад @ t.me
✅ Хочу обратить ваше внимание на полезный telegram-канал для обучения высокоуровневому языку программирования Python На канале ежедневно публикуются задачи по Python и Machine Learning: алгоритмы, функции, классы, регулярные выражения, итераторы, генератор
✅ Хочу обратить ваше внимание на полезный telegram-канал для обучения высокоуровневому языку программирования Python На канале ежедневно публикуются задачи по Python и Machine Learning: алгоритмы, функции, классы, регулярные выражения, итераторы, генератор ✅ Хочу обратить ваше внимание на полезный telegram-канал для обучения высокоуровневому языку программирования Python На канале ежедневно публикуются задачи по Python и Machine Learning: алгоритмы, функции, классы, регулярные выражения, итераторы, генератор

✅ Хочу обратить ваше внимание на полезный telegram-канал для обучения высокоуровневому языку программирования Python На канале ежедневно публикуются задачи по Python и Machine Learning: алгоритмы, функции, классы, регулярные выражения, итераторы, генераторы, ООП, исключения, numpy, pandas, matplotlib, scikit-learn, TensorFlow и многое другое!✔️Станьте специалистом по Python вместе с каналом "Задачи по Python и машинному обучению"

3 недели, 3 дня назад @ t.me
25 сентября приглашаем на первый в этом году офлайн-митап от Яндекс.Дзена. Будем говорить про объяснимость рекомендаций, общаться и готовить бургеры!Количество мест ограничено. Все зарегистрировавшиеся получат видеозаписи с мероприятия. Продробности и реги
25 сентября приглашаем на первый в этом году офлайн-митап от Яндекс.Дзена. Будем говорить про объяснимость рекомендаций, общаться и готовить бургеры!Количество мест ограничено. Все зарегистрировавшиеся получат видеозаписи с мероприятия. Продробности и реги 25 сентября приглашаем на первый в этом году офлайн-митап от Яндекс.Дзена. Будем говорить про объяснимость рекомендаций, общаться и готовить бургеры!Количество мест ограничено. Все зарегистрировавшиеся получат видеозаписи с мероприятия. Продробности и реги

25 сентября приглашаем на первый в этом году офлайн-митап от Яндекс.Дзена. Будем говорить про объяснимость рекомендаций, общаться и готовить бургеры!Количество мест ограничено. Все зарегистрировавшиеся получат видеозаписи с мероприятия. Продробности и регистрация по ссылкеhttps://clck.ru/XcYbm

3 недели, 4 дня назад @ t.me
📈 Как создавать быстрые и точные диаграммы разброса с большим количеством данных на Pythonhttps://dev-gang.ru/article/kak-sozdavat-bystrye-i-tocznye-diagrammy-razbrosa-s-bolshim-koliczestvom-dannyh-na-python-4f6zzxa0gq/@machinelearning_ru
📈 Как создавать быстрые и точные диаграммы разброса с большим количеством данных на Pythonhttps://dev-gang.ru/article/kak-sozdavat-bystrye-i-tocznye-diagrammy-razbrosa-s-bolshim-koliczestvom-dannyh-na-python-4f6zzxa0gq/@machinelearning_ru 📈 Как создавать быстрые и точные диаграммы разброса с большим количеством данных на Pythonhttps://dev-gang.ru/article/kak-sozdavat-bystrye-i-tocznye-diagrammy-razbrosa-s-bolshim-koliczestvom-dannyh-na-python-4f6zzxa0gq/@machinelearning_ru

📈 Как создавать быстрые и точные диаграммы разброса с большим количеством данных на Pythonhttps://dev-gang.ru/article/kak-sozdavat-bystrye-i-tocznye-diagrammy-razbrosa-s-bolshim-koliczestvom-dannyh-na-python-4f6zzxa0gq/@machinelearning_ru

3 недели, 6 дней назад @ t.me
Ребята, привет! Мы в Яндекс.Практикум ищем Продуктового аналитика в команду роста 🚀Команда роста находит самые приоритетные точки развития продукта и максимально быстро придумывает решение, которое позволит вырастить ключевые метрики. Продуктовый аналитик
Ребята, привет! Мы в Яндекс.Практикум ищем Продуктового аналитика в команду роста 🚀Команда роста находит самые приоритетные точки развития продукта и максимально быстро придумывает решение, которое позволит вырастить ключевые метрики. Продуктовый аналитик Ребята, привет! Мы в Яндекс.Практикум ищем Продуктового аналитика в команду роста 🚀Команда роста находит самые приоритетные точки развития продукта и максимально быстро придумывает решение, которое позволит вырастить ключевые метрики. Продуктовый аналитик

Ребята, привет! Мы в Яндекс.Практикум ищем Продуктового аналитика в команду роста 🚀Команда роста находит самые приоритетные точки развития продукта и максимально быстро придумывает решение, которое позволит вырастить ключевые метрики. Продуктовый аналитик помогает находить новые гипотезы об улучшении продукта, а также проектирует и сопровождает эксперименты.Что для этого нужно:🎯 работали продуктовым аналитиком более ~2 лет;🎯 уже решали задачи проектирования, сопровождения и оценки результатов экспериментов;🎯 знаете SQL на уровне продвинутых запросов;🎯 знакомы с Python на прикладном уровне;🎯 знаете теорию вероятностей и математическую статистику;🎯 можете построить аналитический дашборд.От на…

4 недели назад @ t.me
Труба данных Труба данных
последний пост 1 день, 12 часов назад
https://airflow.apache.org/docs/apache-airflow/2.2.0/changelog.htmlТут Airflow 2.2.0 подвезли.Из заметного:➡️ Custom Timetables (AIP-39)➡️ Deferrable Tasks (AIP-40)➡️ Custom @task decorators and @task.docker➡️ Validation of DAG params➡️ Testing Connections
https://airflow.apache.org/docs/apache-airflow/2.2.0/changelog.htmlТут Airflow 2.2.0 подвезли.Из заметного:➡️ Custom Timetables (AIP-39)➡️ Deferrable Tasks (AIP-40)➡️ Custom @task decorators and @task.docker➡️ Validation of DAG params➡️ Testing Connections

https://airflow.apache.org/docs/apache-airflow/2.2.0/changelog.htmlТут Airflow 2.2.0 подвезли.Из заметного:➡️ Custom Timetables (AIP-39)➡️ Deferrable Tasks (AIP-40)➡️ Custom @task decorators and @task.docker➡️ Validation of DAG params➡️ Testing Connections from the UI - test the credentials for your Connection actually work➡️ Duplication Connections from the UI➡️ DAGs “Next run” info is shown in the UI, including when the run will actually start➡️ airflow standalone command runs all of the Airflow components directly without docker - great for local development

1 день, 12 часов назад @ t.me
Какое-то время назад я просил ребят в сообществе DE заполнить маленький опрос при подготовке к докладу на TechTrain. Доклад можно посмотреть по ссылке, а вот немножко статистики из опроса (я же обещал!)Подавляющее большинство инженеров из больших и очень б
Какое-то время назад я просил ребят в сообществе DE заполнить маленький опрос при подготовке к докладу на TechTrain. Доклад можно посмотреть по ссылке, а вот немножко статистики из опроса (я же обещал!)Подавляющее большинство инженеров из больших и очень б Какое-то время назад я просил ребят в сообществе DE заполнить маленький опрос при подготовке к докладу на TechTrain. Доклад можно посмотреть по ссылке, а вот немножко статистики из опроса (я же обещал!)Подавляющее большинство инженеров из больших и очень б

Какое-то время назад я просил ребят в сообществе DE заполнить маленький опрос при подготовке к докладу на TechTrain. Доклад можно посмотреть по ссылке, а вот немножко статистики из опроса (я же обещал!)Подавляющее большинство инженеров из больших и очень больших компаний, и облаков в России немного, а большинство это on-prem компоненты. Тут все очевидно было. Как и с языком программирования: почти половина пишет на Python, 30% на Scala и всего 9% на Java. Тоже предсказуемо.А вот неочевидное:1) Лишь 11% ответивших считают, что самый главный технический навык это ЯП, 36% за SQL и 43% за знание тулинга и фреймворков. Литкоднинужен?😁2) Лишь 30% сразу начали заниматься DE, все остальные - перека…

1 неделя, 2 дня назад @ t.me
Итак, осень началась, а значит начался сезон конференций. Вообще, конференции это прекрасный способ узнать что-то новое, но куда важней - это нетворкинг. Да, да, банальные прописные истины! 😁Не отпускать вас на конференцию, потому что вас там переманят - э
Итак, осень началась, а значит начался сезон конференций. Вообще, конференции это прекрасный способ узнать что-то новое, но куда важней - это нетворкинг. Да, да, банальные прописные истины! 😁Не отпускать вас на конференцию, потому что вас там переманят - э

Итак, осень началась, а значит начался сезон конференций. Вообще, конференции это прекрасный способ узнать что-то новое, но куда важней - это нетворкинг. Да, да, банальные прописные истины! 😁Не отпускать вас на конференцию, потому что вас там переманят - это глупость со стороны работодателя и от такого нужно бежать. Я бы сбежал.Не ходить на конференцию, ибо “я в записи посмотрю” - это упускать возможность узнать из первых уст в кулуарах о состоянии индустрии, и выстроить связи, которые вам помогут в будущем: интересным проектом или вы найдете себе коллегу.Мерч, стикеры, книги - куда ж без этого =)Если что, этой осенью меня можно поймать тут:- 18 сентября, уже завтра, TechTrain https://bit.l…

4 недели назад @ t.me
https://blog.jetbrains.com/big-data-tools/2021/09/06/data-engineering-annotated-monthly-august-2021/Паша вновь постарался и собрал для вас новости в DE за прошедший месяц.
https://blog.jetbrains.com/big-data-tools/2021/09/06/data-engineering-annotated-monthly-august-2021/Паша вновь постарался и собрал для вас новости в DE за прошедший месяц.

https://blog.jetbrains.com/big-data-tools/2021/09/06/data-engineering-annotated-monthly-august-2021/Паша вновь постарался и собрал для вас новости в DE за прошедший месяц.

1 месяц, 1 неделя назад @ t.me
Если кто-то хотел узнать поподробней про схемы и модели хранения данных, вот будет вебинарчик интересный:DataVault / Anchor Modeling (8 сентября 2021 в 20:00 по мск)Спикер: Николай Голов🔗Ссылка: https://youtu.be/-ZgzpQXsxi0
Если кто-то хотел узнать поподробней про схемы и модели хранения данных, вот будет вебинарчик интересный:DataVault / Anchor Modeling (8 сентября 2021 в 20:00 по мск)Спикер: Николай Голов🔗Ссылка: https://youtu.be/-ZgzpQXsxi0

Если кто-то хотел узнать поподробней про схемы и модели хранения данных, вот будет вебинарчик интересный:DataVault / Anchor Modeling (8 сентября 2021 в 20:00 по мск)Спикер: Николай Голов🔗Ссылка: https://youtu.be/-ZgzpQXsxi0

1 месяц, 1 неделя назад @ t.me
https://habr.com/ru/company/ods/blog/572264/Ребята из ODS собрали и проанализировали статистику по вакансиям внутри сообщества (а это, на секундочку, крупнейшее сообщество по работе с данными).Интересные цифры и выводы внутри статьи.
https://habr.com/ru/company/ods/blog/572264/Ребята из ODS собрали и проанализировали статистику по вакансиям внутри сообщества (а это, на секундочку, крупнейшее сообщество по работе с данными).Интересные цифры и выводы внутри статьи.

https://habr.com/ru/company/ods/blog/572264/Ребята из ODS собрали и проанализировали статистику по вакансиям внутри сообщества (а это, на секундочку, крупнейшее сообщество по работе с данными).Интересные цифры и выводы внутри статьи.

1 месяц, 2 недели назад @ t.me
Началось, как я попал на конференцию TechTrain, то JUG от меня не отстает, “опубликуйте это”, “опубликуйте то” 😄На самом деле, я делаю это все добровольно и никакая это не платная интеграция (мне уже предлагали деньги за рекламу, но этот канал всегда будет
Началось, как я попал на конференцию TechTrain, то JUG от меня не отстает, “опубликуйте это”, “опубликуйте то” 😄На самом деле, я делаю это все добровольно и никакая это не платная интеграция (мне уже предлагали деньги за рекламу, но этот канал всегда будет Началось, как я попал на конференцию TechTrain, то JUG от меня не отстает, “опубликуйте это”, “опубликуйте то” 😄На самом деле, я делаю это все добровольно и никакая это не платная интеграция (мне уже предлагали деньги за рекламу, но этот канал всегда будет

Началось, как я попал на конференцию TechTrain, то JUG от меня не отстает, “опубликуйте это”, “опубликуйте то” 😄На самом деле, я делаю это все добровольно и никакая это не платная интеграция (мне уже предлагали деньги за рекламу, но этот канал всегда будет без монетизации через рекламу).26 августа в 18:00 компания IT_One вместе с JUG Ru Group проведет онлайн митап по Big Data и Java.В программе:— Максим Стаценко, «Обзор технологий хранения больших данных. Плюсы, минусы, кому подойдет»;— Вадим Опольский, «Apache Flink vs Свой Java Код. Для приземления данных из Kafka»;— Круглый стол c Максимом Юнусовым, Вадимом Опольским и Максимом Стаценко, на котором спикеры обсудят системы хранения данных…

1 месяц, 3 недели назад @ t.me
Прекрасная обзорная статья на современный стек технологий по работе с данными с точки зрения инженерии и тулинга от моих друзей из Datafoldhttps://www.datafold.com/blog/the-modern-data-stack-open-source-edition
Прекрасная обзорная статья на современный стек технологий по работе с данными с точки зрения инженерии и тулинга от моих друзей из Datafoldhttps://www.datafold.com/blog/the-modern-data-stack-open-source-edition Прекрасная обзорная статья на современный стек технологий по работе с данными с точки зрения инженерии и тулинга от моих друзей из Datafoldhttps://www.datafold.com/blog/the-modern-data-stack-open-source-edition

Прекрасная обзорная статья на современный стек технологий по работе с данными с точки зрения инженерии и тулинга от моих друзей из Datafoldhttps://www.datafold.com/blog/the-modern-data-stack-open-source-edition

1 месяц, 3 недели назад @ t.me
https://blog.jetbrains.com/big-data-tools/2021/08/03/data-engineering-annotated-monthly-july-2021/Паша Финкельштейн взял на себя тяжелую ношу, каждый месяц писать новости по дата инженерингу в блог JetBrains. И это кроме DE or DIE дайджеста, который я пост
https://blog.jetbrains.com/big-data-tools/2021/08/03/data-engineering-annotated-monthly-july-2021/Паша Финкельштейн взял на себя тяжелую ношу, каждый месяц писать новости по дата инженерингу в блог JetBrains. И это кроме DE or DIE дайджеста, который я пост

https://blog.jetbrains.com/big-data-tools/2021/08/03/data-engineering-annotated-monthly-july-2021/Паша Финкельштейн взял на себя тяжелую ношу, каждый месяц писать новости по дата инженерингу в блог JetBrains. И это кроме DE or DIE дайджеста, который я постил выше.Но это очень хорошая штука, когда все важные события внутри твоей профессиональной области собирают в одно месте. Поэтому милости просим.#Data_Engineering_Annotated

2 месяца, 1 неделя назад @ t.me
Не смотря на мою “ангажированность” к Moscow Python сообществу, кроме нас есть и другие сообщества, которые организуют митапы по Python.Очередной Pytup от Яндекса пройдет 25 августа, регистрироваться можно тут.Лично меня интересует вот эта тема: “Миллиард
Не смотря на мою “ангажированность” к Moscow Python сообществу, кроме нас есть и другие сообщества, которые организуют митапы по Python.Очередной Pytup от Яндекса пройдет 25 августа, регистрироваться можно тут.Лично меня интересует вот эта тема: “Миллиард Не смотря на мою “ангажированность” к Moscow Python сообществу, кроме нас есть и другие сообщества, которые организуют митапы по Python.Очередной Pytup от Яндекса пройдет 25 августа, регистрироваться можно тут.Лично меня интересует вот эта тема: “Миллиард

Не смотря на мою “ангажированность” к Moscow Python сообществу, кроме нас есть и другие сообщества, которые организуют митапы по Python.Очередной Pytup от Яндекса пройдет 25 августа, регистрироваться можно тут.Лично меня интересует вот эта тема: “Миллиард мутаций: хранение и поиск О поиске оптимального способа хранения более миллиарда известных мутаций человека из различных открытых источников и о том, какое место занимает Python в цепочке от сдачи пациентом слюны до выдачи результатов с найденными мутациями.”

2 месяца, 1 неделя назад @ t.me
https://t.me/deordie/16Очередной дайджест (8) DE or DIEТемы выпуска- 4 Things You Need to Know When Solving for Data Quality - Data Lake vs. Data Warehouse - Migrating to Apache Iceberg at Adobe Experience Platform - 5 More Reasons to Choose Apache Pulsar
https://t.me/deordie/16Очередной дайджест (8) DE or DIEТемы выпуска- 4 Things You Need to Know When Solving for Data Quality - Data Lake vs. Data Warehouse - Migrating to Apache Iceberg at Adobe Experience Platform - 5 More Reasons to Choose Apache Pulsar

https://t.me/deordie/16Очередной дайджест (8) DE or DIEТемы выпуска- 4 Things You Need to Know When Solving for Data Quality - Data Lake vs. Data Warehouse - Migrating to Apache Iceberg at Adobe Experience Platform - 5 More Reasons to Choose Apache Pulsar Over Apache Kafka- Create Cloud Architecture with Diagrams for AWS, Azure, and GPC

2 месяца, 2 недели назад @ t.me
#НамДжунаБы Epoch8.co в поисках джуна DEДля отклика заполните пожалуйста форму:https://airtable.com/shrhBZuHzKPM1xA2t
#НамДжунаБы Epoch8.co в поисках джуна DEДля отклика заполните пожалуйста форму:https://airtable.com/shrhBZuHzKPM1xA2t #НамДжунаБы Epoch8.co в поисках джуна DEДля отклика заполните пожалуйста форму:https://airtable.com/shrhBZuHzKPM1xA2t

#НамДжунаБы Epoch8.co в поисках джуна DEДля отклика заполните пожалуйста форму:https://airtable.com/shrhBZuHzKPM1xA2t

2 месяца, 2 недели назад @ t.me
#НамДжунаБыВакансия: Data Analyst / Data Steward (Junior+ / Middle) в Абсолют Банк.Чтобы отправить резюме, придется зарегистрироваться в ODS.ai и написать в личку Schtirlitz
#НамДжунаБыВакансия: Data Analyst / Data Steward (Junior+ / Middle) в Абсолют Банк.Чтобы отправить резюме, придется зарегистрироваться в ODS.ai и написать в личку Schtirlitz #НамДжунаБыВакансия: Data Analyst / Data Steward (Junior+ / Middle) в Абсолют Банк.Чтобы отправить резюме, придется зарегистрироваться в ODS.ai и написать в личку Schtirlitz

#НамДжунаБыВакансия: Data Analyst / Data Steward (Junior+ / Middle) в Абсолют Банк.Чтобы отправить резюме, придется зарегистрироваться в ODS.ai и написать в личку Schtirlitz

2 месяца, 2 недели назад @ t.me
https://h2oai.github.io/db-benchmark/Тут во внутреннем чатике мелькнула статья про бенчмарки в некоторых базах данных. Что там есть: 500 MB, 5 GB и 50 GB объем данных, groupby и join операции. Пример на скриншоте.This page aims to benchmark various databas
https://h2oai.github.io/db-benchmark/Тут во внутреннем чатике мелькнула статья про бенчмарки в некоторых базах данных. Что там есть: 500 MB, 5 GB и 50 GB объем данных, groupby и join операции. Пример на скриншоте.This page aims to benchmark various databas https://h2oai.github.io/db-benchmark/Тут во внутреннем чатике мелькнула статья про бенчмарки в некоторых базах данных. Что там есть: 500 MB, 5 GB и 50 GB объем данных, groupby и join операции. Пример на скриншоте.This page aims to benchmark various databas

https://h2oai.github.io/db-benchmark/Тут во внутреннем чатике мелькнула статья про бенчмарки в некоторых базах данных. Что там есть: 500 MB, 5 GB и 50 GB объем данных, groupby и join операции. Пример на скриншоте.This page aims to benchmark various database-like tools popular in open-source data science. It runs regularly against very latest versions of these packages and automatically updates. We provide this as a service to both developers of these packages and to users. You can find out more about the project in Efficiency in data processing slides and talk made by Matt Dowle on H2OWorld 2019 NYC conference.

2 месяца, 2 недели назад @ t.me
#НамДжунаБы Ngrow.ai в поисках Junior Python Developer
#НамДжунаБы Ngrow.ai в поисках Junior Python Developer #НамДжунаБы Ngrow.ai в поисках Junior Python Developer

#НамДжунаБы Ngrow.ai в поисках Junior Python Developer

2 месяца, 3 недели назад @ t.me
enthusiastech enthusiastech
последний пост 7 часов назад
Schema evolution showcaseData is ever changing. A couple of examples you will definitely face with while dealing with data pipelines:– adding new attributes, removing old ones– changing data types: int -> float, resizeing text– renaming columns (change
Schema evolution showcaseData is ever changing. A couple of examples you will definitely face with while dealing with data pipelines:– adding new attributes, removing old ones– changing data types: int -> float, resizeing text– renaming columns (change

Schema evolution showcaseData is ever changing. A couple of examples you will definitely face with while dealing with data pipelines:– adding new attributes, removing old ones– changing data types: int -> float, resizeing text– renaming columns (change mapping)Got a couple of new events with an attribute exceeding current maximum length in database.Simple approach is to resize problem column:ALTER TABLE hevo.wheely_prod_orders ALTER COLUMN stops TYPE VARCHAR(4096) ;A lot of ELT tools can do it automatically without DE attention.In my case it's tricky as I am using Materialized Views:> SQL Error [500310] [0A000]: Amazon Invalid operation: cannot alter type of a column used by a materialized …

7 часов назад @ t.me
Andrew @Gunnnn just shared his thoughts on Databricks' Delta Live Tables. After inspection I can state it is pretty similar to so called Materialized Views.Recently I've been switching all Wheely's models in layers flatten, staging to MV.A detailed post is
Andrew @Gunnnn just shared his thoughts on Databricks' Delta Live Tables. After inspection I can state it is pretty similar to so called Materialized Views.Recently I've been switching all Wheely's models in layers flatten, staging to MV.A detailed post is Andrew @Gunnnn just shared his thoughts on Databricks' Delta Live Tables. After inspection I can state it is pretty similar to so called Materialized Views.Recently I've been switching all Wheely's models in layers flatten, staging to MV.A detailed post is

Andrew @Gunnnn just shared his thoughts on Databricks' Delta Live Tables. After inspection I can state it is pretty similar to so called Materialized Views.Recently I've been switching all Wheely's models in layers flatten, staging to MV.A detailed post is coming.Briefly, Redshift Materialized Views:- Pre-compute result sets (that is why they are called 'materialized')- Can be refreshed automatically as soon as new data in source tables arrives- Incremental refresh is possible via internal Redshift algorithms- Run as simple as REFRESH MATERIALIZED VIEW {name} ;Now I can call it a new paradigm, where DAGs of transformations are triggered automatically by Database Engine as soon as new data a…

13 часов назад @ t.me
Amazon Redshift offers its own Advisor to detect skewed tables, but still you have to decide which dist key to choose on your own.Using dbt allows changing table distribution style easily.Those who don't use dbt may trigger:ALTER TABLE {table_name} ALTER D
Amazon Redshift offers its own Advisor to detect skewed tables, but still you have to decide which dist key to choose on your own.Using dbt allows changing table distribution style easily.Those who don't use dbt may trigger:ALTER TABLE {table_name} ALTER D Amazon Redshift offers its own Advisor to detect skewed tables, but still you have to decide which dist key to choose on your own.Using dbt allows changing table distribution style easily.Those who don't use dbt may trigger:ALTER TABLE {table_name} ALTER D

Amazon Redshift offers its own Advisor to detect skewed tables, but still you have to decide which dist key to choose on your own.Using dbt allows changing table distribution style easily.Those who don't use dbt may trigger:ALTER TABLE {table_name} ALTER DISTSTYLE EVEN ;This one is settled.#mpp #skew #redshift

1 день, 14 часов назад @ t.me
Identify Skewed Tables and Redistribute themClassic issue with MPP and clustered databasesConveying whole idea in two pictures:When there's a data skew (among cluster nodes), there's a bottleneck. And total execution time is execution time of the longest n
Identify Skewed Tables and Redistribute themClassic issue with MPP and clustered databasesConveying whole idea in two pictures:When there's a data skew (among cluster nodes), there's a bottleneck. And total execution time is execution time of the longest n Identify Skewed Tables and Redistribute themClassic issue with MPP and clustered databasesConveying whole idea in two pictures:When there's a data skew (among cluster nodes), there's a bottleneck. And total execution time is execution time of the longest n

Identify Skewed Tables and Redistribute themClassic issue with MPP and clustered databasesConveying whole idea in two pictures:When there's a data skew (among cluster nodes), there's a bottleneck. And total execution time is execution time of the longest node.

1 день, 14 часов назад @ t.me
Full-size: https://habrastorage.org/webt/em/x1/gz/emx1gzcpvtaybd5z0xvxbi2diui.gif
Full-size: https://habrastorage.org/webt/em/x1/gz/emx1gzcpvtaybd5z0xvxbi2diui.gif

Full-size: https://habrastorage.org/webt/em/x1/gz/emx1gzcpvtaybd5z0xvxbi2diui.gif

2 дня, 5 часов назад @ t.me
Data Vault 2.0 + Greenplum + dbtVault assignment Step-by-step instruction available on Github Gist:1. Spin up Greenplum Cluster on Yandex.Cloud2. Generate TPCH dataset (10GB)3. Populate Data Vault with dbtVault packagehttps://gist.github.com/kzzzr/4ab36bec
Data Vault 2.0 + Greenplum + dbtVault assignment Step-by-step instruction available on Github Gist:1. Spin up Greenplum Cluster on Yandex.Cloud2. Generate TPCH dataset (10GB)3. Populate Data Vault with dbtVault packagehttps://gist.github.com/kzzzr/4ab36bec

Data Vault 2.0 + Greenplum + dbtVault assignment Step-by-step instruction available on Github Gist:1. Spin up Greenplum Cluster on Yandex.Cloud2. Generate TPCH dataset (10GB)3. Populate Data Vault with dbtVault packagehttps://gist.github.com/kzzzr/4ab36bec6897e48e44e792dc2e706de9We have been discussing this topic for 3 lessons so far (6 hours). Anyone interested can try it out.

2 дня, 5 часов назад @ t.me
Just received a small viz on Data professions built on Metabase from a student as a homework assignment.Simple but still incredible.We might step onto next level by:– refreshing data on a regular basis– expand to a list of other professions like Web, Backe
Just received a small viz on Data professions built on Metabase from a student as a homework assignment.Simple but still incredible.We might step onto next level by:– refreshing data on a regular basis– expand to a list of other professions like Web, Backe Just received a small viz on Data professions built on Metabase from a student as a homework assignment.Simple but still incredible.We might step onto next level by:– refreshing data on a regular basis– expand to a list of other professions like Web, Backe

Just received a small viz on Data professions built on Metabase from a student as a homework assignment.Simple but still incredible.We might step onto next level by:– refreshing data on a regular basis– expand to a list of other professions like Web, Backend, Designer– introduce some additional dimensions and metrices– grant public access to this dashboard#bi #metabase #hh

4 дня, 14 часов назад @ t.me
I have updated Wheely's production workloads to a new version of dbt==0.21.0Along with major improvements to performance, stability, and speed we now have:– A dbt build command for multi-resource runs– Handling for column schema changes in incremental mode
I have updated Wheely's production workloads to a new version of dbt==0.21.0Along with major improvements to performance, stability, and speed we now have:– A dbt build command for multi-resource runs– Handling for column schema changes in incremental mode

I have updated Wheely's production workloads to a new version of dbt==0.21.0Along with major improvements to performance, stability, and speed we now have:– A dbt build command for multi-resource runs– Handling for column schema changes in incremental models– Defining configs in all the places you’d expectAn average prod job definition looks like: dbt seed + dbt run + dbt snapshot + dbt testNow with single dbt build command its going to be really simplified and convenient, building resource by resource, from left to right across your DAG.New on_schema_change parameter enables additional control when incremental model columns change. Possible strategies are:– ignore (default): new column wil…

6 дней, 14 часов назад @ t.me
Sometimes you have to test a lot of data quality expectations.And sometimes tests might catch something glitchy and annoying over and over again, which in fact turns out to be OK.For example, later arriving data or ELT process time lag.Since 0.20.0 dbt int
Sometimes you have to test a lot of data quality expectations.And sometimes tests might catch something glitchy and annoying over and over again, which in fact turns out to be OK.For example, later arriving data or ELT process time lag.Since 0.20.0 dbt int Sometimes you have to test a lot of data quality expectations.And sometimes tests might catch something glitchy and annoying over and over again, which in fact turns out to be OK.For example, later arriving data or ELT process time lag.Since 0.20.0 dbt int

Sometimes you have to test a lot of data quality expectations.And sometimes tests might catch something glitchy and annoying over and over again, which in fact turns out to be OK.For example, later arriving data or ELT process time lag.Since 0.20.0 dbt introduced error_if + warn_if configsNow it won't fail with ERROR waking me up in the morning1st pic: error message in Slack2nd pic: error details (failed tests)3rd pic: new config which helps avoid errors with < 10 rows#testing #dbt

1 неделя, 2 дня назад @ t.me
Did a brief Data Infrastructure overview today during onboarding session for new Product Analysts @ WheelyFollow-up to share with you all 1. dbtCloud – invitations sent, start exploring– Docs– Data Sources– Jobs definition2. Redshift credentails sent to PM
Did a brief Data Infrastructure overview today during onboarding session for new Product Analysts @ WheelyFollow-up to share with you all 1. dbtCloud – invitations sent, start exploring– Docs– Data Sources– Jobs definition2. Redshift credentails sent to PM Did a brief Data Infrastructure overview today during onboarding session for new Product Analysts @ WheelyFollow-up to share with you all 1. dbtCloud – invitations sent, start exploring– Docs– Data Sources– Jobs definition2. Redshift credentails sent to PM

Did a brief Data Infrastructure overview today during onboarding session for new Product Analysts @ WheelyFollow-up to share with you all 1. dbtCloud – invitations sent, start exploring– Docs– Data Sources– Jobs definition2. Redshift credentails sent to PM3. Access Jupyter Hub via corporate email4. Read more about dbt:– dbt basics– Start with dbtCloud IDE– Alternatively, install dbt@0.20.2 (use Homebrew on Mac) and use with any local IDE (VSCode, PyCharm)5. Couple of youtube vids:– dbt в управлении хранилищем данных – опыт Wheely– ОБЗОР LOOKER - БОЛЬШЕ ЧЕМ ПРОСТО BIShout-out to you guys!#dataops #onboarding

1 неделя, 3 дня назад @ t.me
Here's what Github has sent onto our webhook for past 5 days.Events of most interest:- Issues & Pull requests (#, who, when, where, how hard)- Push (commit frequency and complexity by repos, teams)- Workflows (Actions metrices)- Checks (Continuous Inte
Here's what Github has sent onto our webhook for past 5 days.Events of most interest:- Issues &amp; Pull requests (#, who, when, where, how hard)- Push (commit frequency and complexity by repos, teams)- Workflows (Actions metrices)- Checks (Continuous Inte Here's what Github has sent onto our webhook for past 5 days.Events of most interest:- Issues &amp; Pull requests (#, who, when, where, how hard)- Push (commit frequency and complexity by repos, teams)- Workflows (Actions metrices)- Checks (Continuous Inte

Here's what Github has sent onto our webhook for past 5 days.Events of most interest:- Issues & Pull requests (#, who, when, where, how hard)- Push (commit frequency and complexity by repos, teams)- Workflows (Actions metrices)- Checks (Continuous Integration metrices)Detailed event payload described at Github Docs.This data is heavy nested, so new SUPER data type (Redshift) comes really handy for this task to unnest and flatten data.Soon I will build something worthwhile on top of this data.#dwh #pipelines #github

1 неделя, 3 дня назад @ t.me
Long live TelegramRest in peace Facebook, WhatsApp, InstagramRight now 😄
Long live TelegramRest in peace Facebook, WhatsApp, InstagramRight now 😄

Long live TelegramRest in peace Facebook, WhatsApp, InstagramRight now 😄

1 неделя, 4 дня назад @ t.me
Here's an easy way to generate comprehensive definition (.yml) of your data sources:dbt run-operation generate_source --args '{"schema_name": "hevo", "generate_columns": "True", "include_descriptions": "True"}' > src.yaml- get the list of attributes for
Here's an easy way to generate comprehensive definition (.yml) of your data sources:dbt run-operation generate_source --args '{"schema_name": "hevo", "generate_columns": "True", "include_descriptions": "True"}' &gt; src.yaml- get the list of attributes for

Here's an easy way to generate comprehensive definition (.yml) of your data sources:dbt run-operation generate_source --args '{"schema_name": "hevo", "generate_columns": "True", "include_descriptions": "True"}' > src.yaml- get the list of attributes for every source table- include descriptions (docs) to be filledMy goals are to:- Create a single source of truth unifying source data (backend, marketing, events), data marts (DWH), exposures (dashboards, reports) in one place – dbt Docs- Provide smooth access to docs website via Google SSO / AWS Cognito to whole company- Cover source tables with freshness and schema tests- Enable filling in comments and descriptions into predefined structure- …

1 неделя, 4 дня назад @ t.me
Начали пылесосить события Github организации Wheely в наше Хранилище.Интеграция с помощью Webhook:– PushEvent– PullRequestEvent– ReleaseEventПока отталкиваемся от опыта Gitlab – Centralized Engineering Metrics. Интересные метрики:– MR Rate– MRs vs Issues–
Начали пылесосить события Github организации Wheely в наше Хранилище.Интеграция с помощью Webhook:– PushEvent– PullRequestEvent– ReleaseEventПока отталкиваемся от опыта Gitlab – Centralized Engineering Metrics. Интересные метрики:– MR Rate– MRs vs Issues– Начали пылесосить события Github организации Wheely в наше Хранилище.Интеграция с помощью Webhook:– PushEvent– PullRequestEvent– ReleaseEventПока отталкиваемся от опыта Gitlab – Centralized Engineering Metrics. Интересные метрики:– MR Rate– MRs vs Issues–

Начали пылесосить события Github организации Wheely в наше Хранилище.Интеграция с помощью Webhook:– PushEvent– PullRequestEvent– ReleaseEventПока отталкиваемся от опыта Gitlab – Centralized Engineering Metrics. Интересные метрики:– MR Rate– MRs vs Issues– MRs by team membersИдея – отслеживать метрики и привязывать цели/OKR разработчиков и команд к этим метрикам.Буду держать в курсе.#dwh #pipelines

2 недели назад @ t.me
Обожаю Looker. С версии 21.0 по дефолту дашборды строятся в новом стиле.Однако часть пользователей привыкли к предыдущей (legacy) версии.Для обратной совместимости фичей заботливо оставлена возможность включить поддержку Legacy Features.Вернул к предыдущем
Обожаю Looker. С версии 21.0 по дефолту дашборды строятся в новом стиле.Однако часть пользователей привыкли к предыдущей (legacy) версии.Для обратной совместимости фичей заботливо оставлена возможность включить поддержку Legacy Features.Вернул к предыдущем Обожаю Looker. С версии 21.0 по дефолту дашборды строятся в новом стиле.Однако часть пользователей привыкли к предыдущей (legacy) версии.Для обратной совместимости фичей заботливо оставлена возможность включить поддержку Legacy Features.Вернул к предыдущем

Обожаю Looker. С версии 21.0 по дефолту дашборды строятся в новом стиле.Однако часть пользователей привыкли к предыдущей (legacy) версии.Для обратной совместимости фичей заботливо оставлена возможность включить поддержку Legacy Features.Вернул к предыдущему виду. Сам дашборд не могу показать :)#looker #bi

2 недели назад @ t.me
data будни data будни
последний пост 1 день, 11 часов назад
Истории об идемпотентностиИдемпотентность — это когда результат действия не зависит от количества его исполнений: запусти процесс один или сто раз — в любом случае получаешь тот же самый результат. Важная концепция из мира работы с данными — тут миры дата-
Истории об идемпотентностиИдемпотентность — это когда результат действия не зависит от количества его исполнений: запусти процесс один или сто раз — в любом случае получаешь тот же самый результат. Важная концепция из мира работы с данными — тут миры дата-

Истории об идемпотентностиИдемпотентность — это когда результат действия не зависит от количества его исполнений: запусти процесс один или сто раз — в любом случае получаешь тот же самый результат. Важная концепция из мира работы с данными — тут миры дата-инженеров и бэкенд-разработчиков пересекаются.Денис Исаев из Яндекс.Такси на примере реальных историй показывает, как проектировать процессы идемпотентными (и когда не надо :-). Есть ссылки на реализации API в Amazon AWS и Google Cloud.Кейсы кажутся очень похожими на реальные: 1. Приложение шлёт одинаковые запросы с разницей в секунды 2. Приложение шлёт запрос с плохим интернетом (или моргнула сеть в инфраструктуре) 3. Мультизаказы с ключо…

1 день, 11 часов назад @ t.me
Послушать:советы по ML Ops из Moscow Pythonсами по себе МЛ-модели — это малая доля работы всего этого вашего машин-лёрнинга. До этого надо ещё собрать данные, их почистить и подготовить (ну вы знаете); обучить модель «на коленке», а потом переписать этот к
Послушать:советы по ML Ops из Moscow Pythonсами по себе МЛ-модели — это малая доля работы всего этого вашего машин-лёрнинга. До этого надо ещё собрать данные, их почистить и подготовить (ну вы знаете); обучить модель «на коленке», а потом переписать этот к

Послушать:советы по ML Ops из Moscow Pythonсами по себе МЛ-модели — это малая доля работы всего этого вашего машин-лёрнинга. До этого надо ещё собрать данные, их почистить и подготовить (ну вы знаете); обучить модель «на коленке», а потом переписать этот код НОРМАЛЬНО, чтобы можно было запустить в прод. Код в продакшене должен быть читаемым, повторяемы и поддерживаемым — именно в этой области работают специалисты по т.н. ML Ops. Слушать в iTunes и OvercastДата-парень (ex-Spotify) в подкасте от dbt labsErik Bernhardsson — автор Luigi; оказывается, Luigiзапустился чуть раньше, чем Airflow (нынешний стандарт оркестрации)понравилось мнение, что дата-отрасль сейчас как веб в 2000-х: есть по сути…

2 дня, 9 часов назад @ t.me
Подброка подкастов про данные:Паша Финкельштейн в Data CoffeeПаша в силу своей профессии хорошо рассказывает сложные концепции простым языком. Плюс благодаря своему опыту, у него очень широкий взгляд на отрасль в целом. Получилась такая хорошая общая бесед
Подброка подкастов про данные:Паша Финкельштейн в Data CoffeeПаша в силу своей профессии хорошо рассказывает сложные концепции простым языком. Плюс благодаря своему опыту, у него очень широкий взгляд на отрасль в целом. Получилась такая хорошая общая бесед

Подброка подкастов про данные:Паша Финкельштейн в Data CoffeeПаша в силу своей профессии хорошо рассказывает сложные концепции простым языком. Плюс благодаря своему опыту, у него очень широкий взгляд на отрасль в целом. Получилась такая хорошая общая беседа, обсудили в том числе зачем нужен Спарк и почему не делать всё через Пандас.Петр Ермаков в Moscow PythonПетр — организартор курсов DataGym и один из первых участников сообщества ODS. Ещё одна общая хорошая беседа на тему зачем отрасли нужны сообщества.Антон Карпов в Запуск Завтра Антон — директор по безопасности Яндекса — рассказал про крупнейшую в мире (!) DDoS-атаку, которую успешно (!!) отразили внутренними инструментами без ковровых …

1 неделя, 3 дня назад @ t.me
Как устроена структура данных в Notion … и как обеспечить ту самую гибкость, благодаря которой Notion стал таким популярным)https://www.notion.so/blog/data-model-behind-notionкстати, они нанимают инженеров для работы с данными. Для тех, кому понравился пос
Как устроена структура данных в Notion … и как обеспечить ту самую гибкость, благодаря которой Notion стал таким популярным)https://www.notion.so/blog/data-model-behind-notionкстати, они нанимают инженеров для работы с данными. Для тех, кому понравился пос

Как устроена структура данных в Notion … и как обеспечить ту самую гибкость, благодаря которой Notion стал таким популярным)https://www.notion.so/blog/data-model-behind-notionкстати, они нанимают инженеров для работы с данными. Для тех, кому понравился пост выше.https://www.notion.so/Software-Engineer-Data-Platform-San-Francisco-CA-79be6b036fb34fce88f663648ffdac62

3 недели, 1 день назад @ t.me
Анализ вакансий из сообщества ODSребята спарсили вакансии из своего Слака и «повертели» данные с разных сторон: ⁃ количество вакансий ⁃ распределение по профессиям и уровням ⁃ динамика роста удалёнки ⁃ ну и зарплаты, конечно же (зачем же это всё затевалось
Анализ вакансий из сообщества ODSребята спарсили вакансии из своего Слака и «повертели» данные с разных сторон: ⁃ количество вакансий ⁃ распределение по профессиям и уровням ⁃ динамика роста удалёнки ⁃ ну и зарплаты, конечно же (зачем же это всё затевалось Анализ вакансий из сообщества ODSребята спарсили вакансии из своего Слака и «повертели» данные с разных сторон: ⁃ количество вакансий ⁃ распределение по профессиям и уровням ⁃ динамика роста удалёнки ⁃ ну и зарплаты, конечно же (зачем же это всё затевалось

Анализ вакансий из сообщества ODSребята спарсили вакансии из своего Слака и «повертели» данные с разных сторон: ⁃ количество вакансий ⁃ распределение по профессиям и уровням ⁃ динамика роста удалёнки ⁃ ну и зарплаты, конечно же (зачем же это всё затевалось!)плюс всё в динамике: в каждом срезе сравнивают показатели с прошлыми годами.радует, что становится больше вакансий дата аналитиков — кажется рынок начал понимать зачем нанимать кого-то ещё кроме «дата саентистов»статья с графиками:https://habr.com/ru/company/ods/blog/572264/исходные данные для исследования:https://github.com/egorborisov/jobs_article/blob/main/jobs_research.ipynb

1 месяц, 1 неделя назад @ t.me
в продолжение темы Data Engineer VS Data Scientistна мега-крутом дашборде Ромы Бунина и Николая Валиотти можно посмотреть динамику спроса на дата-профессии. Мне интересно сравнить нашего брата дата инженера с хайповым дата саентистом.Первое, что хочется от
в продолжение темы Data Engineer VS Data Scientistна мега-крутом дашборде Ромы Бунина и Николая Валиотти можно посмотреть динамику спроса на дата-профессии. Мне интересно сравнить нашего брата дата инженера с хайповым дата саентистом.Первое, что хочется от в продолжение темы Data Engineer VS Data Scientistна мега-крутом дашборде Ромы Бунина и Николая Валиотти можно посмотреть динамику спроса на дата-профессии. Мне интересно сравнить нашего брата дата инженера с хайповым дата саентистом.Первое, что хочется от

в продолжение темы Data Engineer VS Data Scientistна мега-крутом дашборде Ромы Бунина и Николая Валиотти можно посмотреть динамику спроса на дата-профессии. Мне интересно сравнить нашего брата дата инженера с хайповым дата саентистом.Первое, что хочется отметить — зарплаты дата инженеров на втором месте. Второе — количество вакансий больше на треть. Я бы здесь ожидал разницу побольше, но скидываю это на то, что дата саентистами называют всех подряд (т.н. термин-одеяло). Было бы правильнее искать что-то типа ML Engineer, но таких было бы ещё меньше (и большая часть без зарплат, да).Весь проект и пост в канале Ромы Бунина (зацените ещё бизнес аналитиков ;-)https://t.me/revealthedata/498

1 месяц, 3 недели назад @ t.me
Data Engineering на Яндекс.ПрактикумеУра! Это наконец случилось! Практикум выкатил программу для инженеров данных! Пока в предзаказ — надо успевать, чтобы попасть в первый поток.Теперь можно получить профильный курс и выпускников с релевантными навыками (я
Data Engineering на Яндекс.ПрактикумеУра! Это наконец случилось! Практикум выкатил программу для инженеров данных! Пока в предзаказ — надо успевать, чтобы попасть в первый поток.Теперь можно получить профильный курс и выпускников с релевантными навыками (я

Data Engineering на Яндекс.ПрактикумеУра! Это наконец случилось! Практикум выкатил программу для инженеров данных! Пока в предзаказ — надо успевать, чтобы попасть в первый поток.Теперь можно получить профильный курс и выпускников с релевантными навыками (я не как я — учился на аналитика, чтобы потом изучать инжиниринг данных уже на реальном проекте ¯\_(ツ)_/¯ )Сразу о главном: 80 000₽ и полгода обучения.Программа прям по-максимуму: концепции и архитектура данных, пайплайны, оркестрация, инфраструктура. Вот скопипастил полный список (хоть иди и учись заново, черт побери): 1. Знакомство с ETL / ELT, DWH / Data Lake, REST API → PostgreSQL 2. Продвинутый SQL: хранимые, тригеры, шардирование (!) …

1 месяц, 3 недели назад @ t.me
у ребят из dbt появился свой подкаст, назвали актуальненько — Analtycs Engineering.В первом эпизоде с Robert Chang из Airbnb, обсудили проблему управления метриками в компании. В Aribnb таких 12000 и чтобы как-то управляться они сделали систему Minerva как
у ребят из dbt появился свой подкаст, назвали актуальненько — Analtycs Engineering.В первом эпизоде с Robert Chang из Airbnb, обсудили проблему управления метриками в компании. В Aribnb таких 12000 и чтобы как-то управляться они сделали систему Minerva как

у ребят из dbt появился свой подкаст, назвали актуальненько — Analtycs Engineering.В первом эпизоде с Robert Chang из Airbnb, обсудили проблему управления метриками в компании. В Aribnb таких 12000 и чтобы как-то управляться они сделали систему Minerva как единый источник правды для всех метрик.https://podcasts.apple.com/us/podcast/the-analytics-engineering-podcast/id1574755368

1 месяц, 3 недели назад @ t.me
За одну минуту о том, зачем нужны дата инженеры для машинного обучения. С ГИФКАМИ!https://www.youtube.com/watch?v=efFuNYqg-YU&list=PLRKtJ4IpxJpDxl0NTvNYQWKCYzHNuy2xG
За одну минуту о том, зачем нужны дата инженеры для машинного обучения. С ГИФКАМИ!https://www.youtube.com/watch?v=efFuNYqg-YU&amp;list=PLRKtJ4IpxJpDxl0NTvNYQWKCYzHNuy2xG

За одну минуту о том, зачем нужны дата инженеры для машинного обучения. С ГИФКАМИ!https://www.youtube.com/watch?v=efFuNYqg-YU&list=PLRKtJ4IpxJpDxl0NTvNYQWKCYzHNuy2xG

1 месяц, 3 недели назад @ t.me
Ищем дата инженеров в агентсво Epoch8Эпоха — агенство заказной разработки, мы помогаем клиентам работать с их данными: понимать что было (аналитика) и что будет (ML). Сейчас в штате 20 человек — до бюрократии ещё не доросли, фаундеры в прямой доступности,
Ищем дата инженеров в агентсво Epoch8Эпоха — агенство заказной разработки, мы помогаем клиентам работать с их данными: понимать что было (аналитика) и что будет (ML). Сейчас в штате 20 человек — до бюрократии ещё не доросли, фаундеры в прямой доступности,

Ищем дата инженеров в агентсво Epoch8Эпоха — агенство заказной разработки, мы помогаем клиентам работать с их данными: понимать что было (аналитика) и что будет (ML). Сейчас в штате 20 человек — до бюрократии ещё не доросли, фаундеры в прямой доступности, каждый может влиять на курс и политику компании. В клиентах как большие е-коммерсы типа Leroy Merlin и Пятёрочки, так и стартапы: например, BelkaCar или Brickit.Ищем дата инженеров в отдел аналитики. Обычно инженер сопровождает проект от начала и до конца: ⁃ приходиться разбираться с источниками данных у клиентов; ⁃ поднимать и поддерживать хранилища данных (DWH); ⁃ проектировать автономные пайплайны; ⁃ придумывать архитектуру аналитически…

2 месяца назад @ t.me
Не Спарком единымза последние полгода в Эпохе поучаствовал в проектах по построению четырёх DWH для наших клиентов: 3 на BigQuery и ещё один на AWS Athena. Всё как надо — изучили источники, настроили пайплайны, собрали данные в одном месте, нарезали на сло
Не Спарком единымза последние полгода в Эпохе поучаствовал в проектах по построению четырёх DWH для наших клиентов: 3 на BigQuery и ещё один на AWS Athena. Всё как надо — изучили источники, настроили пайплайны, собрали данные в одном месте, нарезали на сло

Не Спарком единымза последние полгода в Эпохе поучаствовал в проектах по построению четырёх DWH для наших клиентов: 3 на BigQuery и ещё один на AWS Athena. Всё как надо — изучили источники, настроили пайплайны, собрали данные в одном месте, нарезали на слои, вывели на дашборды. Клиенты довольны.При этом задействовано Спарка в проектах: ноль. Обошлись как-то и без Кафки с Хадупом.Иногда кажется, что это какая-то ненастоящая дата инженерия. Но вот наш СТО скинул статью и я подуспокоился: ребята делают такие же DWH и так же обходятся без инструментов бигдаты.Со всеми тезисами согласен — мы делаем так же: облачные DWH, инжест через пайплайны на питоне с использованием готовых библиотек, широкие…

2 месяца, 1 неделя назад @ t.me
Два подкаста про игры с точки зрения машинного обученияПервый — короткий рассказ как машины учились обыгрывать людей в игры: шахматы, го, Дота 2 и даже прятки.Особенно понравилась вставка про Доту с интернешнала с живыми криками комментатора. Фанфакт: пере
Два подкаста про игры с точки зрения машинного обученияПервый — короткий рассказ как машины учились обыгрывать людей в игры: шахматы, го, Дота 2 и даже прятки.Особенно понравилась вставка про Доту с интернешнала с живыми криками комментатора. Фанфакт: пере

Два подкаста про игры с точки зрения машинного обученияПервый — короткий рассказ как машины учились обыгрывать людей в игры: шахматы, го, Дота 2 и даже прятки.Особенно понравилась вставка про Доту с интернешнала с живыми криками комментатора. Фанфакт: перед матчем с Денди машина тренировалась 2500 лет игрового времени.Слушать в iTunes и OvercastВторой подкаст — уже серьёзный разговор с инженером из Google Deepmind о том что там под капотом у этого процесса и где эти навыки можно применить в реальном мире.Ссылки на подкаст в посте автора

2 месяца, 1 неделя назад @ t.me
Уровни аналитиковЖеня Козлов описал опыт Яндекса по формализации грейдов для аналитиков. Написано очень чётко, можно использовать как шпаргалку для команд или личного развития.Понравилось чёткое разделение каждого грейда в разрезе подхода к задачам (мелко
Уровни аналитиковЖеня Козлов описал опыт Яндекса по формализации грейдов для аналитиков. Написано очень чётко, можно использовать как шпаргалку для команд или личного развития.Понравилось чёткое разделение каждого грейда в разрезе подхода к задачам (мелко

Уровни аналитиковЖеня Козлов описал опыт Яндекса по формализации грейдов для аналитиков. Написано очень чётко, можно использовать как шпаргалку для команд или личного развития.Понравилось чёткое разделение каждого грейда в разрезе подхода к задачам (мелко разжованные а в конце просто глобальное направление). В самом начале всё равно нужны математическая база, критическое мышление и какой-то прикладной опыт программирования.Ниже надёргал абзацев из каждого раздела, рекомендую почитать целиком:---- Аналитик данных – это человек, который помогает команде: • Принимать решения более объективно, основываясь на фактах и данных (в противовес мнению, интуиции и опыту). • Искать точки роста продукта …

2 месяца, 1 неделя назад @ t.me
когда 2 года назад выбирал профессию, ориентировался именно на это соотношение. Кажется, не прогадал)https://sashamikhailov.ru/blog/all/data-analyst-and-data-scientist/
когда 2 года назад выбирал профессию, ориентировался именно на это соотношение. Кажется, не прогадал)https://sashamikhailov.ru/blog/all/data-analyst-and-data-scientist/

когда 2 года назад выбирал профессию, ориентировался именно на это соотношение. Кажется, не прогадал)https://sashamikhailov.ru/blog/all/data-analyst-and-data-scientist/

2 месяца, 2 недели назад @ t.me
эмпирически-оптимальное соотноешение: 2-3 дата инженеров на одного мл-инженера. Если дата инженеров меньше, то, получается, их работу делают мл-инженеры [а могли бы модели делать что-нибудь своё МЛ-ное].https://twitter.com/dsunderhood/status/14207698580531
эмпирически-оптимальное соотноешение: 2-3 дата инженеров на одного мл-инженера. Если дата инженеров меньше, то, получается, их работу делают мл-инженеры [а могли бы модели делать что-нибудь своё МЛ-ное].https://twitter.com/dsunderhood/status/14207698580531 эмпирически-оптимальное соотноешение: 2-3 дата инженеров на одного мл-инженера. Если дата инженеров меньше, то, получается, их работу делают мл-инженеры [а могли бы модели делать что-нибудь своё МЛ-ное].https://twitter.com/dsunderhood/status/14207698580531

эмпирически-оптимальное соотноешение: 2-3 дата инженеров на одного мл-инженера. Если дата инженеров меньше, то, получается, их работу делают мл-инженеры [а могли бы модели делать что-нибудь своё МЛ-ное].https://twitter.com/dsunderhood/status/1420769858053103617

2 месяца, 2 недели назад @ t.me
под капотом Яндекс.Такси под капотом Яндекс.Такси
последний пост 3 месяца, 3 недели назад
Яндекс Go разрабатывает платформу управления данными (DMP) как сервис для офлайн- и near real-time-обработки данных. Владимир Верстов постарался рассказать, какая мотивация нужна для создания собственного ETL-инструмента, как ETL и Data Warehouse превратит
Яндекс Go разрабатывает платформу управления данными (DMP) как сервис для офлайн- и near real-time-обработки данных. Владимир Верстов постарался рассказать, какая мотивация нужна для создания собственного ETL-инструмента, как ETL и Data Warehouse превратит Яндекс Go разрабатывает платформу управления данными (DMP) как сервис для офлайн- и near real-time-обработки данных. Владимир Верстов постарался рассказать, какая мотивация нужна для создания собственного ETL-инструмента, как ETL и Data Warehouse превратит

Яндекс Go разрабатывает платформу управления данными (DMP) как сервис для офлайн- и near real-time-обработки данных. Владимир Верстов постарался рассказать, какая мотивация нужна для создания собственного ETL-инструмента, как ETL и Data Warehouse превратить в DMP, какие проблемы возникают в процессе разработки и как мы их решаем.🎓 Разработка платформы управления данными. Доклад Яндекса

3 месяца, 3 недели назад @ t.me
Общепринятый и проверенный временем подход к построению Data Warehouse (DWH) — это схема «Звезда» или «Снежинка». Такой подход каноничен, фундаментален, вотрфоллен и совсем не отвечает той гибкости, к которой призывает Agile. Чтобы сделать структуру DWH ги
Общепринятый и проверенный временем подход к построению Data Warehouse (DWH) — это схема «Звезда» или «Снежинка». Такой подход каноничен, фундаментален, вотрфоллен и совсем не отвечает той гибкости, к которой призывает Agile. Чтобы сделать структуру DWH ги

Общепринятый и проверенный временем подход к построению Data Warehouse (DWH) — это схема «Звезда» или «Снежинка». Такой подход каноничен, фундаментален, вотрфоллен и совсем не отвечает той гибкости, к которой призывает Agile. Чтобы сделать структуру DWH гибкой, существуют современные подходы к проектированию: Data Vault и Anchor modeling — похожие и разные одновременно. Задавшись вопросом, какую из двух методологий выбрать, мы пришли к неожиданному ответу: выбирать надо не между подходами, а лучшее из двух подходов.🎓 Как мы внедрили свою модель хранения данных — highly Normalized hybrid Model. Доклад Яндекса

4 месяца, 2 недели назад @ t.me
Yandex Taxi Data Driven пройдёт 3-го апреля, регистрация уже открыта На нашей ежегодной встрече для аналитиков, мы, как и всегда, не будем делиться «историями успеха». Вместо этого мы честно расскажем, с какими задачами столкнулись и на какие грабли успели
Yandex Taxi Data Driven пройдёт 3-го апреля, регистрация уже открыта На нашей ежегодной встрече для аналитиков, мы, как и всегда, не будем делиться «историями успеха». Вместо этого мы честно расскажем, с какими задачами столкнулись и на какие грабли успели

Yandex Taxi Data Driven пройдёт 3-го апреля, регистрация уже открыта На нашей ежегодной встрече для аналитиков, мы, как и всегда, не будем делиться «историями успеха». Вместо этого мы честно расскажем, с какими задачами столкнулись и на какие грабли успели наступить. Вот какие кейсы рассмотрим.Платформа для A/B-тестирования. Во что вам обойдётся автоматизация экспериментов?Сергей Масленников, аналитик Яндекс Go, расскажет, как мы освободили тысячи аналитико-часов, разработав систему АБТ.Как внедрение дорожного графа в инфраструктуру такси помогло снизить время подачи машиныАртём Бондаренко, team-lead группы аналитики Go, поделится опытом внедрения дорожного графа прямо в сервис — вместо дор…

7 месяцев, 1 неделя назад @ t.me
Yandex.Go Data Driven Backstage Не секрет, что в Yandex.GO (Такси, Драйв, Лавка, Еда) умеют работать с данными. Но прежде чем стать кристально чистой эссенцией пророческих знаний, данные проходят через несколько стадий очистки, перегонки и выдержки — за вс
Yandex.Go Data Driven Backstage Не секрет, что в Yandex.GO (Такси, Драйв, Лавка, Еда) умеют работать с данными. Но прежде чем стать кристально чистой эссенцией пророческих знаний, данные проходят через несколько стадий очистки, перегонки и выдержки — за вс

Yandex.Go Data Driven Backstage Не секрет, что в Yandex.GO (Такси, Драйв, Лавка, Еда) умеют работать с данными. Но прежде чем стать кристально чистой эссенцией пророческих знаний, данные проходят через несколько стадий очистки, перегонки и выдержки — за все это отвечает наша служба DMP (Data Management Platfrom).На конференции SmartData ребята из службы DMP подсветили часть интересных нюансов про внутреннее устройство подготовки данных для аналитики всего Yandex.GO. Highly Normilized Hybrid Model Для того, чтобы сделать структуру DWH гибкой, существуют современные подходы к проектированию: Data Vault и Anchor modeling — похожие и разные одновременно. Задавшись вопросом, какую из двух методо…

7 месяцев, 3 недели назад @ t.me
У меня есть две огненные вакансии про BI и Табло в Яндекс.📈 BI-аналитик в Яндекс GoЭто новая позиция для Яндекса. Ищем человека, который хочет быть на стыке аналитики и визуализации. Вашей задачей будет развивать отчётность большого направления — аналитики
У меня есть две огненные вакансии про BI и Табло в Яндекс.📈 BI-аналитик в Яндекс GoЭто новая позиция для Яндекса. Ищем человека, который хочет быть на стыке аналитики и визуализации. Вашей задачей будет развивать отчётность большого направления — аналитики

У меня есть две огненные вакансии про BI и Табло в Яндекс.📈 BI-аналитик в Яндекс GoЭто новая позиция для Яндекса. Ищем человека, который хочет быть на стыке аналитики и визуализации. Вашей задачей будет развивать отчётность большого направления — аналитики приложений Яндекс Go. Необходимо разрабатывать стратегию развития отчётности, собирать данные и делать классные отчёты. Больше всего задач именно про дашборды, но придется готовить и данные. Вы не будете делать все-все дашборды для подразделения, но будете внутренним центром экспертизы по визуализации и Табло внутри команды продуктовой аналитики. Я же буду помогать вам советами и менторством.Позиция уровня мидл/джун. Нужны классные навыки…

8 месяцев, 3 недели назад @ t.me
🎧 Podcasts
Data Engineering Podcast Data Engineering Podcast
последний пост 1 день, 22 часа назад
How And Why To Become Data Driven As A Business
How And Why To Become Data Driven As A Business

Organizations of all sizes are striving to become data driven, starting in earnest with the rise of big data a decade ago. With the never-ending growth in data sources and methods for aggregating and analyzing them, the use of data to direct the business has become a requirement. Randy Bean has been helping enterprise organizations define and execute their data strategies since before the age of big data. In this episode he discusses his experiences and how he approached the work of distilling them for his book "Fail Fast, Learn Faster". This is an entertaining and enlightening exploration of the business side of data with an industry veteran.

1 день, 22 часа назад @ dataengineeringpodcast.com
Make Your Business Metrics Reusable With Open Source Headless BI Using Metriql
Make Your Business Metrics Reusable With Open Source Headless BI Using Metriql

The key to making data valuable to business users is the ability to calculate meaningful metrics and explore them along useful dimensions. Business intelligence tools have provided this capability for years, but they don't offer a means of exposing those metrics to other systems. Metriql is an open source project that provides a headless BI system where you can define your metrics and share them with all of your other processes. In this episode Burak Kabakcı shares the story behind the project, how you can use it to create your metrics definitions, and the benefits of treating the semantic layer as a dedicated component of your platform.

1 неделя назад @ dataengineeringpodcast.com
Adding Support For Distributed Transactions To The Redpanda Streaming Engine
Adding Support For Distributed Transactions To The Redpanda Streaming Engine

Transactions are a necessary feature for ensuring that a set of actions are all performed as a single unit of work. In streaming systems this is necessary to ensure that a set of messages or transformations are all executed together across different queues. In this episode Denis Rystsov explains how he added support for transactions to the Redpanda streaming engine. He discusses the use cases for transactions, the different strategies, semantics, and guarantees that they might need to support, and how his implementation ended up improving the performance of bulk write operations. This is an interesting deep dive into the internals of a high performance streaming engine and the details that …

1 неделя, 2 дня назад @ dataengineeringpodcast.com
Building Real-Time Data Platforms For Large Volumes Of Information With Aerospike
Building Real-Time Data Platforms For Large Volumes Of Information With Aerospike

Aerospike is a database engine that is designed to provide millisecond response times for queries across terabytes or petabytes. In this episode Chief Strategy Officer, Lenley Hensarling, explains how the ability to process these large volumes of information in real-time allows businesses to unlock entirely new capabilities. He also discusses the technical implementation that allows for such extreme performance and how the data model contributes to the scalability of the system. If you need to deal with massive data, at high velocities, in milliseconds, then Aerospike is definitely worth learning about.

1 неделя, 6 дней назад @ dataengineeringpodcast.com
Delivering Your Personal Data Cloud With Prifina
Delivering Your Personal Data Cloud With Prifina

The promise of online services is that they will make your life easier in exchange for collecting data about you. The reality is that they use more information than you realize for purposes that are not what you intended. There have been many attempts to harness all of the data that you generate for gaining useful insights about yourself, but they are generally difficult to set up and manage or require software development experience. The team at Prifina have built a platform that allows users to create their own personal data cloud and install applications built by developers that power useful experiences while keeping you in full control. In this episode Markus Lampinen shares the goals a…

2 недели, 1 день назад @ dataengineeringpodcast.com
Digging Into Data Reliability Engineering
Digging Into Data Reliability Engineering

The accuracy and availability of data has become critically important to the day-to-day operation of businesses. Similar to the practice of site reliability engineering as a means of ensuring consistent uptime of web services, there has been a new trend of building data reliability engineering practices in companies that rely heavily on their data. In this episode Egor Gryaznov explains how this practice manifests from a technical and organizational perspective and how you can start adopting it in your own teams.

2 недели, 5 дней назад @ dataengineeringpodcast.com
Massively Parallel Data Processing In Python Without The Effort Using Bodo
Massively Parallel Data Processing In Python Without The Effort Using Bodo

Python has beome the de facto language for working with data. That has brought with it a number of challenges having to do with the speed and scalability of working with large volumes of information.There have been many projects and strategies for overcoming these challenges, each with their own set of tradeoffs. In this episode Ehsan Totoni explains how he built the Bodo project to bring the speed and processing power of HPC techniques to the Python data ecosystem without requiring any re-work.

2 недели, 6 дней назад @ dataengineeringpodcast.com
Declarative Machine Learning Without The Operational Overhead Using Continual
Declarative Machine Learning Without The Operational Overhead Using Continual

Building, scaling, and maintaining the operational components of a machine learning workflow are all hard problems. Add the work of creating the model itself, and it's not surprising that a majority of companies that could greatly benefit from machine learning have yet to either put it into production or see the value. Tristan Zajonc recognized the complexity that acts as a barrier to adoption and created the Continual platform in response. In this episode he shares his perspective on the benefits of declarative machine learning workflows as a means of accelerating adoption in businesses that don't have the time, money, or ambition to build everything from scratch. He also discusses the tec…

3 недели, 5 дней назад @ dataengineeringpodcast.com
An Exploration Of The Data Engineering Requirements For Bioinformatics
An Exploration Of The Data Engineering Requirements For Bioinformatics

Biology has been gaining a lot of attention in recent years, even before the pandemic. As an outgrowth of that popularity, a new field has grown up that pairs statistics and compuational analysis with scientific research, namely bioinformatics. This brings with it a unique set of challenges for data collection, data management, and analytical capabilities. In this episode Jillian Rowe shares her experience of working in the field and supporting teams of scientists and analysts with the data infrastructure that they need to get their work done. This is a fascinating exploration of the collaboration between data professionals and scientists.

3 недели, 5 дней назад @ dataengineeringpodcast.com
Setting The Stage For The Next Chapter Of The Cassandra Database
Setting The Stage For The Next Chapter Of The Cassandra Database

The Cassandra database is one of the first open source options for globally scalable storage systems. Since its introduction in 2008 it has been powering systems at every scale. The community recently released a new major version that marks a milestone in its maturity and stability as a project and database. In this episode Ben Bromhead, CTO of Instaclustr, shares the challenges that the community has worked through, the work that went into the release, and how the stability and testing improvements are setting the stage for the future of the project.

1 месяц назад @ dataengineeringpodcast.com
A View From The Round Table Of Gartner's Cool Vendors
A View From The Round Table Of Gartner's Cool Vendors

Gartner analysts are tasked with identifying promising companies each year that are making an impact in their respective categories. For businesses that are working in the data management and analytics space they recognized the efforts of Timbr.ai, Soda Data, Nexla, and Tada. In this episode the founders and leaders of each of these organizations share their perspective on the current state of the market, and the challenges facing businesses and data professionals today.

1 месяц назад @ dataengineeringpodcast.com
Designing And Building Data Platforms As A Product
Designing And Building Data Platforms As A Product

The term "data platform" gets thrown around a lot, but have you stopped to think about what it actually means for you and your organization? In this episode Lior Gavish, Lior Solomon, and Atul Gupte share their view of what it means to have a data platform, discuss their experiences building them at various companies, and provide advice on how to treat them like a software product. This is a valuable conversation about how to approach the work of selecting the tools that you use to power your data systems and considerations for how they can be woven together for a unified experience across your various stakeholders.

1 месяц, 1 неделя назад @ dataengineeringpodcast.com
Presto Powered Cloud Data Lakes At Speed Made Easy With Ahana
Presto Powered Cloud Data Lakes At Speed Made Easy With Ahana

The Presto project has become the de facto option for building scalable open source analytics in SQL for the data lake. In recent months the community has focused their efforts on making it the fastest possible option for running your analytics in the cloud. In this episode Dipti Borkar discusses the work that she and her team are doing at Ahana to simplify the work of running your own PrestoDB environment in the cloud. She explains how they are optimizin the runtime to reduce latency and increase query throughput, the ways that they are contributing back to the open source community, and the exciting improvements that are in the works to make Presto an even more powerful option for all of …

1 месяц, 1 неделя назад @ dataengineeringpodcast.com
Do Away With Data Integration Through A Dataware Architecture With Cinchy
Do Away With Data Integration Through A Dataware Architecture With Cinchy

The reason that so much time and energy is spent on data integration is because of how our applications are designed. By making the software be the owner of the data that it generates, we have to go through the trouble of extracting the information to then be used elsewhere. The team at Cinchy are working to bring about a new paradigm of software architecture that puts the data as the central element. In this episode Dan DeMers, Cinchy's CEO, explains how their concept of a "Dataware" platform eliminates the need for costly and error prone integration processes and the benefits that it can provide for transactional and analytical application design. This is a fascinating and unconventional …

1 месяц, 2 недели назад @ dataengineeringpodcast.com
Decoupling Data Operations From Data Infrastructure Using Nexla
Decoupling Data Operations From Data Infrastructure Using Nexla

The technological and social ecosystem of data engineering and data management has been reaching a stage of maturity recently. As part of this stage in our collective journey the focus has been shifting toward operation and automation of the infrastructure and workflows that power our analytical workloads. It is an encouraging sign for the industry, but it is still a complex and challenging undertaking. In order to make this world of DataOps more accessible and manageable the team at Nexla has built a platform that decouples the logical unit of data from the underlying mechanisms so that you can focus on the problems that really matter to your business. In this episode Saket Saurabh (CEO) a…

1 месяц, 3 недели назад @ dataengineeringpodcast.com
Data Brew by Databricks Data Brew by Databricks
последний пост 1 день, 7 часов назад
Season 3E5: Sustainability & Sake
Season 3E5: Sustainability & Sake

For our third season, we focus on how leaders use data for change. Whether it’s building data teams or using data as a constructive catalyst, we interview subject matter experts from industry to dive deeper into these topics.We interview Junta Nakai in our most unique location yet - Brooklyn Kura - the first non-Japanese sake distillery in New York. In this episode, Junta shares the philosophical, economic, and tactical approaches to sustainability and ESG, as well as the secrets to brewing sake in the US. See more at databricks.com/data-brew

1 день, 7 часов назад @ buzzsprout.com
Season 3E4: Executive Education
Season 3E4: Executive Education

For our third season, we focus on how leaders use data for change. Whether it’s building data teams or using data as a constructive catalyst, we interview subject matter experts from industry to dive deeper into these topics.Did you know that the average tenure of a board member is longer than the average tenure of a marriage in the United States? In this episode, Coco Brown discusses the benefits and drawbacks of the long tenures of corporate boards, their current structure, the impact of recent legislation, and the importance of executive education to guide you through all of this. See more at databricks.com/data-brew

1 неделя, 1 день назад @ buzzsprout.com
Season 3E3: 3 T’s to Securing AI Systems: Tests, tests, and more tests
Season 3E3: 3 T’s to Securing AI Systems: Tests, tests, and more tests

For our third season, we focus on how leaders use data for change. Whether it’s building data teams or using data as a constructive catalyst, we interview subject matter experts from industry to dive deeper into these topics.What does it mean to make your machine learning system “production-ready”? Yaron Singer walks us through the infrastructure, testing procedures, and more that help make ML systems ready for the real world in this episode of Data Brew.See more at databricks.com/data-brew

2 недели, 1 день назад @ buzzsprout.com
Season 3E1: Disrupt: Challenge your Business Assumptions
Season 3E1: Disrupt: Challenge your Business Assumptions

For our third season, we focus on how leaders use data for change. Whether it’s building data teams or using data as a constructive catalyst, we interview subject matter experts from industry to dive deeper into these topics. In this season opener, Elena Donio shares her experience using data and domain knowledge to disrupt the traditional service and sales compensation model. She also discusses how to build companies that scale, manage corporate cultural evolution, and the influence of corporate boards.See more at databricks.com/data-brew

4 недели, 1 день назад @ buzzsprout.com
Season 2E9: Data Driven Software
Season 2E9: Data Driven Software

For our second season of Data Brew, we will be focusing on machine learning, from research to production. We will interview folks in academia and industry to discuss topics such as data ethics, production-grade infrastructure for ML, hyperparameter tuning, AutoML, and many more.We branch, version, and test our code, but what if we treated data like code? Tim Hunter joins us to discuss the open-source Data-Driven Software (DDS) package and how it leads to immense gains in collaboration and decreased runtime for data scientists at any organization.See more at databricks.com/data-brew

2 месяца, 3 недели назад @ buzzsprout.com
Season 2E8: Feature Engineering
Season 2E8: Feature Engineering

For our second season of Data Brew, we will be focusing on machine learning, from research to production. We will interview folks in academia and industry to discuss topics such as data ethics, production-grade infrastructure for ML, hyperparameter tuning, AutoML, and many more.Is there ever a “one-size fits all” approach for feature engineering? Find out this and more with Amanda Casari and Alice Zheng, co-authors of the Feature Engineering for Machine Learning book.See more at databricks.com/data-brew

3 месяца, 1 неделя назад @ buzzsprout.com
Season 2E7: Interpretable Machine Learning
Season 2E7: Interpretable Machine Learning

For our second season of Data Brew, we will be focusing on machine learning, from research to production. We will interview folks in academia and industry to discuss topics such as data ethics, production-grade infrastructure for ML, hyperparameter tuning, AutoML, and many more.What does it mean for a model to be “interpretable”? Ameet Talwalkar shares his thoughts on IML (Interpretable Machine Learning), how it relates to data privacy and fairness, and his research in this field.See more at databricks.com/data-brew

3 месяца, 2 недели назад @ buzzsprout.com
Season 2E6: AutoML
Season 2E6: AutoML

For our second season of Data Brew, we will be focusing on machine learning, from research to production. We will interview folks in academia and industry to discuss topics such as data ethics, production-grade infrastructure for ML, hyperparameter tuning, AutoML, and many more.Erin LeDell shares valuable insight on AutoML, what problems are best solved by it, its current limitations, and her thoughts on the future of AutoML. We also discuss founding and growing the Women in Machine Learning and Data Science (WiMLDS) non-profit.See more at databricks.com/data-brew

4 месяца назад @ buzzsprout.com
Season 2E5: ML Applications
Season 2E5: ML Applications

For our second season of Data Brew, we will be focusing on machine learning, from research to production. We will interview folks in academia and industry to discuss topics such as data ethics, production-grade infrastructure for ML, hyperparameter tuning, AutoML, and many more.Good machine learning starts with high quality data. Irina Malkova shares her experience managing and ensuring high-fidelity data, developing custom metrics to satisfy business needs, and discusses how to improve internal decision making processes.See more at databricks.com/data-brew

4 месяца, 1 неделя назад @ buzzsprout.com
Season 2E4: Hyperparameter and Neural Architecture Search
Season 2E4: Hyperparameter and Neural Architecture Search

For our second season of Data Brew, we will be focusing on machine learning, from research to production. We will interview folks in academia and industry to discuss topics such as data ethics, production-grade infrastructure for ML, hyperparameter tuning, AutoML, and many more.Liam Li is a leading researcher in the fields of hyperparameter optimization and neural architecture search, and is the author of the seminal Hyperband paper. In this session, Liam discusses the evolution of hyperparameter optimization techniques and illustrates how every data scientist can benefit from neural architecture search. See more at databricks.com/data-brew

5 месяцев назад @ buzzsprout.com
Season 2E3: Infrastructure for ML
Season 2E3: Infrastructure for ML

For our second season of Data Brew, we will be focusing on machine learning, from research to production. We will interview folks in academia and industry to discuss topics such as data ethics, production-grade infrastructure for ML, hyperparameter tuning, AutoML, and many more. Adam Oliner discusses how to design your infrastructure to support ML, from integration tests to glue code, the importance of iteration, and centralized vs decentralized data science teams. He provides valuable advice for companies investing in ML and crucial lessons he’s learned from founding two companies.See more at databricks.com/data-brew

5 месяцев, 1 неделя назад @ buzzsprout.com
Season 2E2: Data Ethics
Season 2E2: Data Ethics

For our second season of Data Brew, we will be focusing on machine learning, from research to production. We will interview folks in academia and industry to discuss topics such as data ethics, production-grade infrastructure for ML, hyperparameter tuning, AutoML, and many more.Have you ever wondered how your purchasing behavior may reveal protected attributes? Or how data scientists and business play a role in combating bias? We discuss with Diana Pfeil recommendations to reduce bias and improve fairness, from SHAP to adversarial debiasing.See more at databricks.com/data-brew

5 месяцев, 2 недели назад @ buzzsprout.com
Season 2E1: ML in Production
Season 2E1: ML in Production

For our second season, we will be focusing on machine learning, from research to production. We will interview folks in academia and industry to discuss topics such as data ethics, production-grade infrastructure for ML, hyperparameter tuning, AutoML, and many more.In the season opener, Matei Zaharia discusses how he entered the field of ML, best practices for productionizing ML pipelines, leveraging MLflow & the Lakehouse architecture for reproducible ML, and his current research in this field.See more at databricks.com/data-brew

5 месяцев, 3 недели назад @ databricks.com
Season 1E6: Journey of Big Data
Season 1E6: Journey of Big Data

Jules Damji and Tathagata Das guide us through their journey in big data and the evolution of data architecture in the past 30 years. They discuss some of the biggest changes in industry they’ve seen, as well as trends to look forward to in the coming years. This is a fun episode connecting all four authors of the Learning Spark, 2nd Edition book.See more at databricks.com/data-brew

7 месяцев, 4 недели назад @ buzzsprout.com
Season 1E5: Combining Machine Learning and MLflow with your Lakehouse
Season 1E5: Combining Machine Learning and MLflow with your Lakehouse

Ellissa Verseput, ML Engineer at Quby, joins Denny and Brooke to discuss how Quby leverages ML to extract additional value from their data lake and how they manage this process.See more at databricks.com/data-brew

9 месяцев, 1 неделя назад @ buzzsprout.com
«Ничего такого» by Dodo Enginnering
последний пост 6 месяцев назад
А нужна ли вам цифровая трансформация?
А нужна ли вам цифровая трансформация? А нужна ли вам цифровая трансформация?

Гость подкаста — Юра Филатов. Одна из областей его деятельности — информационный консалтинг или, иначе говоря, он помогает с трансформациями. Как-то так получилось, что подкаст вышел «исповедальным»: эмоциональным, чуть жёстким, с «иллюстрациями» и без «маркетингового налёта»:Как спутать автоматизацию с трансформацией.Когда вам не нужна трансформация на «примерах с мёдом».Почему по «государевому указу» у вас ничего не заработает.Что отвечать на «Ну давай, трансформируй нам тут всё».И какую роль здесь играет страх.

6 месяцев назад @ buzzsprout.com
СКБ Контур — это надолго
СКБ Контур — это надолго СКБ Контур — это надолго

Гость подкаста — Света Аюпова из СКБ Контур. Света находит и проверяет новые бизнесы для Контура. Как-то так получилось, но Света нас убедила, что СКБ Контур — идеальное место для работы. Итак, в компании:Хорошие руководители, многие из которых работают в компании по 10 лет (как и большинство сотрудников).Равенство всех сотрудников на деле, а не на словах.Атмосфера как в казантипе, но без травы.Люди не уставшие, лица не серые.Все рано уходят домой.Много доверия, которое помогает быстро принимать решения.Как следствие, в компании малая текучка. Из СКБ Контур тяжело уходить. Да и зачем? Атмосфера приятная, как тёплый плед, а люди просто работают и растут. Например, руководитель Светы пришёл и…

6 месяцев, 2 недели назад @ buzzsprout.com
Почти распилили монолит, техчас и «латентный тимлид»
Почти распилили монолит, техчас и «латентный тимлид» Почти распилили монолит, техчас и «латентный тимлид»

Гость выпуска — Анатолий Панов. Кратко о нём:руководит разработкой всех вертикалей в Авито;пишет код только «по фану»;не собеседует инженеров;легко раскусил в Борисе латентного тимлида, когда он «собеседовался» в рубрике «Сханти Бориса» как разработчик.Поговорили про квартальные и годовые ОКR и ОКR-ревью, Performance Review, как почти распилили монолит, про техчас для новостей технического департамента, и прокачку функциональных коммьюнити.

7 месяцев назад @ buzzsprout.com
Как сделать корпоративные ценности настоящими, а не пластмассовыми
Как сделать корпоративные ценности настоящими, а не пластмассовыми Как сделать корпоративные ценности настоящими, а не пластмассовыми

Корпоративные ценности — это некие убеждения и принципы, которые все должны соблюдать, вроде «быть ответственным», «двигаться вперёд» и всё такое. Но зачем их соблюдать, если непонятно откуда они взялись? Зачем кто-то когда-то их выбил на скрижалях и повесил в главном зале? Без ответа на эти вопросы желание им следовать скорее не появится — они пластмассовые, не живые. Возможно поэтому в ЦИАН сделали по-другому — ценности списали с реальных людей, один из которых побывал у нас в гостях, а всем новичкам рассказывают как они появились и зачем.Как готовили ценности, важны ли они при найме и что такое словарь «разработческих» терминов, поговорили с Анной Штенгауэр (HR BP IT) и Мишей Юматовым (р…

7 месяцев, 1 неделя назад @ buzzsprout.com
LeSS, скрам, портал и банковская гемба
LeSS, скрам, портал и банковская гемба LeSS, скрам, портал и банковская гемба

У нас в гостях Ксения Мешкова — овнер в команде Райффайзенбанк. Она занимается развитием внутреннего корпоративного портала, о котором мы всё выведали: как он появился, а главное — зачем, как помог решить проблем в коммуникациях бизнеса и разработки. Также узнали, как в банке появился скрам, аджайл и LeSS, и как проходит гемба в банке.

8 месяцев назад @ buzzsprout.com
Экосистемы и супераппы? А зачем?
Экосистемы и супераппы? А зачем? Экосистемы и супераппы? А зачем?

В гостях у нас Кирилл Гурбанов — Head of Digital Banking в МТС. Поэтому мы поговорили про всё цифровое: диджитал, стартапы, виртуальные карты Apple, про суперприложение Тинькофф Банка, про Сбер как мессенджер, экосистемы, экосистемы суперприложений и зачем это нужно. Всё как всегда. Однако, будьте готовы к тому, что внезапно в подкаст ворвётся Лада Ларгус и порвёт шаблон.

8 месяцев, 1 неделя назад @ buzzsprout.com
Как дела с внутренними коммуникациями в ВТБ?
Как дела с внутренними коммуникациями в ВТБ? Как дела с внутренними коммуникациями в ВТБ?

Что такое внутренние коммуникации? Вот я «айтишник», я открыл «Джиру» – вот мои задачки, я беру, делаю, дальше тестировщикам, всё упало — какие коммуникации? Ан нет. Написать, правильно объяснить задачу и правильно спросить «что там делать» — это всё внутренние коммуникации. Об этом мы и поговорили с Екатериной Тышковской, руководителем службы внутренних коммуникаций банка ВТБ.Что такое гибридная работа, как компаниям сохранить офисную культуру и что такое культура согласия в новом выпуске «Ничего такого».

8 месяцев, 2 недели назад @ buzzsprout.com
Зачем мне психотерапевт?
Зачем мне психотерапевт? Зачем мне психотерапевт?

Когда у нас болит живот, мы идём к врачу. Когда у нас проблемы со сном, весом, ничего не хочется, раздражение и выгорание, мы обычно терпим. Или просто не знаем, что можно обратиться к психотерапевту и станет лучше. Об этом мы и поговорили с Иваном Замесиным — предпринимателем и основателем сервиса по подбору психотерапевтов Мета. Какие мифы мешают обратиться к специалисту, когда вы точно пойдёте к психотерапевту и чем психотерапия помогла Ивану, да так, что он создал сервис Мета. Список книг, которые советовал Иван:— «How people change: relationships and neuroplasticity in psychoterapy». — «Начало бесконечности», Дэвид Дойч. — Скотт Адамс «How to Fail at Almost Everything and Still Win Big…

8 месяцев, 3 недели назад @ buzzsprout.com
Что общего у армии и ИТ-индустрии?
Что общего у армии и ИТ-индустрии? Что общего у армии и ИТ-индустрии?

Гость подкаста — Ярополк Раш, директор Scream School, где архитекторов, инженеров и мостостроителей переучивают в разработчиков игр, интерактивных и мультимедийных продуктов. Поговорили с Ярополком, почему архитекторы, инженеры и разработчики идут в gamedev, почему в России нет индустрии игр, почему человек должен быть счастливым и как с этим связана культура Netflix, а Голливуд — с дискомфортом.

8 месяцев, 4 недели назад @ buzzsprout.com
Запуск завтра Podcast Запуск завтра Podcast
последний пост 1 день, 20 часов назад
Психология в IT. Эпизод с неудобными вопросами
Психология в IT. Эпизод с неудобными вопросами Психология в IT. Эпизод с неудобными вопросами

Мы часто думаем, что к психологу нужно идти с проблемами в личной жизни, а рабочие вопросы пытаемся решить сами или не решаем вовсе. Мы хотим разобраться, о чем в IT-тусовке говорить не принято и как обсуждать проблемы, с которыми сталкивается каждый из нас. Как разговаривать о повышении? как победить синдром самозванца? как бороться с токсичностью в команде и как разруливать конфликты? Во всем этом Самат разбирается вместе с IT-психологом Анастасией Калашниковой. Ссылки от Анастасии: Сервис по оценке себя и поиску ментора: https://getmentor.dev/ Подкаст Psy v IT https://t.me/psyvit Подкаст NewHR https://t.me/newhrpodcast Курс «Аналитик Данных» от Яндекс.Практикум: https://practicum.yandex.…

1 день, 20 часов назад @ zapuskzavtra.libsyn.com
Почему Facebook, Instagram и WhatsApp лежали 6 часов. Разбор по хардкору
Почему Facebook, Instagram и WhatsApp лежали 6 часов. Разбор по хардкору Почему Facebook, Instagram и WhatsApp лежали 6 часов. Разбор по хардкору

Вечером 4 октября перестал работать Facebook и принадлежащие ему компании. Сбой случился из-за сетевых проблем. Сети Самат обсуждает вместе с техническим директором ВКонтакте Александром Тоболем и с главой сетевой инфраструктуры Mail.ru Group Еленой Якуповой. За что отвечают протокол BGP и DNS-сервера, как конфигурируется сеть и как это все связано с тем, что вечер понедельника мы провели без соцсетей. Прочитать о том, как студенты Практикума делали бота в телеграме, можно по ссылке https://vk.com/@yandex.practicum-sbor-i-otpravka-soobschenii-iz-telegram-v-slack-opyt-sozdani Проект о сетях https://linkmeup.ru/ 4:30 Как происходит передача информации между сетями разных провайдеров 11:30 Поч…

1 неделя, 1 день назад @ zapuskzavtra.libsyn.com
Олимпиадное программирование. Как Россия каждый год занимает первое место
Олимпиадное программирование. Как Россия каждый год занимает первое место Олимпиадное программирование. Как Россия каждый год занимает первое место

C 1 по 6 октября в Москве проходит финал чемпионата мира по программированию ICPC. Это студенческая олимпиада, и обычно ее выигрывают команды из МГУ, ИТМО или СПбГУ. Самат обсуждает достижения российских спортсменов с тренером Еленой Андреевой. Именно ее ученики в 2018 и в 2019 годах занимали первое место. Самат узнает, как готовят студентов к соревнованиям, какие задачи решают на олимпиадах и почему спортивное программирование так сильно отличается от школьной информатики. Подписывайтесь на наши бонусные эпизоды «Запуск ++» в Apple podcast или на патреоне https://www.patreon.com/zapooskzavtra Зарегистрироваться на День открытых дверей Яндекс.Практикума можно по ссылке https://ya.cc/t/nuP1x…

2 недели, 1 день назад @ zapuskzavtra.libsyn.com
BitTorrent и торрент-трекеры. Как оказались связаны пиратские форумы и распределенные протоколы
BitTorrent и торрент-трекеры. Как оказались связаны пиратские форумы и распределенные протоколы BitTorrent и торрент-трекеры. Как оказались связаны пиратские форумы и распределенные протоколы

В начале 2000х Netflix продавал DVD-диски, а мы скачивали сериалы с торрент-трекеров. На каких технологиях работали трекеры и как они появлялись? Самат разбирается с одним из создателей протокола BitTorrent Станиславом Шалуновым и с одним из родоначальников трекера LostFilm Андреем Кравцем. Если вы хотите работать со Стасом над распределенными протоколами, то пишите https://www.facebook.com/shalunov Этот подкаст мы делаем совместно с сервисом онлайн-образования Яндекс.Практикум https://praktikum.yandex.ru/?utm_source=pr&utm_medium=content&utm_campaign=pr_content_main_zapuskzavtra Прочитать историю Максима Никитина можно по ссылке https://academy.yandex.ru/posts/iz-taksista-v-razrabotchika В…

3 недели, 1 день назад @ zapuskzavtra.libsyn.com
Как Яндекс пережил самую крупную DDoS-атаку в истории интернета
Как Яндекс пережил самую крупную DDoS-атаку в истории интернета Как Яндекс пережил самую крупную DDoS-атаку в истории интернета

На обычный сайт может поступать около 100 запросов в секунду, а на yandex.ru утром 5 сентября обрушился 21 миллион. Случившееся Самат обсуждает с директором по безопасности Яндекса Антоном Карповым. Что такое DDoS (Distributed Denial of Service), как работает черный рынок взломов и может ли армия электрочайников стать угрозой безопасности страны. Узнать о том, как студенты меняют Практикум, можно по ссылке https://praktikum.blog/whatwedointheshadows/?utm_source=pr&utm_medium=content&utm_campaign=pr_content_whatwedointheshadows_zapuskzavtra 10й эпизод второго сезона «Как устроен интернет и как его блокируют» https://zapuskzavtra.libsyn.com/k15wwhke3n5s Журнал «Хакер» https://xakep.ru/ 2:40 К…

4 недели, 1 день назад @ zapuskzavtra.libsyn.com
Как в России появился каршеринг
Как в России появился каршеринг Как в России появился каршеринг

Москва — крупнейший рынок каршеринга в мире. Но еще 10 лет назад в России не было ни одного автомобиля, который можно было бы взять в краткосрочную аренду через приложение. Первыми запустить подобный сервис придумали в BelkaCar. Основательницы компании Елена Мурадова, Лориана Сардар и Екатерина Макарова пролоббировали каршеринг в Дептрансе и обошли 300 инвесторов, прежде чем привлечь первых пользователей. В этом эпизоде Елена и Лориана рассказывают Самату о том, как в Россию пришел и как развивается шеринг автомобилей. Этот подкаст мы делаем совместно с сервисом онлайн-образования Яндекс.Практикум https://praktikum.yandex.ru/?utm_source=pr&utm_medium=content&utm_campaign=pr_content_main_zap…

1 месяц назад @ zapuskzavtra.libsyn.com
Из редакторки подкаста в редактор кода. Как филолог становится программистом
Из редакторки подкаста в редактор кода. Как филолог становится программистом Из редакторки подкаста в редактор кода. Как филолог становится программистом

Привет! Я Юля, редакторка «Запуска завтра». Я помогаю Самату брать интервью и записывать подводки, а еще я придумываю описания эпизодов. В этот раз в подкасте речь пойдет обо мне, поэтому я решила написать этот текст от первого лица. Три месяца назад я начала учиться программированию. До работы над подкастом я не интересовалась IT и даже боялась лезть в эту тему, а теперь по ночам пытаюсь валидировать формы с помощью java script. В разговоре Самат захотел узнать, как меняется моя жизнь прямо сейчас. Этот эпизод в меньшей степени о технологиях, в большей — о том, как сложно и страшно изучать новое, но как здорово, когда получается. Этот подкаст мы делаем совместно с сервисом онлайн-образован…

1 месяц, 1 неделя назад @ zapuskzavtra.libsyn.com
Тестирование. Зачем тыкать на 1 000 кнопок в секунду и скармливать код мутантам
Тестирование. Зачем тыкать на 1 000 кнопок в секунду и скармливать код мутантам Тестирование. Зачем тыкать на 1 000 кнопок в секунду и скармливать код мутантам

В новом эпизоде подкаста Самат разбирается, как осмысленно ломать компьютер. Он говорит с Максимом Садымом, инженером из Google и Amazon, о тестировании. Как автоматизировать UI тесты, как часто проводить нагрузочное тестирование, какие ошибки программы показывает хаос-тестирование и можно ли быть хорошим программистом, если ты не пишешь юнит-тесты? Максим рассказывает об основных видах тестирования с примерами из практики, а еще вспоминает, как пару лет не мог попасть на работу в Google. Вступайте в чат подкаста в телеграме! https://t.me/zapuskzavtra Подписывайтесь на наши бонусные эпизоды «Запуск ++» в Apple podcast или на патреоне https://www.patreon.com/zapooskzavtra Книга Cracking the …

1 месяц, 2 недели назад @ zapuskzavtra.libsyn.com
Луркоморье. Как возник фольклор русского интернета
Луркоморье. Как возник фольклор русского интернета Луркоморье. Как возник фольклор русского интернета

Самат говорит с создателем Луркоморья Давидом Хомаком. Формально, о возникновении Lurkmore.to, но по сути — об истории русского интернета. Game.EXE, Башорг, Двач, LiveJournal, Linux-тачки и «пека-бояре», Роскомнадзор и Рамзан Кадыров. Давид вспоминает, как зарождался язык русскоязычных мемов, как рунет перестал быть анонимным и как государство пришло за виртуальной свободой. Этот подкаст мы делаем совместно с сервисом онлайн-образования Яндекс.Практикум https://praktikum.yandex.ru/?utm_source=pr&utm_medium=content&utm_campaign=pr_content_main_zapuskzavtra Вступайте в чат подкаста в телеграме! https://t.me/zapuskzavtra Подписывайтесь на наши бонусные эпизоды «Запуск ++» в Apple podcast или н…

1 месяц, 3 недели назад @ zapuskzavtra.libsyn.com
200 млн установок и 28 дней цикла. Как мужчины придумали приложение для месячных
200 млн установок и 28 дней цикла. Как мужчины придумали приложение для месячных 200 млн установок и 28 дней цикла. Как мужчины придумали приложение для месячных

У приложения Flo 41 миллион активных пользовательниц в месяц. Они живут по всему миру и следят во Flo за своим циклом: месячными и овуляцией. Самат говорит о фемтехе с техническим директором Flo Романом Бугаевым. В чем сложность предсказания месячных, зачем женщинам подписка, если есть бумажный календарик, и сложно ли мужчинам работать в компании о женском здоровье. Этот подкаст мы делаем совместно с сервисом онлайн-образования Яндекс.Практикум https://praktikum.yandex.ru/?utm_source=pr&utm_medium=content&utm_campaign=pr_content_main_zapuskzavtra Вступайте в чат подкаста в телеграме! https://t.me/zapuskzavtra Подписывайтесь на наши бонусные эпизоды «Запуск ++» в Apple podcast или на патреон…

2 месяца назад @ zapuskzavtra.libsyn.com
Alert! У «Запуска» появились бонусные эпизоды
Alert! У «Запуска» появились бонусные эпизоды Alert! У «Запуска» появились бонусные эпизоды

Привет! Мы запускаем серию бонусных эпизодов «Запуск ++». Дело в том, что в приложении Apple podcast появилась функция платной подписки, и мы решили ей воспользоваться. Дополнительные выпуски будут выходить по пятницам, раз в две недели. Начнем с серии о языках программирования, а дальше будем экспериментировать. В бонусных эпизодах мы хотим, с одной стороны, исследовать более узкие, но не менее интересные IT-сферы, а с другой, выйти за пределы нашей классической рамки «как устроено N». Больше обсуждать новости индустрии, компанию «Федя&Самат», вспоминать истории о возникновении технологий и рассказывать, как мы создаем подкаст (иногда на летучках происходит все самое интересное). Если у ва…

2 месяца, 2 недели назад @ zapuskzavtra.libsyn.com
Как запустить спутник в космос
Как запустить спутник в космос Как запустить спутник в космос

Жанна Медведева работает в компании Exolaunch. Она бронирует места на ракетах Роскосмоса и SpaceX и запускает на них малые аппараты для клиентов, например, для космического агентства Германии. Самат вместе с Жанной обсуждают «новый космос». За сколько можно отправить спутник на орбиту, зачем там нужен шейкер и как вообще попасть в космическую индустрию. Приходите СЕГОДНЯ на нашу открытую запись в Москве и покупайте билеты https://dkrassvet.space/events/zapuskzavtra/ Это последний эпизод 4 сезона «Запуска завтра». Спасибо, что слушаете нас! Мы вернемся с новым сезоном в августе. Этот подкаст мы делаем совместно с сервисом онлайн-образования Яндекс.Практикум https://clck.ru/Pfti2 S4Ep3 «Как у…

4 месяца, 1 неделя назад @ zapuskzavtra.libsyn.com
Как хакеры взломали Clubhouse
Как хакеры взломали Clubhouse Как хакеры взломали Clubhouse

В этом эпизоде — истории двух парней, которые украли данные у клабхауса. Александр Крушин построил на них сервис аналитики для рекламных агенств, а Дмитрий Соболев стал самым популярным пользователем русскоязычного клабхауса. Самат узнает подробности взломов у Димы и Саши, а устройство хакерских атак объясняет редактору подкаста, Юле Яковлевой. Приходите на нашу открытую запись 10 июня и покупайте билеты https://dkrassvet.space/events/zapuskzavtra/ Этот подкаст мы делаем совместно с сервисом онлайн-образования Яндекс.Практикум https://praktikum.yandex.ru/?utm_source=pr&utm_medium=content&utm_campaign=pr_content_main_zapuskzavtra S1EP6 «Докажи, что ты не робот. Как работают китайские мобильн…

4 месяца, 2 недели назад @ zapuskzavtra.libsyn.com
Зомби-клетки и глобальное потепление. Чем живут биотех-стартапы
Зомби-клетки и глобальное потепление. Чем живут биотех-стартапы Зомби-клетки и глобальное потепление. Чем живут биотех-стартапы

Анна и Хорческа познакомились в общаге института в подмосковном Пущине, а через пару лет встретились в научной лаборатории в Торонто. Они исследовали белок и внезапно обнаружили новый способ синтезировать адипиновую кислоту, важный компонент для производства пластмассы. Обычно адипин получают из нефти. При этом сильно загрязняется планета. А Аня и Хорческа придумали, как сделать этот процесс дешевым и экологичным. Они рассказывают Самату о том, как устроены биотехнологии и как сделать открытие на миллиард долларов. Этот подкаст мы делаем совместно с сервисом онлайн-образования Яндекс.Практикум https://praktikum.yandex.ru/?utm_source=pr&utm_medium=content&utm_campaign=pr_content_main_zapuskz…

4 месяца, 3 недели назад @ zapuskzavtra.libsyn.com
Как не стать жертвой онлайн-мошенничества
Как не стать жертвой онлайн-мошенничества Как не стать жертвой онлайн-мошенничества

Самат разговаривает о мошенничестве в интернете с директором по доверию и безопасности в Авито. По каким схемам у нас крадут деньги? Что никогда нельзя делать при покупке вещей онлайн? Как программисты попадают в преступные группировки и почему поддельные сайты работают лучше, чем настоящие? Этот подкаст мы делаем совместно с сервисом онлайн-образования Яндекс.Практикум https://praktikum.yandex.ru/?utm_source=pr&utm_medium=content&utm_campaign=pr_content_main_zapuskzavtra S1EP14 «Крутой интерфейс, а прибыли — ноль. Как устроен дизайн мобильных приложений» https://zapuskzavtra.libsyn.com/9qj9c09wmznk 1:36 Как нашему гостю пришлось переехать из-за угроз мошенников 6:00 Фишинг. Как отличить на…

4 месяца, 4 недели назад @ zapuskzavtra.libsyn.com
Moscow Python Podcast Moscow Python Podcast
последний пост 3 дня, 18 часов назад
Docs as Code (level: all)
Docs as Code (level: all) Docs as Code (level: all)

В гостях у Moscow Python Podcast разработчик компании Recall Masters Анатолий Щербаков. Поговорили с Анатолием о документации к вашему коду, почему она нужна и о подходе Docs as Code. Ведущие выпуска — сооснователь MoscowPython и компании DryLabs Валентин Домбровский, Team Lead NVIDIA Злата Обуховская и DevRel компании Evrone, руководитель программного комитета Moscow Python Conf++ Григорий Петров. Все выпуски: https://rebrand.ly/pythonpodcasta6ffe Митапы MoscowPython: https://rebrand.ly/pythonmeetupf6315 Курс Learn Python: https://rebrand.ly/learnpythondc288 Конференция Moscow Python Conf (Russian Python Week): https://conf.python.ru

3 дня, 18 часов назад @ learnpython.podbean.com
К чему приводят стримы (level: all)
К чему приводят стримы (level: all) К чему приводят стримы (level: all)

В гостях у Moscow Python Podcast junior разработчик компании AdCombo Александр Шейкин. Поговорили с Александром о его пути в разработчики Python, первом опыте работы. Ведущие выпуска — сооснователь MoscowPython и компании DryLabs Валентин Домбровский, Team Lead NVIDIA Злата Обуховская и DevRel компании Evrone, руководитель программного комитета Moscow Python Conf++ Григорий Петров. Все выпуски: https://rebrand.ly/pythonpodcasta6ffe Митапы MoscowPython: https://rebrand.ly/pythonmeetupf6315 Курс Learn Python: https://rebrand.ly/learnpythondc288 Конференция Moscow Python Conf (Russian Python Week): https://conf.python.ru

3 недели назад @ learnpython.podbean.com
Хорошие практики построения инфраструктуры ML-моделей (level: all)
Хорошие практики построения инфраструктуры ML-моделей (level: all) Хорошие практики построения инфраструктуры ML-моделей (level: all)

В гостях у Moscow Python Podcast Data Science компании Лаборатория Касперского Дмитрий Аникин. Поговорили с Дмитрием о Python в машинном обучении, инфраструктуре моделей и многом другом. Ведущие выпуска — сооснователь MoscowPython и компании DryLabs Валентин Домбровский, Team Lead NVIDIA Злата Обуховская и DevRel компании Evrone, руководитель программного комитета Moscow Python Conf++ Григорий Петров. Все выпуски: https://rebrand.ly/pythonpodcasta6ffe Митапы MoscowPython: https://rebrand.ly/pythonmeetupf6315 Курс Learn Python: https://rebrand.ly/learnpythondc288 Конференция Moscow Python Conf (Russian Python Week): https://conf.python.ru

4 недели назад @ learnpython.podbean.com
Лицензирование Питон-приложений (level: all)
Лицензирование Питон-приложений (level: all) Лицензирование Питон-приложений (level: all)

В гостях у Moscow Python Podcast сооснователь компании Profiscope Алексей Смирнов. Поговорили с Алексеем о применении Open Source-лицензий в PyPI. Ведущие выпуска — сооснователь MoscowPython и компании DryLabs Валентин Домбровский, Team Lead NVIDIA Злата Обуховская и DevRel компании Evrone, руководитель программного комитета Moscow Python Conf++ Григорий Петров. Ревью кода: https://mpccomplexity.codescoring.com Все выпуски: https://rebrand.ly/pythonpodcasta6ffe Митапы MoscowPython: https://rebrand.ly/pythonmeetupf6315 Курс Learn Python: https://rebrand.ly/learnpythondc288 Конференция Moscow Python Conf (Russian Python Week): https://conf.python.ru

1 месяц, 1 неделя назад @ learnpython.podbean.com
Разбираемся, как бороться с legacy (level: all)
Разбираемся, как бороться с legacy (level: all) Разбираемся, как бороться с legacy (level: all)

В гостях у Moscow Python Podcast Director of engineering компании Takeoff Technologies Владимир Филонов . Поговорили с Владимиром о том, откуда берется legacy и как с ним бороться и как продать бизнесу refactoring этого legacy. Ведущие выпуска — сооснователь MoscowPython и компании DryLabs Валентин Домбровский, Team Lead NVIDIA Злата Обуховская и DevRel компании Evrone, руководитель программного комитета Moscow Python Conf++ Григорий Петров. Все выпуски: https://rebrand.ly/pythonpodcasta6ffe Митапы MoscowPython: https://rebrand.ly/pythonmeetupf6315 Курс Learn Python: https://rebrand.ly/learnpythondc288 Конференция Moscow Python Conf (Russian Python Week): https://conf.python.ru

1 месяц, 2 недели назад @ learnpython.podbean.com
в банковской сфере (level: all)
в банковской сфере (level: all) в банковской сфере (level: all)

В гостях у Moscow Python Podcast разработчик в Raiffeisen Bank Влад Лоухин. Поговорили с Владом о том, что Python делает в банке, специфике Python в банковской сфере и о многом другом. Ведущие выпуска — сооснователь MoscowPython и компании DryLabs Валентин Домбровский, Team Lead NVIDIA Злата Обуховская и DevRel компании Evrone, руководитель программного комитета Moscow Python Conf++ Григорий Петров. Все выпуски: https://rebrand.ly/pythonpodcasta6ffe Митапы MoscowPython: https://rebrand.ly/pythonmeetupf6315 Курс Learn Python: https://rebrand.ly/learnpythondc288 Конференция Moscow Python Conf (Russian Python Week): https://conf.python.ru

2 месяца назад @ learnpython.podbean.com
Про образование (level: all)
Про образование (level: all) Про образование (level: all)

В гостях у Moscow Python Podcast СТО образовательных проектов Mail.ru Дмитрий Санников. Поговорили с Дмитрием о многообразии курсов и образовательных программ в Mail.ru. Ведущие выпуска — сооснователь MoscowPython и компании DryLabs Валентин Домбровский, Team Lead NVIDIA Злата Обуховская и DevRel компании Evrone, руководитель программного комитета Moscow Python Conf++ Григорий Петров. Все выпуски: https://rebrand.ly/pythonpodcasta6ffe Митапы MoscowPython: https://rebrand.ly/pythonmeetupf6315 Курс Learn Python: https://rebrand.ly/learnpythondc288 Конференция Moscow Python Conf (Russian Python Week): https://conf.python.ru

2 месяца, 1 неделя назад @ learnpython.podbean.com
Про Data Science сообщество (level: all)
Про Data Science сообщество (level: all) Про Data Science сообщество (level: all)

В гостях у Moscow Python Podcast Senior Data Scientist компании Lamoda, организатор курсов DadaGym Петр Ермаков. Обсудили с Петром data science сообщество и ивенты . Ведущие выпуска — сооснователь MoscowPython и компании DryLabs Валентин Домбровский, Team Lead NVIDIA Злата Обуховская и DevRel компании Evrone, руководитель программного комитета Moscow Python Conf++ Григорий Петров. Все выпуски: https://rebrand.ly/pythonpodcasta6ffe Митапы MoscowPython: https://rebrand.ly/pythonmeetupf6315 Курс Learn Python: https://rebrand.ly/learnpythondc288 Конференция Moscow Python Conf (Russian Python Week): https://conf.python.ru

2 месяца, 2 недели назад @ learnpython.podbean.com
Переход с Flask на FastAPI (level: all)
Переход с Flask на FastAPI (level: all) Переход с Flask на FastAPI (level: all)

В гостях у Moscow Python Podcast CTO и со-основатель компании Datafold Александр Морозов. Обсудили с Александром причины перехода его стартапа с Flask на FastAPI. Ведущие выпуска — сооснователь MoscowPython и компании DryLabs Валентин Домбровский, Team Lead NVIDIA Злата Обуховская и DevRel компании Evrone, руководитель программного комитета Moscow Python Conf++ Григорий Петров. Все выпуски: https://rebrand.ly/pythonpodcasta6ffe Митапы MoscowPython: https://rebrand.ly/pythonmeetupf6315 Курс Learn Python: https://rebrand.ly/learnpythondc288 Конференция Moscow Python Conf (Russian Python Week): https://conf.python.ru

3 месяца, 1 неделя назад @ learnpython.podbean.com
Как пет-проджекты помогают в самообразовании (level: all)
Как пет-проджекты помогают в самообразовании (level: all) Как пет-проджекты помогают в самообразовании (level: all)

В гостях у Moscow Python Podcast разработчик компании Klarna Игорь Масягин. Обсудили с Игорем зачем нужны пет-проджекты, их пользу и его опыт. Ведущие выпуска — сооснователь MoscowPython и компании DryLabs Валентин Домбровский, Team Lead NVIDIA Злата Обуховская и DevRel компании Evrone, руководитель программного комитета Moscow Python Conf++ Григорий Петров. Подробнее про уравнение мотивации: https://m.habr.com/ru/company/lamoda/blog/504134/ Разработка в гамаке: https://youtu.be/jSPaG50FFVs Адвент-календарь программиста: https://adventofcode.com/ Книжка про word count на питоне 30 способами: https://www.goodreads.com/book/show/18266291-exercises-in-programming-style Мячики для жонглирования…

3 месяца, 2 недели назад @ learnpython.podbean.com
Путь джуна из лингвиста в разработчики (level: all)
Путь джуна из лингвиста в разработчики (level: all) Путь джуна из лингвиста в разработчики (level: all)

В гостях у Moscow Python Podcast выпускница курсов Learn Python, младший разработчик компании ПИК-Брокер Мария Имаева. Ведущие выпуска — сооснователь MoscowPython и компании DryLabs Валентин Домбровский, Team Lead NVIDIA Злата Обуховская и DevRel компании Evrone, руководитель программного комитета Moscow Python Conf++ Григорий Петров. Все выпуски: https://rebrand.ly/pythonpodcasta6ffe Митапы MoscowPython: https://rebrand.ly/pythonmeetupf6315 Курс Learn Python: https://rebrand.ly/learnpythondc288 Конференция Moscow Python Conf (Russian Python Week): https://conf.python.ru

3 месяца, 3 недели назад @ learnpython.podbean.com
Про найм разработчиков (level: all)
Про найм разработчиков (level: all) Про найм разработчиков (level: all)

В гостях у Moscow Python Podcast сооснователь компании Geekfactor, участник программного комитета конференции Moscow Python Conf Ксения Лыжина. Ведущие выпуска — сооснователь MoscowPython и компании DryLabs Валентин Домбровский, Team Lead NVIDIA Злата Обуховская и DevRel компании Evrone, руководитель программного комитета Moscow Python Conf++ Григорий Петров. Все выпуски: https://rebrand.ly/pythonpodcasta6ffe Митапы MoscowPython: https://rebrand.ly/pythonmeetupf6315 Курс Learn Python: https://rebrand.ly/learnpythondc288 Конференция Moscow Python Conf (Russian Python Week): https://conf.python.ru

4 месяца назад @ learnpython.podbean.com
в Aviasales (level: all)
в Aviasales (level: all) в Aviasales (level: all)

В гостях у Moscow Python Podcast Teamlead компании Aviasales Антон Сидоров. Обсудили с Антоном его путь в разработку, переход поискового движка с Python на Go и еще много всего интересного . Ведущие выпуска — сооснователь MoscowPython и компании DryLabs Валентин Домбровский, Team Lead NVIDIA Злата Обуховская и DevRel компании Evrone, руководитель программного комитета Moscow Python Conf++ Григорий Петров. Все выпуски: https://rebrand.ly/pythonpodcasta6ffe Митапы MoscowPython: https://rebrand.ly/pythonmeetupf6315 Курс Learn Python: https://rebrand.ly/learnpythondc288 Конференция Moscow Python Conf (Russian Python Week): https://conf.python.ru

4 месяца, 1 неделя назад @ learnpython.podbean.com
Боль fullstack-разработчика (level: all)
Боль fullstack-разработчика (level: all) Боль fullstack-разработчика (level: all)

В гостях у Moscow Python Podcast Teamlead компании Evrone Иван Соловьев. Ведущие выпуска — сооснователь MoscowPython и компании DryLabs Валентин Домбровский, Team Lead NVIDIA Злата Обуховская и DevRel компании Evrone, руководитель программного комитета Moscow Python Conf++ Григорий Петров. Все выпуски: https://rebrand.ly/pythonpodcasta6ffe Митапы MoscowPython: https://rebrand.ly/pythonmeetupf6315 Курс Learn Python: https://rebrand.ly/learnpythondc288 Конференция Moscow Python Conf (Russian Python Week): https://conf.python.ru

4 месяца, 2 недели назад @ learnpython.podbean.com
Путь от Junior до Head QA (level: all)
Путь от Junior до Head QA (level: all) Путь от Junior до Head QA (level: all)

В гостях у Moscow Python Podcast выпускник курсов Learn Python, глава отдела тестирования компании Zipsale Татьяна Кулагина. Обсудили с Татьяной ее путь к Head QA. Ведущие выпуска — сооснователь MoscowPython и компании DryLabs Валентин Домбровский, Team Lead NVIDIA Злата Обуховская и DevRel компании Evrone, руководитель программного комитета Moscow Python Conf++ Григорий Петров. Все выпуски: https://rebrand.ly/pythonpodcasta6ffe

Митапы MoscowPython: https://rebrand.ly/pythonmeetupf6315

Курс Learn Python: https://rebrand.ly/learnpythondc288

Конференция Moscow Python Conf (Russian Python Week): https://conf.python.ru

4 месяца, 3 недели назад @ learnpython.podbean.com
Podlodka Podcast Podlodka Podcast
последний пост 4 дня, 8 часов назад
Podlodka #237 – Как ставить цели организации
Podlodka #237 – Как ставить цели организации Podlodka #237 – Как ставить цели организации

Подлодка не может плыть без капитана, а организация – без целей. Или может? Денис Дудоров, главный за организационное развитие в Авито, помог нам разобраться в том, как осознанно подойти к целеполаганию в компании. В выпуске – много инсайтов про то, как взаимосвязаны различные аспекты управления организацией и чем отличаются фреймворки целеполагания. Разверните геораспределенную IT-инфраструктуру для многопользовательских игр в Selectel: https://slc.tl/VOu6R Поддержи лучший подкаст про IT:

www.patreon.com/podlodka Также ждем вас, ваши лайки, репосты и комменты в мессенджерах и соцсетях! Telegram-чат: https://t.me/podlodka Telegram-канал: https://t.me/podlodkanews Страница в Facebook: www.fa…

4 дня, 8 часов назад @ soundcloud.com
Podlodka #236 – Вузы и IT-компании
Podlodka #236 – Вузы и IT-компании Podlodka #236 – Вузы и IT-компании

Мы уже привыкли ругать высшее образование за то, что оно зачастую не помогает правильно подготовиться к будущей карьере в IT. В этом выпуске вместе с Константином Федутиновым из ВГУ мы узнаем, что можно сделать в обычном отдельно взятом вузе, чтобы радикально поменять правила игры и выстроить отношения между студентами и IT-компаниями еще во время учебы. Разверните IT-инфраструктуру для решения задач игровой разработки в Selectel: https://slc.tl/SCxps Podlodka Techlead Crew стартует уже 11 октября. Билеты по ссылке https://podlodka.io/techcrew, а по промокоду ADALOVELACE вас ждет приятная скидка! Поддержи лучший подкаст про IT:

https://patreon.com/podlodka Также ждем вас, ваши лайки, репост…

1 неделя, 4 дня назад @ soundcloud.com
Podlodka #235 – Problem Solving
Podlodka #235 – Problem Solving Podlodka #235 – Problem Solving

Каждый день мы решаем проблемы – поиск нового места работы, подбор фреймворка под задачу, составление плана развития для демотивированного сотрудника. Хотя все эти проблемы с первого взгляда абсолютно разные, общий подход к их решению может быть одинаковым. Павел Комаровский, бывший консультант McKinsey и автор блога RationalAnswer, поделился универсальным фреймворком для системного решения любых проблем. Разверните гибкую IT-инфраструктуру для образовательных и исследовательских проектов в Selectel: https://slc.tl/Jsi2e Поддержи лучший подкаст про IT:

https://patreon.com/podlodka Также ждем вас, ваши лайки, репосты и комменты в мессенджерах и соцсетях! Telegram-чат: https://t.me/podlodka T…

2 недели, 4 дня назад @ soundcloud.com
Podlodka #234 – Нетворкинг
Podlodka #234 – Нетворкинг Podlodka #234 – Нетворкинг

Про важность нетворкинга не рассказывает только ленивый, но вопрос «а как делать это правильно?» не теряет актуальности. В выпуске мы не только обсудили, чем нетворкинг может быть полезен и как наконец начать им заниматься, но и нырнули куда глубже участия в random coffee и беспорядочных знакомствах на afterparty очередной конференции. Про ценность социального капитала, важность эмпатии и эмоций и множество других глубоких аспектов нетворкинга нам рассказал Павел Хегай, технологический предприниматель и основатель нетворкинг сообщества Heg.ai. За прикладными темами, крутыми экспертами и, конечно, активным нетворкингом залетай в Podlodka TeamLead Crew https://podlodka.io/tlcrew (промокод tl_…

3 недели, 4 дня назад @ soundcloud.com
Podlodka #233 – Компьютерное зрение
Podlodka #233 – Компьютерное зрение Podlodka #233 – Компьютерное зрение

Посмотреть на изображение и понять, что на ней котик. Это такая простая задача для человека, но нужно целое направление исследований и сложных алгоритмов, чтобы с ней справился компьютер. Компьютерное зрение — что это такое, как работает и зачем нужно? Разбираемся с Артуром Кузиным из SberDevices. Решайте сложные задачи EdTech-проектов на инфраструктуре Selectel: https://slc.tl/tlkbH Выберите любую из наших конференций Podlodka Crew по ссылке https://podlodka.io/crew, и до 27 сентября успейте купить билет со скидкой по промокоду BARKHAT Поддержи лучший подкаст про IT:

www.patreon.com/podlodka Также ждем вас, ваши лайки, репосты и комменты в мессенджерах и соцсетях! Telegram-чат: https://t.m…

1 месяц назад @ soundcloud.com
Podlodka #232 – Чекап здоровья
Podlodka #232 – Чекап здоровья Podlodka #232 – Чекап здоровья

У нас уже было много выпусков про здоровье, но не обсуждали как системно подойти к здоровью для увеличения продолжительности жизни. Чекап – инстурмент именно для этого. Разобрали подход на какие чекапы, в каком возрасте и с как часто ходить. В гости к нам пришел Алексей Утин – сердечно-сосудистый хирург, кардиолог, Со-основатель проекта медицинских диспансеризаций SMART CheckUP. Реализуйте актуальные технологии на инфраструктуре Selectel для EdTech: https://slc.tl/JWIYc Поддержи лучший подкаст про IT:

www.patreon.com/podlodka Также ждем вас, ваши лайки, репосты и комменты в мессенджерах и соцсетях! Telegram-чат: https://t.me/podlodka Telegram-канал: https://t.me/podlodkanews Страница в Face…

1 месяц, 1 неделя назад @ soundcloud.com
Podlodka #231 – Киберспорт
Podlodka #231 – Киберспорт Podlodka #231 – Киберспорт

Большинство из нас занимаются этим в качестве хобби, кто-то любит смотреть, а кто-то мечтает стать профи и построить на этом всю свою карьеру. Киберспорт — молодая, но уже очень денежная индустрия, манящая многих. Как же обстоят дела за кулисами? Сколько часов игрового стажа нужно, чтобы стать профессионалом и достаточно ли для этого лишь усердия? Как тренируются топовые киберспортсмены? Есть ли жизнь в киберспорте после 25 и можно ли жить на донаты на твиче? Артем Никулин (holy_hunter), выигравший порядка 20 сибирских офлайн и 30 онлайн турниров по Dota 2, и ездивший на MAJOR в качестве тренера team empire, погрузил нас в мир киберспорта, рассказал об устройстве киберспортивных организаций…

1 месяц, 2 недели назад @ soundcloud.com
Podlodka #230 – Julia
Podlodka #230 – Julia Podlodka #230 – Julia

Много ли вы знаете языков, созданных для максимальной производительности различных вычислений? Кто-то подумает про MATLAB, кто-то вспомнит Fortran, но мы в этом выпуске поговорим о Julia. Это молодой, но очень интересный язык, с которым мы предлагаем вам познакомиться вместе с нами и Юлией Беляковой! Разверните облачный сервер с GPU в пару кликов в Selectel: https://slc.tl/Z9t89 Новый сезон конференции Podlodka iOS Crew! https://podlodka.io/ioscrew. Темы недель: «Работа с сетью» и «Совершенный код» Промокод для слушателей: JULIA Поддержи лучший подкаст про IT:

www.patreon.com/podlodka Также ждем вас, ваши лайки, репосты и комменты в мессенджерах и соцсетях! Telegram-чат: https://t.me/podlod…

1 месяц, 3 недели назад @ soundcloud.com
Podlodka #229 – Медитация
Podlodka #229 – Медитация Podlodka #229 – Медитация

Закрой глаза, сделай глубокий вдох и включай выпуск про Медитацию. В гости к нам пришла психолог и автор подкаста «Эмоциональный Интеллигент» – Анна Проворная. Постарались поговорить про тему без булшита: какие есть исследования, как медитация влияет на наше тело, а главное, раз это инструмент, какие задачи можно им решать, а какие – нет. Управляемые кластеры Kubernetes в Selectel для динамичных проектов: https://slc.tl/cgmEz Новый конференция от команды Podlodka! Podlodka Design Crew https://podlodka.io/designcrew. Темы недель: «Редизайн» и «Взаимодействие дизайнеров и разработчиков» Промокод для слушателей: PIXEL_PERFECT Поддержи лучший подкаст про IT:

www.patreon.com/podlodka Также ждем …

2 месяца назад @ soundcloud.com
Podlodka #228 – Зрение
Podlodka #228 – Зрение Podlodka #228 – Зрение

Известно, что большую часть времени программисты не пишут код, а читают его. Поэтому острое зрение — необходимость, чтобы не проглядеть ни одного досадного бага или архитектурной оплошности 👀 Шилова Татьяна Юрьевна - доктор медицинский наук, глав врач клиники доктора Шиловой и эксперт в комитете по охране здоровья в Госдуме рассказала все о здоровье наших глаз. Почему зрение портится? Как этот процесс предотвратить? И как восстановить уже испорченное зрение? Спойлеры: да, за компьютером долго сидеть все-таки вредно! Нет, лазерная коррекция - это сегодня уже совсем не страшно. Скорее включай выпуск и узнай еще десяток полезных инсайтов про офтальмологию! Сохраните важную информацию в Облачны…

2 месяца, 1 неделя назад @ soundcloud.com
Podlodka #227 – Статический анализ кода
Podlodka #227 – Статический анализ кода Podlodka #227 – Статический анализ кода

В этом выпуске обсуждаем статический анализ кода – инструмент, помогающий экономить тысячи часов времени разработчиков. Вместе с Алексеем Гопаченко из JetBrains разбираемся, почему статический анализ – это сильно больше, чем просто поиск ошибок в коде. Храните любые данные в гибком облачном хранилище от Selectel: https://slc.tl/o7Ojc Сегодня старт конференции Podlodka TechLead Crew: https://podlodka.io/techcrew Темы недель: “System Design” и “Качество системы”. А по промокоду “linter” приятная скидка! Поддержи лучший подкаст про IT:

www.patreon.com/podlodka Также ждем вас, ваши лайки, репосты и комменты в мессенджерах и соцсетях! Telegram-чат: https://t.me/podlodka Telegram-канал: https://t…

2 месяца, 1 неделя назад @ soundcloud.com
Podlodka #226 – Второе гражданство
Podlodka #226 – Второе гражданство Podlodka #226 – Второе гражданство

Свобода перемещения по всему миру, уменьшение налогов, возможность открытия зарубежных счетов и уверенность в завтрашнем дне – эти и многие другие преимущества можно получить, купив себе второе гражданство. Наш гость Анатолий Летаев, основатель компании Migronis, дал системный обзор всех возможных стран для покупки паспорта, стоимости этого и сопутствующих рисков. Арендуйте выделенные серверы с GPU для требовательных задач в Selectel: https://slc.tl/0KVDz Конференция Podlodka Android Crew https://podlodka.io/droidcrew, старт уже сегодня! Темы недель: “Лучшие практики Android-разработки” и “Хранение данных”. Промокод для подписчиков: PODLODKA_PREFERENCES Поддержи лучший подкаст про IT: https…

2 месяца, 3 недели назад @ soundcloud.com
Podlodka #225 – Алгоритмическая торговля и HFT
Podlodka #225 – Алгоритмическая торговля и HFT Podlodka #225 – Алгоритмическая торговля и HFT

Хранением большей части средств в инвестиционных инструментах уже никого не удивишь с одной стороны, но с другой многие придерживаются стратегий роста капитала вместе с рынком. А что если попробовать выиграть, да еще и отмасштабировать свою стратегию за счет автоматизации? В гости позвали Сергея Слукина – руководителя отдела прямого доступа к рынкам и алгоритмической торговли в Финаме. Успели поговорить и про смыслы – за счет алгоритмы зарабатывают деньги, и про технологии. С чего начинают новички и с какими сложностями сталкиваются разработчики, занимающиеся вопросом профессионально. Разверните гибкую облачную инфраструктуру в Selectel: https://slc.tl/0vPBc 1000 бонусных рублей по промокод…

2 месяца, 4 недели назад @ soundcloud.com
Podlodka #224 – System Design
Podlodka #224 – System Design Podlodka #224 – System Design

Спорить про архитектуру мы очень любим, поэтому пришла пора разобраться в том, как эти архитектуры создаются! System design — это не только этап интервью в FAANG. Это процесс создания архитектуры системы, которым занимаются не только бородатые Архитекторы Решений. Зачем нужен System Design (даже если вы пока "маленькие"), что в него входит, как отличить хороший System Design от плохого и какая же нотация лучше всех — все это в выпуске с Элвином Рахманкуловым, главой Mobile Competency Center в EPAM Systems. Выделенный сервер Mac Mini с процессором M1 в Selectel для iOS-разработчиков: https://slc.tl/zIZ2o Конференция про техлидство, архитектуру систем и техническое совершенство: https://podlo…

3 месяца назад @ soundcloud.com
Podlodka #223 – Техническая документация
Podlodka #223 – Техническая документация Podlodka #223 – Техническая документация

Техническая документация окружает нас повсюду – по нажатию подсказки в IDE, на GitHub-странице используемой библиотеки, в коробке с новенькой умной колонкой или стулом из IKEA. Какая-то документация помогает вам решить проблемы, а какая-то – только их создает. Андрей Поляков, тимлид команды технических писателей в Kotlin, рассказал все про то, как сделать документацию полезной. Selectel — разверните IT-инфраструктуру проекта без изучения многостраничной документации: https://slc.tl/rJroW 12 июля стартует новый сезон Podlodka Frontend Crew. Подробности: https://podlodka.io/fecrew. Промокод для слушателей подкаста: PODLODKA_IS_NOT_A_FUNCTION Вакансия в команду техписателей Kotlin: https://www…

3 месяца, 1 неделя назад @ soundcloud.com
Проветримся! Проветримся!
последний пост 11 часов назад
Стрит-арт
Стрит-арт Стрит-арт

Как организовать фестиваль стрит-арта в своём городе? Как уличные художники меняют современную культуру? И где в России смотреть классный стрит-арт? Сегодня с нами проветриваются:— Анна Клец — организатор фестиваля Стенограффия в Екатеринбурге.— Зося Леутина — художник графитист и муралист, одна из организаторов фестиваля Графит науки в Новосибирске.Не будьте такими душными, давайте лучше — проветримся!Подпишись в Телеграм на канал @progulkaApplePodcasts; GooglePodcasts; Spotify; Я.музыкаSupport the show (https://www.patreon.com/progulka)

11 часов назад @ buzzsprout.com
Медицинские технологии
Медицинские технологии Медицинские технологии

Кого и как лечит искусственный интеллект? Зачем нужна персонализированная медицина? И как алгоритмы могут помочь нам "укрепить" здоровье?Сегодня с нами проветриваются— Иван Дрокин — со-основатель и директор по науке braingarden.ai, со-основатель и директор по исследованиям botkin.ai — Булат Загидуллин — аспирант университета Хельсинки, интерн в компании Байер.— Дмитрий Бычков — aспирант университета Хельсинки, специалист по анализу данных в стартапе Kaliber Labs.Не будьте такими душными, давайте лучше — проветримся!Support the show (https://www.patreon.com/progulka)

1 неделя назад @ buzzsprout.com
Философия космизма
Философия космизма Философия космизма

Что такое космизм? Как мало кому известное мистико-философское учение изменило и продолжает менять современный мир?В нашем сотом юбилейном выпуске мы поговорим с Людмилой Будневой из НГУ и Верой Алексеевой из музея Константина Циолковского о русском космизме.Подпишись в Телеграм на канал @progulkaApplePodcasts; GooglePodcasts; Spotify; Я.музыкаSupport the show (https://www.patreon.com/progulka)

2 недели назад @ buzzsprout.com
Софья Касацкая live!
Софья Касацкая live! Софья Касацкая live!

Как "киллеры" сохраняют ваше здоровье? Чем врождённый иммунитет отличается от приобретённого? И как образ жизни влияет на иммунитет? Сегодня с нами проветривается Софья Касацкая. Софья получила PhD по иммунологии в СколТехе и ведёт канал Shameless Bacteria про иммунологию, биологию, медицину и прочее интересное.Не будьте такими душными, давайте лучше — проветримся!Подпишись в Телеграм на канал @progulkaApplePodcasts; GooglePodcasts; Spotify; Я.музыкаSupport the show (https://www.patreon.com/progulka)

3 недели назад @ buzzsprout.com
Диалекты и регионализмы
Диалекты и регионализмы Диалекты и регионализмы

Где находятся Курмыши? Что такое латка? И как формируются региональные диалекты?В последнем эпизоде сезона мы говорим о великом и могучем русском языке в компании двух прекрасных гостей:Борис Иомдин — кандидат филологических наук, ведущий научный сотрудник и заведующий сектором теоретической семантики Института русского языка им. В. В. Виноградова РАН, научный сотрудник Яндекса, доцент Школы лингвистики Высшей Школы Экономики.Иван Левин— лингвист, младший научный сотрудник Института русского языка им. Виноградова.Не будьте такими душными, давайте лучше — проветримся!Подпишись в Телеграм на канал @progulkaApplePodcasts ; GooglePodcasts ; Spotify ; Я.музыка Support the show (https://www.patre…

2 месяца, 4 недели назад @ buzzsprout.com
Алексей Шпильман live!
Алексей Шпильман live! Алексей Шпильман live!

Как «дрессируют» алгоритмы? С чем обучение с подкреплением можно смешивать, не взбалтывая? И достаточно ли одного пряника, чтоб создавать прорывные алгоритмы машинного обучения?Сегодня с нами проветривается Алексей Шпильман. Алексей заведует центром анализа данных и машинного обучения в Высшей Школе Экономики в Санкт-Петербурге и руководит лабораторией агентных систем и обучения с подкреплением в JetBrains Research.Не будьте такими душными, давайте лучше — проветримся!Подпишись в Телеграм на канал @progulkaApplePodcasts ; GooglePodcasts ; Spotify ; Я.музыка Support the show (https://www.patreon.com/progulka)

3 месяца, 1 неделя назад @ buzzsprout.com
Open Source из России
Open Source из России

Как и почему open source захватил мир? Что такое "заразная" лицензия? И создаются в России создают opensource-проекты мирового уровня?Сегодня с нами проветриваются:Андрей Бреслав — один из создателей языка программирования Котлин, cооснователь сервиса по подбору психологов Альтер.Станислав Кириллов, руководитель группы ML систем в Яндексе. Команда Станислава разрабатывает CatBoost и инфраструктуру для эмэльщиков. Михаил Бурцев — основатель проекта DeepPavlov.Не будьте такими душными, давайте лучше — проветримся!Подпишись в Телеграм на канал @progulkaApplePodcasts ; GooglePodcasts ; Spotify ; Я.музыка Support the show (https://www.patreon.com/progulka)

3 месяца, 2 недели назад @ buzzsprout.com
Сергей Нетесов live! II
Сергей Нетесов live! II

Что такое штамм? Как меняются вирусы? Почему вакцинация не только снижает нагрузку на систему здравоохранения, но и замедляет появление новых вариантов вируса?Под занавес прошлого сезона у нас в гостях был Сергей Нетёсов. Сергей — вирусолог, доктор биологических наук, профессор, член-корреспондент РАН, заведующий лабораторией биотехнологии и вирусологии Факультета естественных наук Новосибирского государственного университета. После нашей первой беседы вы просили позвать Сергея ещё. Мы прислушались!Не будьте такими душными, давайте лучше — проветримся!Подпишись в Телеграм на канал @progulkaApplePodcasts; GooglePodcasts; Spotify; Я.музыкаSupport the show (https://www.patreon.com/progulka)

3 месяца, 3 недели назад @ buzzsprout.com
Георгий Бугаков live!
Георгий Бугаков live! Георгий Бугаков live!

Со скольки лет стоит учить ребёнка программировать? Где нужно получить разрешение, чтобы начать работать программистом в четырнадцать? И чего не стоит делать родителям при воспитании детей?Сегодня с нами проветривается Георгий Бугаков. Жора уже два года работает в Skyeng, при том что в июне он закончил девятый класс.Не будьте такими душными, давайте лучше - проветримся!Подпишись в Телеграм на канал @progulkaApplePodcasts ; GooglePodcasts ; Spotify ; Я.музыка Support the show (https://www.patreon.com/progulka)

3 месяца, 4 недели назад @ buzzsprout.com
Современная археология
Современная археология Современная археология

Что общего между археологом и стартапером? Почему современные археологи не раскапывают памятники до конца? Чему может научить самая древняя туфелька в мире?Сегодня с нами проветривается первооткрыватель пещеры Арени Борис Гаспарян.Не будьте такими душными, давайте лучше - проветримся!Подпишись в Телеграм на канал @progulkaApplePodcasts ; GooglePodcasts ; Spotify ; Я.музыка Support the show (https://www.patreon.com/progulka)

4 месяца назад @ buzzsprout.com
Георгий Могелашвили
Георгий Могелашвили Георгий Могелашвили

Кто такой ментор? На каком этапе он бывает нужен техническому специалисту? И почему в Booking.com любой team lead должен получить навыки менторства?Сегодня с нами прометривается Георгий Могелашвили. Георгий работает Lead Developer в Booking.com и развивает свой проект GetMentor.Support the show (https://www.patreon.com/progulka)

4 месяца, 1 неделя назад @ buzzsprout.com
Даша Золотухина live!
Даша Золотухина live! Даша Золотухина live!

Что такое райд-тех? Как интернет меняет города? И что общего между искусством и маркетингом?Сегодня с нам проветривается Даша Золотухина, которая руководит маркетингом бизнес-группе E-commerce и Ride-tech Яндекса. Не будьте такими душными, давайте лучше - проветримся!Подпишись в Телеграм на канал @progulkaApplePodcasts ; GooglePodcasts ; Spotify ; Я.музыка Support the show (https://www.patreon.com/progulka)

4 месяца, 2 недели назад @ buzzsprout.com
Биоразнообразие
Биоразнообразие

Как вымер странствующий голубь? В честь какой птицы называли пингвинов? И как мы все приблизили антропоцен?Сегодня по случаю мирового дня биоразнообразия с нами проветривается биолог Амирам Григоров.Не будьте такими душными, давайте лучше — проветримся!Подпишись в Телеграм на канал @progulkaApplePodcasts ; GooglePodcasts ; Spotify ; Я.музыкаSupport the show (https://www.patreon.com/progulka)

4 месяца, 3 недели назад @ buzzsprout.com
Тоня Самсонова live!
Тоня Самсонова live!

Почему традиционные медиа больше не работают, не только в России, но и в мире? И как создать стартап, не будучи программистом? Сегодня с нами проветривается Тоня Самсонова. Тоня основала платформу The Question, а сейчас руководит Яндекс.Кью. Подпишись в Телеграм на канал @progulkaApplePodcasts ; GooglePodcasts ; Spotify ; Я.музыкаSupport the show (https://www.patreon.com/progulka)Support the show (https://www.patreon.com/progulka)

5 месяцев назад @ buzzsprout.com
NFT
NFT NFT

Что такое NFT? Как и почему «выстреливает» новое цифровое искусство? Какое будущее у рынка цифровых коллекций? Сегодня с нами проветриваются три художника, соавтора проекта NFT256: • Ваваев Максим — VFX Technical Artist, основатель NFT256, Москва.• Макарюк Богдан — Designer, 3d-artist, cооснователь NFT256, Харьков.• Дмитрий Белкин — Visual artist, cооснователь NFT256, Москва. Не будьте такими душными, давайте лучше — проветримся!Подпишись в Телеграм на канал @progulkaApplePodcasts ; GooglePodcasts ; Spotify ; Я.музыкаSupport the show (https://www.patreon.com/progulka)Support the show (https://www.patreon.com/progulka)

5 месяцев, 1 неделя назад @ buzzsprout.com
Вы находитесь здесь Вы находитесь здесь
последний пост 5 месяцев назад
Трудная проблема сознания. Как научить машину думать
Трудная проблема сознания. Как научить машину думать Трудная проблема сознания. Как научить машину думать

Каково написать первую программу гусиным пером в мире, где нет даже электрических лампочек, о чем мечтали отцы кибернетики, когда создавали математическую модель нейрона, и чего мы сами ждем от чипов Neuralink— в заключительном эпизоде первого сезона, где гении пьют виски на даче, макаки играют в пинг-понг без рук, роботы лечат малярию и все очень много мечтают. Этот подкаст мы делаем вместе со SberDevices

5 месяцев назад @ nowyouarehere.libsyn.com
Моральная машина. Зачем нейросети совесть
Моральная машина. Зачем нейросети совесть Моральная машина. Зачем нейросети совесть

Откуда у алгоритмов загоны и предрассудки, как роботам решать дилему вагонетки, и что нейросеть понимает про семейные ценности — в эпизоде, где спящие люди тихо едут на Теслах из киберпанка в киберкоммунизм. Этот подкаст мы делаем вместе со SberDevices Продюсер и ведущий — Павел Боровков; Редактор — Семен Шешенин; Автор сценария — Катя Зорич; Звукорежиссер — Павел Цуриков; Композитор — Кира Вайнштейн; Дизайнер обложки — Таисия Демкина; ______________________ Сайт студии Либо/Либо — libolibo.ru Instagram студии — instagram.com/libolibostudio Наш YouTube канал — youtube.com/c/ЛибоЛибо Группа в VK — vk.com/libolibostudio

5 месяцев, 3 недели назад @ nowyouarehere.libsyn.com
Сам ты нейросеть. Как устроено машинное обучение
Сам ты нейросеть. Как устроено машинное обучение Сам ты нейросеть. Как устроено машинное обучение

Почему алгоритмы начали сами повторять достижения человечества, как научились предсказывать изобретения и что общего у малыша на карусели и нейросети GPT3. Этот подкаст мы делаем вместе со SberDevices Подкаст Ивана Ямщикова "Проветримся" https://www.patreon.com/progulka Продюсер и ведущий — Павел Боровков; Редактор — Семен Шешенин; Автор сценария — Катя Зорич; Звукорежиссер — Павел Цуриков; Композитор — Кира Вайнштейн; Дизайнер обложки — Таисия Демкина; ______________________ Сайт студии Либо/Либо — libolibo.ru Instagram студии — instagram.com/libolibostudio Наш YouTube канал — youtube.com/c/ЛибоЛибо Группа в VK — vk.com/libolibostudio

6 месяцев, 1 неделя назад @ nowyouarehere.libsyn.com
Что чувствует эмоциональный ИИ
Что чувствует эмоциональный ИИ Что чувствует эмоциональный ИИ

Как машины читают то, что у вас на лице написано, решают дилемму покерфейса, предсказывают выгорание и учатся испытывать эмоции сами. Этот подкаст мы делаем вместе со SberDevices Эпизод подкаста "Запуск завтра" про Давида Яна https://zapuskzavtra.libsyn.com/i7pyit9e0q2o Продюсер и ведущий — Павел Боровков; Редактор — Семен Шешенин; Автор сценария — Катя Зорич; Звукорежиссер — Павел Цуриков; Композитор — Кира Вайнштейн; Дизайнер обложки — Таисия Демкина; ______________________ Сайт студии Либо/Либо — libolibo.ru Instagram студии — instagram.com/libolibostudio Наш YouTube канал — youtube.com/c/ЛибоЛибо Группа в VK — vk.com/libolibostudio

6 месяцев, 3 недели назад @ nowyouarehere.libsyn.com
На человеческом уровне. Зачем мы учим машины играть
На человеческом уровне. Зачем мы учим машины играть На человеческом уровне. Зачем мы учим машины играть

В этом эпизоде мы расскажем, что может нейросеть, которая провела две тысячи лет в Доте, как четыре бота сломали прятки и почему машинам нужно самоутвержаться за счет гроссмейстеров. Этот подкаст мы делаем вместе со SberDevices Продюсер и ведущий — Павел Боровков; Редактор — Семен Шешенин; Автор сценария — Катя Зорич; Звукорежиссер — Павел Цуриков; Композитор — Кира Вайнштейн; Дизайнер обложки — Таисия Демкина; ______________________ Сайт студии Либо/Либо — libolibo.ru Instagram студии — instagram.com/libolibostudio Наш YouTube канал — youtube.com/c/ЛибоЛибо Группа в VK — vk.com/libolibostudio

7 месяцев, 1 неделя назад @ nowyouarehere.libsyn.com
Нейросети и творчество. На что способны алгоритмы-художники
Нейросети и творчество. На что способны алгоритмы-художники Нейросети и творчество. На что способны алгоритмы-художники

В этом эпизоде мы разбираемся, зачем человеку роботы, которые могут воображать котов, писать небылицы, импровизировать в стиле Баха и писать стихи из поисковых запросов. Этот подкаст мы делаем вместе со SberDevices Продюсер и ведущий — Павел Боровков; Редактор — Семен Шешенин; Автор сценария — Катя Зорич; Звукорежиссер — Павел Цуриков; Композитор — Кира Вайнштейн; Дизайнер обложки — Таисия Демкина; ______________________ Сайт студии Либо/Либо — libolibo.ru Instagram студии — instagram.com/libolibostudio Наш YouTube канал — youtube.com/c/ЛибоЛибо Группа в VK — vk.com/libolibostudio

7 месяцев, 3 недели назад @ nowyouarehere.libsyn.com
Вам это понравится. Как алгоритмы воспринимают человека
Вам это понравится. Как алгоритмы воспринимают человека Вам это понравится. Как алгоритмы воспринимают человека

Как машины пытаются составить портрет человека по его кликам и лайкам, какие выводы о нем делают по чеку из магазина и почему вам лучше не знать, какой вы фрукт – в новом выпуске «Вы находитесь здесь». Этот подкаст мы делаем вместе со SberDevices Продюсер и ведущий — Павел Боровков; Редактор — Семен Шешенин; Автор сценария — Катя Зорич; Звукорежиссер — Павел Цуриков; Композитор — Кира Вайнштейн; Дизайнер обложки — Таисия Демкина; ______________________ Сайт студии Либо/Либо — libolibo.ru Instagram студии — instagram.com/libolibostudio Наш YouTube канал — youtube.com/c/ЛибоЛибо Группа в VK — vk.com/libolibostudio

8 месяцев назад @ nowyouarehere.libsyn.com
Железный характер. Как прикрутить чат-боту личность
Железный характер. Как прикрутить чат-боту личность Железный характер. Как прикрутить чат-боту личность

В этом эпизоде мы расскажем, как симуляция безумия помогает машине притворяться человеком, зачем виртуальным ассистентам сценаристы и редакторы и как два бота торговались за мячик и сломали английский язык. Этот подкаст мы делаем вместе со SberDevices Продюсер и ведущий — Павел Боровков; Редактор — Семен Шешенин; Автор сценария — Катя Зорич; Звукорежиссер — Павел Цуриков; Композитор — Кира Вайнштейн; Дизайнер обложки — Таисия Демкина; ______________________ Сайт студии Либо/Либо — libolibo.ru Instagram студии — instagram.com/libolibostudio Наш YouTube канал — youtube.com/c/ЛибоЛибо Группа в VK — vk.com/libolibostudio

8 месяцев, 2 недели назад @ nowyouarehere.libsyn.com
Мы вас услышали. Как машина научилась понимать нашу речь
Мы вас услышали. Как машина научилась понимать нашу речь Мы вас услышали. Как машина научилась понимать нашу речь

В этом эпизоде мы расскажем, почему голосовые помощники не понимают шотландцев и чем им может помочь глухой с младенчества советский математик. Как робот находит песню, в которой вы помните только «ту-ту-ту-рум-ту-ту-рум». И правда ли, что умные колонки за нами шпионят. Этот подкаст студии Либо/Либо и SberDevices Продюсер и ведущий — Павел Боровков; Редактор — Семен Шешенин; Автор сценария — Катя Зорич; Звукорежиссер — Павел Цуриков; Композитор — Кира Вайнштейн; Дизайнер обложки — Таисия Демкина; ______________________ Сайт студии Либо/Либо — libolibo.ru Instagram студии — instagram.com/libolibostudio Наш YouTube канал — youtube.com/c/ЛибоЛибо Группа в VK — vk.com/libolibostudio

9 месяцев назад @ nowyouarehere.libsyn.com
История говорящих машин. От ацтеков до Alexa
История говорящих машин. От ацтеков до Alexa История говорящих машин. От ацтеков до Alexa

В первом эпизоде мы рассказываем, как учили машину говорить так, чтоб ее можно было слушать без кринжа. Изобретатели и инженеры буквально столетиями пытались заставить машины говорить и придумали за это время самые странные звучащие объекты в истории. В этом выпуске вы услышите орущие свистки ацтеков, смех волынки с механическим ртом и песни безумных роботов. Заодно мы расскажем, чьим голосом на самом деле разговаривал Стивен Хокинг и почему запись живого диктора может звучать хуже, чем нейросеть. И почему все это ради пиццы. Этот подкаст студии Либо/Либо и SberDevices Продюсер и ведущий — Павел Боровков; Редактор — Семен Шешенин; Автор сценария — Катя Зорич; Звукорежиссер — Павел Цуриков; …

9 месяцев, 3 недели назад @ nowyouarehere.libsyn.com
Comand Line Heroes by RedHat Comand Line Heroes by RedHat
последний пост 1 неделя, 3 дня назад
Robot as Maker
Robot as Maker Robot as Maker

One of the first functional robots appeared on TV in 1966. That’s earlier than some of us expect. The Unimate’s televised premiere sparked the world’s imagination. It represented a host of possibilities. Those possibilities, however, also implied a coming competition that would last for decades. Dag Spicer tells the story of the Unimate, the first industrial robot—and how little the American public trusted it. But that distrust wasn’t universal. Tomonori Sanada explains how the Unimate was received very differently in Japan. Joe Campbell describes the dangers of working alongside industrial robots. But he’s working to change that with cobots. And Paul Shoup shares how his company, employees…

1 неделя, 3 дня назад @ redhat.com
Robot as Software
Robot as Software Robot as Software

Building a physical robot isn’t cheap—even when it’s the final version. Designing a robot and testing it over and over again? That takes a lot of tries. And likely more than a few failures on the way to success. Luckily, simulation software is reducing the scrap heap—and bringing down the costs of building robots from the ground up. Kevin Knoedler shares how simulation software allows him to program and design robots from home. And even though he doesn’t have the budget or support of major research institutions like DARPA, his robots still end up winning major competitions. Evan Ackerman points out that winning those competitions takes a lot of skills. But amateurs have more ways than ever …

3 недели, 3 дня назад @ redhat.com
Robot as Servant
Robot as Servant Robot as Servant

The 1980s promised robotic servants were in reach. They’d clean up our houses. Bring us drinks. Usher in an era of leisure. We didn’t get robot butlers. But if we look around, we’ll find an army of robotic servants already automating away domestic drudgery. Richard Rowland recounts the extent to which Androbot over-promised on its ability to build a robot servant. 40 years later, we still don’t have robot maids. Monroe Kennedy III walks us through the complexities of seemingly simple tasks. To make things more difficult, each attempt to build a robot had to build the hardware AND write the code from scratch. Keenan Wyrobek explains that’s why he helped write and share the Robot Operating Sy…

1 месяц, 1 неделя назад @ redhat.com
Command Line Heroes Season 8: Broadcasting the Robot Revolution
Command Line Heroes Season 8: Broadcasting the Robot Revolution Command Line Heroes Season 8: Broadcasting the Robot Revolution

Robots have a special place in our imaginations. Writers, artists, directors, and more have shown how robots can change our world—for better or far, far worse. In the real world, robots seem a long way off. But are they? Season 8 of Command Line Heroes is all about the rise of the robots. They just may not be what you expect. We meet the first industrial robot, take a journey through the uncanny valley, and investigate a possible robot crime. Season 8 covers the robots that are in our midst—and the determined dreamers who bring them to life. The first episode drops September 7, 2021. Follow today and sign up for the newsletter to get the latest updates.

1 месяц, 3 недели назад @ redhat.com
After the Bubble
After the Bubble After the Bubble

The Y2K bug generated a lot of fear, but all that hype fizzled when the new millennium didn’t start with a digital apocalypse. It turns out that fear was just aimed at the wrong catastrophe. While plenty were riding high on the rise of the internet beyond the Y2K scare, another disaster had been brewing since 1995—and would bring them back down. But the dot-com bubble wasn’t the end. The internet was here to stay. Not long after the turn of the millennium, the dot-com economy collapsed. Peter Relan points to the flawed business plans that fueled the dot-com bubble, and how many entrepreneurs and investors underestimated the complexity of building a business on the internet. Ernie Smith tell…

3 месяца, 2 недели назад @ commandlineheroes.simplecast.com
The World of the World Wide Web
The World of the World Wide Web The World of the World Wide Web

1995 laid the groundwork for a truly global World Wide Web. But not every country took the same path to connecting to the internet. Some resisted, wanting to create their own version. Others had to fight for access, not wanting to be left behind. And while we made huge strides in connecting the world in those early years, we still have a long way to go. Julien Mailland recounts the rollout of France’s Minitel service—how it was years ahead of the internet, but eventually lost its lead. Steve Goldstein explains what was involved in building the infrastructure to expand the NSFNET beyond the United States. Gianluigi Negro shares how China pushed for its connection, and how different it would …

4 месяца назад @ redhat.com
Looking for Search
Looking for Search Looking for Search

The web was growing quickly in the ‘90s. But all that growth wasn’t going to lead to much if people couldn’t actually find any web sites. In 1995, an innovative new tool started crawling the web. And the search engine it fed opened the doors to the World Wide Web. Elizabeth Van Couvering describes trying to find websites before search engines, and how difficult it was becoming in the early ’90s to keep track of them all. Louis Monier talks about having to convince others how important search engines would become—and he showed them what a web crawler could do. Paul Cormier recounts taking the search engine from a research project to a commercial one. And Richard Seltzer wrote the book on sea…

4 месяца, 2 недели назад @ redhat.com
Shopping for the Web
Shopping for the Web Shopping for the Web

We put a lot of trust into online shopping: sharing our names, addresses, and handing over money. In return, we have faith that the purchased item appears at our doorstep in a few days or weeks. That trust didn’t come easily. In 1995, we took our first steps out of the brick and mortar store to load our digital shopping cart. Robert Spector reveals how Amazon.com’s business foundations are in data—and being early to the internet. Sandeep Krishnamurthy recounts the rise of eBay. Angela Robinson describes the technology that makes secure transactions and trustworthy e-commerce possible. Kartik Shastri shares how difficult it was to store and process consumer data. And Katie Wilson explains ho…

5 месяцев назад @ redhat.com
Web UX Begins
Web UX Begins Web UX Begins

Looking at the internet in 1995 is like looking back at awkward grade school yearbooks—all the weirdness and flaws stand out in stark contrast to what it’s grown into since. And web design took awhile to become a career—but it got a big boost in 1995. When the Batman Forever website launched to promote the movie, it showed people what was possible on the web. And it forever changed what we’d expect from a website. Jay Hoffmann describes the quirky designs of the early web. Richard Vijgen explains how we went from a lack of conventions to a homogenized web. Jeffrey Zeldman recounts building the Batman Forever movie’s website—and sowing the seeds of professional web design. Jessica Helfand ou…

5 месяцев, 2 недели назад @ redhat.com
A Language for the Web
A Language for the Web A Language for the Web

The Hypertext Markup Language (HTML) gave everyone a foundation for building and viewing the World Wide Web. In 1995, its standardization led to dominance. Its simplicity helped it spread. And its solid common foundation helped shape the internet. Dr. Belinda Barnet explains what kind of framework was initially needed to build and navigate the Web. Jeff Veen describes the three ingredients Tim Berners-Lee combined to create HTML: the ideal language for the Web. Gavin Nicol recounts the need to standardize the quickly-growing language. And Gretchen McCulloch points out how HTML instills an inherent bias for English speakers to develop for the web.If you want to read up on some of our researc…

5 месяцев, 4 недели назад @ redhat.com
From NSF to ISP
From NSF to ISP From NSF to ISP

1995 was the year that ISPs became the dominant gateway to the information superhighway. But how’d we go from ARPANET all the way to that? It turns out, none of it would have happened without a team of intrepid engineers at the University of Michigan.Marc Weber tells us how a tension between academics and the military set the next evolution of the ARPANET. Douglas Van Houweling discusses the work his MERIT team did at the University of Michigan to build the national backbone of the NSFNET. Elise Gerich, MERIT’s systems manager, talks about how they made the leap from a T1 connection to a T3 to handle traffic from their growing network. And Janet Abbate emphasizes how all this set the stage …

6 месяцев, 1 неделя назад @ redhat.com
Connecting the Dot-Com
Connecting the Dot-Com Connecting the Dot-Com

The year is 1995. The internet starts going mainstream and the dot-com bubble begins its rapid inflation. But 10 years before all of this, a small team of systems administrators made a seemingly simple decision that would turn out to have a monumental impact on these events and would set the course of the internet for the foreseeable future. Dr. W. Joseph Campbell sets the stage for our season on the internet in 1995. Claire L. Evans explains how hard it was to find anything on the early internet. One team was charged with compiling that information in the early days of the ARPANET. Elizabeth “Jake” Feinler recounts being the internet’s sole librarian in those early days, and how she helped…

6 месяцев, 3 недели назад @ redhat.com
Command Line Heroes Season 7: Internet Class of '95
Command Line Heroes Season 7: Internet Class of '95 Command Line Heroes Season 7: Internet Class of '95

The internet’s been around for awhile now. And it’s safe to say that it’s changed much of our daily lives. But not so long ago, there were few people who realized how transformative the internet would become. Season 7 of Command Line Heroes looks back at those few who saw the internet’s early potential and forever shaped it during its most formative year: 1995. From the origins of e-commerce, to web design, to HTML, to the infrastructure holding it all together around the world, this season highlights the heroes who turned the nascent internet into the vital global network we know today. The first episode drops March 23, 2021. Subscribe today and sign up for the newsletter to get the latest…

7 месяцев, 1 неделя назад @ redhat.com
Arlan Hamilton: The Investor Who's Opening Doors
Arlan Hamilton: The Investor Who's Opening Doors Arlan Hamilton: The Investor Who's Opening Doors

If you think hard work is enough to guarantee success, you haven’t been listening. All season long, we’ve profiled Black inventors who haven’t quite been given their due. Arlan Hamilton is helping reverse that trend by leveling the playing field—and changing the venture capital game.Arlan Hamilton’s story mirrors many we’ve covered this season—overcoming adversity to find success. But she’s also helping redefine what success can look like and, in the process, is helping change the broader tech industry. Janice Omadeke lays out how diversifying the VC community in turn leads to greater diversity among founders receiving funding. Ramona Ortega explains how traditional VC priorities often pass…

8 месяцев, 4 недели назад @ redhat.com
Gladys Perkins: The Pioneer Who Took Us To New Heights
Gladys Perkins: The Pioneer Who Took Us To New Heights Gladys Perkins: The Pioneer Who Took Us To New Heights

Is the moon made of cheese? Of course not. But can a person walk on the surface? Not too long ago, we couldn’t answer that question. But with the help of Gladys Perkins, we soon figured out that we could send a team to the moon and have them safely land on its surface. There was a time when the United States was behind the Soviets in the space race. Everyone had their sights set on the moon. Andrew Chaikin describes NASA’s disastrous Ranger missions. Erik Conway explains how complicated the trajectory calculations were—and to top it all off, why they often couldn’t be done in advance. To succeed, NASA’s new Surveyor program would need the capability to adjust trajectory mid-flight. Gladys P…

9 месяцев, 1 неделя назад @ redhat.com