Droga Ubera do modernizacji infrastruktury dużych zbiorów danych przy użyciu Google Cloud

W Ostatni post Na swoim oficjalnym blogu inżynieryjnym Uber ujawnił swoją strategię przeniesienia pakietu szkoleniowego z zakresu analizy danych wsadowych i uczenia maszynowego (ML) do… Platforma chmurowa Google (GCP). Uber obsługuje jedną z największych firm hadoop instalacji na całym świecie, zarządzając ponad eksabajtami danych na dziesiątkach tysięcy serwerów w obu regionach. Ekosystem danych typu open source, zwłaszcza Hadoop, jest kamieniem węgielnym platformy danych.

Strategiczny plan migracji składa się z dwóch etapów: migracji początkowej i wykorzystania usług natywnych w chmurze. Początkowa strategia Ubera polega na wykorzystaniu magazynu obiektów GCP do przechowywania hurtowni danych i migracji reszty zestawu danych do infrastruktury GCP jako usługi (IaaS). Takie podejście pozwala na szybką migrację przy minimalnych zakłóceniach istniejących funkcjonalności i potoków, ponieważ mogą replikować dokładne wersje stosu oprogramowania, silników i modelu bezpieczeństwa wewnętrznego w IaaS. Po tej fazie zespół inżynierów Ubera planuje stopniowo wprowadzać oferty Google Cloud Platform as a Service (PaaS), np. Dane proc I BigQueryAby w pełni wykorzystać elastyczność i wydajność usług natywnych w chmurze.

Zakres migracji (Źródło: Blog Ubera)

Po zakończeniu wstępnej migracji zespół skupi się na integracji usług natywnych w chmurze, aby zmaksymalizować wydajność i skalowalność infrastruktury danych. To etapowe podejście gwarantuje, że użytkownicy Ubera, od właścicieli pulpitów nawigacyjnych po specjalistów zajmujących się uczeniem maszynowym, doświadczą płynnego przejścia bez zmiany istniejących przepływów pracy i usług.

Aby zapewnić płynne i skuteczne przejście, zespół Ubera ustalił kilka zasad przewodnich:

Zminimalizuj zakłócenia w użytkowaniu, przenosząc większość zebranych pakietów danych do chmury IaaS w niezmienionej postaci; Ich celem jest ochrona użytkowników przed wszelkimi zmianami w ich produktach lub usługach. Wykorzystując znane abstrakcje i otwarte standardy, starają się, aby proces migracji był jak najbardziej przejrzysty.

Będą polegać na łączniku przechowywania w chmurze, który stosuje interfejs Hadoop FileSystem do Google Cloud Storage, zapewniając zgodność z HDFS. Standaryzując dla klientów Apache Hadoop HDFS, wyodrębnimy szczegóły wdrożenia HDFS on-premise, umożliwiając bezproblemową integrację z warstwą pamięci masowej GCP.

Zespół Ubera opracował agenty dostępu do danych dla Presto, iskraI Ul Który podsumowuje podstawowe grupy obliczeń fizycznych. Agenci ci będą obsługiwać selektywne kierowanie ruchu testowego do klastrów w chmurze w fazie testowania oraz całkowicie kierują zapytania i zadania do stosu w chmurze podczas pełnej migracji.

Wykorzystaj infrastrukturę Ubera niezależną od chmury. Obecne środowisko kontenerowe, platforma obliczeniowa i narzędzia do wdrażania firmy Uber zostały zaprojektowane tak, aby działały niezależnie od chmury i działały lokalnie. Platformy te umożliwią łatwe rozszerzanie mikrousług ekosystemu danych płatności w chmurze IaaS.

Zespół zbuduje i ulepszy istniejące usługi zarządzania danymi, aby wspierać wybrane i zatwierdzone usługi w chmurze, zapewniając solidne zarządzanie danymi. Celem firmy jest utrzymanie tego samego poziomu autoryzowanego dostępu i bezpieczeństwa, co w środowisku lokalnym, przy jednoczesnym wspieraniu bezproblemowego uwierzytelniania użytkowników w hurtowni danych obiektów i innych usługach w chmurze.

Zbiór danych dotyczących płatności Ubera przed i po migracji (źródło: Blog Ubera)

Zespół Ubera koncentruje się na mapowaniu i planowaniu zasobów chmurowych na potrzeby migracji. Mapowanie plików i katalogów HDFS na obiekty w chmurze w jednym lub większej liczbie segmentów ma kluczowe znaczenie. Muszą egzekwować zasady uprawnień na różnych poziomach szczegółowości, biorąc pod uwagę ograniczenia dotyczące kontenerów i obiektów, takie jak przepustowość odczytu/zapisu i ograniczanie IOPS. Celem zespołu jest opracowanie algorytmu mapowania, który spełni te ograniczenia i organizuje zasoby danych w sposób hierarchiczny i skoncentrowany na organizacji, co doprowadzi do lepszego zarządzania danymi i zarządzania nimi.

Integracja zabezpieczeń to kolejny kierunek działania; Dostosowanie tokenów opartych na protokole Kerberos i tokenów delegowania Hadoop do obsługi PaaS w chmurze, zwłaszcza Google Cloud Storage (GCS), jest niezbędne. Ten przepływ pracy ma na celu obsługę bezproblemowego uwierzytelniania i autoryzacji kont użytkowników, grup i kont usług, przy jednoczesnym zachowaniu lokalnie spójnych poziomów dostępu.

Zespół koncentruje się także na replikacji danych. HiveSync, dwukierunkowa usługa replikacji danych oparta na uprawnieniach, umożliwia Uberowi działanie w trybie aktywnym. Rozszerza możliwości HiveSync w zakresie replikowania danych z lokalnego jeziora danych do jeziora danych w chmurze i odpowiedniego magazynu metadanych Hive. Obejmuje to początkową migrację zbiorczą i ciągłe aktualizacje przyrostowe, dopóki pakiet oparty na chmurze nie stanie się normą.

Ostatnim krokiem jest udostępnienie nowych klastrów YARN i Presto na GCP Iaas. Agenci dostępu do danych firmy Uber będą podczas migracji kierować zapytania i zadania do klastrów w chmurze, zapewniając płynne przejście.

Proces migracji dużych zbiorów danych z Ubera do Google Cloud wiąże się z wyzwaniami, takimi jak różnice w wydajności pamięci masowej i nieoczekiwane problemy związane ze starszym systemem. Zespół planuje rozwiązać te problemy, wykorzystując narzędzia open source, wykorzystując elastyczność chmury do zarządzania kosztami, migrując zastosowania inne niż podstawowe do dedykowanej pamięci masowej, aktywnie testując integracje i porzucając dotychczasowe praktyki.

Randolph Howe

„Zła entuzjasta podróży. Irytująco skromny ćpun internetu. Nieprzepraszający alkoholiczek”.

READ Oto, co do tej pory wiemy o Androidzie 13