Twitter i Digg rezygnują z MySQL

Serwisy Twitter i Digg przestaną korzystać z baz danych opartych na MySQL. Przedstawiciele obu firm zapowiedzieli zamiar przeniesienia danych do środowisk wykorzystujących nierelacyjną bazę Cassandra.

Z niedawnych zapowiedzi wynika, że Twitter i Digg już niedługo praktycznie przestaną wykorzystywać bazę MySQL. Według przedstawicieli obu firm decyzja o zmianie środowiska bazodanowego nie jest związana z przejęciem praw do bazy MySQL przez koncern Oracle. Konieczność przeniesienia informacji dostarczanych przez użytkowników serwisów Twitter i Digg do nowego środowiska ma być podyktowana przede wszystkim problemami wydajnościowymi.

Digg

"Rezygnujemy ze środowiska MySQL ze względu na narastające trudności związane z obsługą i zapewnieniem wysokiej wydajności nieustannie rozszerzającego się zbioru danych" - twierdzi John Quinn, wiceprezes firmy Digg. Według niego w ostatnim czasie nastąpiły istotne zmiany w środowisku informatycznym stojącym za serwisem. W ramach modernizacji przepisano cały kod serwisu Digg. Aplikacje obsługujące serwis przeniesiono do architektury rozproszonej. Zrezygnowano również z platformy LAMP (Linux, Apache, MySQL, PHP). Jednak najpoważniejszą zmianą ma być właśnie odejście od relacyjnej bazy danych MySQL na rzecz rozwijanej przez Fundację Apache bazy Cassandra. John Quinn dodaje, że do tej pory do nowego środowiska bazodanowego przeniesiono większość funkcjonalności serwisu Digg. Firma aktywnie zaangażowała się również w rozwój tej bazy danych.

Twitter

Z kolei w przypadku firmy Twitter rezygnacja z MySQL ma być pośrednio związana m.in. z chęcią zmniejszenia kosztów utrzymania środowiska bazodanowego przechowującego coraz większe ilości danych. Obecnie serwis Twitter korzysta ze środowiska bazodanowego obsługiwanego przez klaster serwerów, na których działa baza MySQL. Ryan King, inżynier systemowy w firmie Twitter, twierdzi, że w obliczu konieczności zmiany bazy danych pod uwagę brano zarówno przemodelowanie struktur w obrębie środowiska MySQL, jak i wykorzystanie innych nierelacyjnych baz danych. Brano pod uwagę również bazy takie jak: HyperTable, HBase, Voldemort i Remis. Ostatecznie z punktu widzenia potrzeb Twittera to baza Cassandra okazała się być bardziej skalowalna, stabilna i łatwiejsza w obsłudze.

Według Ryana Kinga liczba wpisów dokonywanych przez użytkowników serwisu Twitter rośnie w ogromnym tempie. W styczniu 2009 roku w serwisie publikowano ok. 2 milionów wiadomości dziennie. W zeszłym miesiącu ta liczba przekroczyła 50 milionów. Modernizacja bazy danych ma zaś dodatkowo umożliwić na automatyzację części procesów towarzyszących rozwojowi całej infrastruktury oraz przyczynić się do ograniczenia liczby awarii i podniesienia dostępności serwisu. Warto dodać, że w ostatnim roku Twitter nie działał tylko przez nieco ponad 24 godziny. Ostatnia awaria nastąpiła dzisiaj rano - serwis był niedostępny przez ok. 30 minut. Niewykluczone, że miało to związek właśnie z migracją danych do nowej bazy.

Baza, czy duża tablica?

Przedstawiciele obu firm liczą również na wsparcie ze strony społeczności open source skupionej wokół rozwoju bazy Cassandra. Pierwotnie baza Cassandra stanowiła uzupełnienie dla stworzonego na potrzeby serwisu Facebook środowiska opartego właśnie na bazie MySQL. Jako nierelacyjna baza danych miała przyspieszyć szybkość działania infrastruktury bazodanowej firmy Facebook. Dwa lata temu baza została opublikowana na zasadach open source. Od tego czasu jej rozwój koordynuje Fundacja Apache.

Cassandra, podobnie jak inne nierelacyjne bazy, zyskuje na szybkości działania m.in. dzięki odrzuceniu niektórych założeń stanowiących podstawę działania konwencjonalnych relacyjnych baz danych. Model tej bazy przewiduje maksymalizację dostępności danych oraz skrócenie czasu potrzebnego na zapisanie informacji. Według osób zaangażowanych w rozwój bazy Cassandra w niektórych zastosowaniach jest ona nawet 2,5 tys. razy szybsza od bazy MySQL. Obecnie baza wykorzystuje model danych z systemu bazodanowego Google BigTable oraz opracowany przez firmę Amazon rozproszony system składowania informacji Dynamo. Na największe, uruchomione produkcyjnie środowisko oparte na silniku Cassandra składa się 150 serwerów obsługujących wspólnie ponad 100TB danych.

Czytaj też:

Java EE 6, czyli nowa generacja Javy

Facebook przebija Google

Francuski producent systemów ERP daje 1 euro za bazę MySQL