Smart Talk Episode 8:Membuka Wawasan Real-Time tentang Data Lakehouses
Data lakehouse telah muncul sebagai tempat penyimpanan yang fleksibel dan multiguna. Dalam episode Smart Talk ini, Dinesh Chandrasekhar, CEO Stratola, dan tamunya, Justin Borgman, CEO dan Chairman Starburst membahas cara memperluas kemampuan data lakehouse untuk menyertakan data real-time dan kueri berkinerja tinggi yang dapat memberikan wawasan hampir real-time–sebuah kasus penggunaan yang semakin umum. Diperlukan dua teknologi utama–aliran Kafka dan mesin kueri yang canggih.
Yang paling menarik adalah perspektif mereka tentang pentingnya perangkat lunak sumber terbuka dan format terbuka yang telah divalidasi oleh Snowflake dan Databricks yang mengumumkan dukungan terhadap Apache Iceberg. Justin membagikan sarannya untuk membuat tolok ukur solusi–gunakan data perusahaan Anda, jalankan kueri aktual, simulasikan skala, dan terakhir, hitung biaya.
Topik yang dibahas meliputi:
- Kafka untuk mengalirkan data real-time ke data lakehouse (4:22)
- Keunggulan format terbuka (5:56)
- Peran pendukung SQL untuk GenAI (8:53)
- Kepingan Salju, Databricks, dan Gunung Es (11:56)
- Strategi penyimpanan data yang fleksibel (17:21)
Tamu
Justin Borgman, CEO dan Ketua, Starburst
Justin Borgman adalah pakar di bidang big data &analitik. Sebelum mendirikan Starburst, dia adalah Wakil Presiden &GM di Teradata (NYSE:TDC), dan bertanggung jawab atas portofolio produk Hadoop perusahaan tersebut. Justin bergabung dengan Teradata pada tahun 2014 melalui akuisisi perusahaannya Hadapt di mana dia menjadi salah satu pendiri dan CEO. Hadapt menciptakan “SQL di Hadoop” yang mengubah Hadoop dari sistem file menjadi database analitik yang dapat diakses oleh alat BI apa pun. Dia mendirikan Starburst pada tahun 2017, berupaya memberikan kebebasan kepada analis untuk menganalisis beragam kumpulan data di mana pun lokasinya, tanpa mengorbankan kinerja.
Tuan rumah
Dinesh Chandrasekhar adalah penginjil teknologi, pemimpin pemikiran, dan analis industri TI berpengalaman. Dengan pengalaman hampir 30 tahun, Dinesh telah mengerjakan perangkat lunak perusahaan B2B serta produk SaaS yang memberikan dan memasarkan solusi canggih untuk pelanggan dengan arsitektur kompleks. Dia juga telah mendefinisikan dan melaksanakan strategi GTM yang sangat sukses dengan meluncurkan beberapa produk dengan pertumbuhan tinggi ke pasar di berbagai perusahaan seperti LogicMonitor, Cloudera, Hortonworks, CA Technologies, Software AG, IBM dll. Dia adalah pembicara yang produktif, blogger, dan pembuat kode akhir pekan. Dinesh meraih gelar MBA dari Santa Clara University dan gelar Master di bidang Aplikasi Komputer dari University of Madras. Saat ini, Dinesh menjalankan perusahaannya sendiri, Stratola, sebuah perusahaan konsultasi strategi bisnis dan layanan pemasaran lengkap yang berfokus pada pelanggan.
Sumber Daya
Smart Talk Episode 7:Kardinalitas, Kontrol, dan Biaya dalam Observabilitas
Smart Talk Episode 6:AIOps dan Masa Depan Pemantauan TI
Smart Talk Episode 5:Disagregasi Tumpukan Observabilitas
Smart Talk Episode 4:Data Real-Time dan Database Vektor
Smart Talk Episode 3:Saluran Data Modern dan LLM
Smart Talk Episode 2:Bangkitnya Aplikasi GenAI dengan Data-in-Motion
Smart Talk Episode 1:Lanskap Ekosistem Data-in-Motion
Lihat peta ekosistem data-in-motion di sini
Pelajari lebih lanjut tentang data-in-motion di RTInsights di sini
Transkrip
Dinesh Chandrasekhar:
Halo dan selamat datang di episode seri Smart Talk at Data and Motion Leadership ini. Saya tuan rumah Anda, Dinesh Chandrasekhar, kepala analis dan pendiri Stratola. Tamu kita hari ini adalah Justin Borgman, CEO dan ketua Starburst. Justin memiliki karir cemerlang di perusahaan keamanan dan analisis data, dan sebelum mendirikan Starburst pada tahun 2017, ia telah mendirikan perusahaan bernama Had Adapt, yang kemudian diakuisisi oleh Teradata di mana ia menjabat sebagai VP dan GM selama beberapa tahun. Selamat datang Justin. Jadi mari kita mulai dengan Starburst, bukan? Saya rasa banyak orang mengetahui Starburst sebagai sebuah merek, namun cukup banyak orang yang juga ingin mempelajari lebih lanjut tentang Starburst. Ceritakan kepada kami tentang Starburst, khususnya asal usulnya dan dorongan Anda untuk memulai perusahaan ini.
Justin Borgman:
Ya, dengan senang hati. Jadi seperti yang Anda sebutkan di pendahuluan, saya telah berkecimpung di bidang analisis data selama sekitar 15 tahun, sejak startup pertama, yang diakuisisi oleh Teradata. Tentu saja, seperti yang saya yakin audiens Anda ketahui, Teradata selama beberapa dekade, sejujurnya, adalah pemimpin dalam analisis data warehousing. Dan model tersebut benar-benar mengharuskan pemindahan semua data Anda ke dalam database milik sendiri, yang merupakan gudang data perusahaan Anda. Dan dari sana Anda dapat menjalankan analisis cepat dan memahami bisnis Anda. Saya pikir apa yang kami lihat adalah peluang untuk mengubah model tersebut, khususnya dalam dua cara. Yang pertama, kemampuan untuk memanfaatkan format tabel terbuka di data lake, sehingga memberi Anda kinerja data warehousing. Namun dalam data lake, terkadang orang menyebutnya sebagai arsitektur rumah danau saat ini, serta kemampuan untuk menjangkau sumber data lain dan menggabungkan tabel yang ada di database lain dengan tabel yang ada di data lake tersebut.
Jadi misalnya, Anda mungkin memiliki database Oracle atau database SQL Server, dan Anda ingin menggabungkan tabel di salah satu sistem tersebut dengan tabel dalam format file Iceberg di data lake. Dan pada dasarnya itulah yang dilakukan oleh teknologi kami. Ini adalah teknologi dasar yang disebut Trino. Ini adalah proyek sumber terbuka. Awalnya lahir dari Facebook, dan banyak perusahaan internet terbesar, LinkedIn, Airbnb, Netflix, Apple, dll. yang melakukan analisis pergudangan data mereka sendiri. Sekali lagi, dalam model di mana data lake adalah repositori pusat di mana mereka bisa mendapatkan biaya kepemilikan yang sangat rendah, menyimpan data di data lake ini, serta bisa bergabung dengan tabel lain juga. Dan sebenarnya Starburst hanyalah komersialisasi dari proyek sumber terbuka tersebut. Kami menyediakan Trino versi perusahaan yang memiliki fitur keamanan tambahan, konektor tambahan, manfaat kinerja tambahan, dan berbagai fitur dan fungsi lainnya.
Dinesh Chandrasekhar:
Terima kasih. Dan saya pasti ingin menyelami lebih dalam tentang Trino dan Gunung Es dan sebagainya. Saya pikir itu semua adalah topik yang bagus untuk hari ini, tapi bolehkah saya mundur sedikit dan bertanya kepada Anda apakah Anda ingin melihat evolusi arsitektur data, kita memiliki database tradisional dan kemudian gudang data muncul, dan dengan ledakan data dan kebutuhan untuk memproses lebih banyak data real-time, arsitektur rumah danau dan lain-lain pun muncul. Jadi di dunia Anda, ketika Anda melihat evolusi arsitektur data, data lakehouse, dan dalam kasus Anda, saya pikir Anda juga memiliki konsep yang disebut Icehouse, bagaimana hal ini memengaruhi kemampuan organisasi untuk menangani data real-time secara efektif?
Justin Borgman:
Ya, pertanyaan bagus. Dan untuk memperjelas kepada pendengar Anda, konsep rumah es sebenarnya hanyalah rumah danau yang berbasis di gunung es. Jadi data disimpan dalam format tabel gunung es dan Anda juga dapat melakukan analisis gaya pergudangan data. Hasil akhirnya memberikan total biaya kepemilikan yang sangat rendah serta kemampuan untuk menangani data hampir real-time seperti yang Anda jelaskan. Dan cara kami memikirkannya adalah kami melihat peningkatan luar biasa dalam jumlah teknologi streaming data di pasar seperti Kafka misalnya, di mana semakin banyak pelanggan yang menggunakannya untuk mengalirkan data hampir secara real-time ke dalam data lake.
Dan dari sudut pandang kami, di situlah kami ingin mengambilnya. Kami telah membangun sesuatu yang kami sebut penyerapan streaming di mana Anda dapat terhubung ke aliran Kafka dan kami akan secara otomatis mengubahnya menjadi tabel Iceberg dan membuatnya tersedia untuk kueri hampir secara instan. Jadi, hal ini memungkinkan bisnis sekarang mendapatkan wawasan baru yang lebih cepat tentang data mereka berkat arsitektur ini.
Dinesh Chandrasekhar:
Terima kasih. Jadi Lakehouse menjanjikan pendekatan arsitektur yang sangat terpadu untuk analisis batch dan real-time. Bisakah kami mengatakan, maksud saya, bagaimana Anda melihat perubahan arsitektur ini mentransformasi BI dan pengambilan keputusan tradisional di berbagai industri saat ini? Bagaimana hal itu berubah?
Justin Borgman:
Ya, saya melihatnya mengubah banyak hal secara dramatis. Saya pikir salah satu pendorong dan salah satu manfaat arsitektur ini adalah hal yang sederhana seperti ekonomi. Pada akhirnya, gudang data tradisional tersebut bisa menjadi sangat mahal. Itu sebenarnya mungkin salah satu keluhan nomor satu selama saya berada di Teradata. Tidak ada yang pernah mengatakan Teradata adalah database yang buruk. Ini sebenarnya adalah sistem database yang hebat. Kebetulan biayanya sangat mahal dan begitu Anda masuk, Anda sudah masuk dan Anda sudah berkomitmen.
Jadi data lake ini memberi Anda fleksibilitas yang lebih besar karena Anda menggunakan format terbuka, yang memungkinkan pelanggan memilih mesin yang tepat untuk mengakses data saya. Ini memberi Anda banyak fleksibilitas, mengurangi penguncian, namun juga memungkinkan Anda menyimpan data di penyimpanan komoditas yang sangat murah, yang dalam konteks cloud semakin meningkat menjadi penyimpanan S3 atau Google GCS atau Azure Data Lake. Dan bahkan di dunia lokal, kami melihat penyimpanan objek yang kompatibel dengan S3 dari perusahaan seperti Dell atau IBM atau apa pun yang Anda miliki, di mana pada dasarnya Anda bisa mendapatkan S3. Sehingga hal ini menjadi lapisan dasar umum untuk menyimpan data dengan sangat hemat biaya, dan itulah bagian yang mendorong transformasi ini.
Dinesh Chandrasekhar:
Oke, jadi sekarang mari kita bahas, karena menurut saya itulah pendorong utama di balik penawaran Anda, ini telah mendapatkan popularitas selama bertahun-tahun sebagai mesin kueri yang sangat kuat dalam ruang data waktu nyata. Bagaimana Anda melihat perannya berkembang dalam ekosistem data modern? Terutama seperti yang Anda sebutkan, ada teknologi open source lain seperti Apache Iceberg, yang juga menawarkan banyak interoperabilitas antara sistem data yang berbeda dan sebagainya. Jadi, bagaimana hal ini dikombinasikan dengan kombinasi beberapa teknologi sumber terbuka lainnya dapat mengubah ekosistem data modern?
Justin Borgman:
Saya pikir ini menjadi semacam pergudangan data Postgres. Postgres tentu saja merupakan database open source yang banyak digunakan dan sangat populer. Ini adalah node tunggal R-D-B-M-S tradisional. Trino mirip dengan MPP yang setara dengan analisis pergudangan data pemrosesan paralel besar-besaran. Jadi untuk data besar Anda, untuk aktivitas gaya pergudangan data Anda, ini sekarang menjadi pilihan sumber terbuka secara de facto.
Sekarang terkadang orang bertanya, bagaimana dengan Spark jika dibandingkan? Spark adalah mesin pemrosesan serba guna yang hebat, tetapi tidak benar-benar dioptimalkan untuk analisis SQL. Dan menurut saya, sesuai dengan poin Anda sebelumnya tentang intelijen bisnis dan pengambilan keputusan, SQL masih menjadi bahasa untuk jenis kasus penggunaan tersebut, apakah itu menghubungkan alat BI, menjalankan pelaporan, atau bahkan membangun aplikasi berbasis data, SQL terus menjadi bahasa yang sangat penting untuk antarmuka, dan Trino adalah mesin nomor satu untuk hal tersebut di pasar saat ini.
Ketika Anda menggabungkannya dengan sesuatu seperti Iceberg, seperti yang Anda katakan, Anda sekarang memiliki gudang data yang lengkap. Anda memiliki bagian mesin kueri, Anda memiliki bagian penyimpanan, dan sekarang Anda memiliki gudang data terbuka yang lengkap. Mereka juga bisa berjalan di mana saja, bisa berjalan di lokasi, bisa berjalan di cloud. Jadi, Anda memiliki banyak fleksibilitas dengan tumpukan itu.
Dinesh Chandrasekhar:
Bolehkah saya menanyakan sedikit pertanyaan cabang? Karena Anda menyebutkan SQL sebagai salah satu pilihan untuk banyak penyimpanan data saat ini, dan saya percaya bahwa dalam 30, 40 tahun terakhir, tidak ada yang dapat menggoyahkan hal tersebut secara pasti, namun dengan munculnya teknologi gen AI dan pemrosesan bahasa alami di mana-mana, orang-orang kini dapat berbicara tentang demokratisasi data di mana Anda sekarang mendistribusikannya bahkan kepada analis bisnis yang mungkin tidak memiliki pengetahuan yang sama, namun dapat menggunakan bahasa alami untuk mengatakan, beri saya tiga bulan terakhir penjualan di wilayah tertentu dan seterusnya seterusnya.
Dan secara internal jelas menerjemahkannya ke SQL dan kemudian menanyakan mesin atau apa pun, bukan? Jadi, apakah Anda juga melihat adanya perubahan dalam hal itu? Apakah SQL akan berkembang dan bertahan, atau akankah ada perubahan dalam cara kita memandang data kueri di masa mendatang?
Justin Borgman:
Itu pertanyaan yang sangat bagus dan menurut saya Anda tertarik pada sesuatu di sana. Saya pikir secara bertahap seiring waktu, saya pikir AI generatif sebagai antarmuka akan menjadi sangat populer karena menurut Anda, hal itu agak bodoh bagi siapa pun untuk menggunakannya. Jadi sekarang ini lebih merupakan pengalaman Google pada semua data di suatu perusahaan, dan itu sangat menarik. Faktanya, kami telah memasukkan versi awalnya ke dalam produk kami sendiri dan saya pikir semua orang akan melakukannya, ini akan menjadi taruhannya.
Namun menurut saya, di balik layar, teknologi tersebut sebenarnya hanya akan mengubah bahasa alami tersebut menjadi sintaksis SQL agar mesin benar-benar dapat mengeksekusinya. Jadi menurut saya bahasanya tetap penting, tetapi mungkin lebih merupakan detail implementasi di balik antarmuka gaya bahasa alami AI generatif. Menurutku, kamu tepat sasaran. Ini mengingatkan saya pada saat kalkulator atau bahkan kalkulator grafik ditemukan, tiba-tiba kita tidak perlu mengetahui semua rumus dan cara melakukan pembagian panjang karena kalkulator kita sudah mengurusnya. Menurut saya, itulah manfaat AI generatif bagi kita di sini.
Dinesh Chandrasekhar:
Akses data yang lebih mudah, pastinya. Saya pikir itulah tujuan kita. Benar-benar tempat yang menarik. Jadi kami berbicara tentang Trino. Bolehkah saya mengganti topik pembicaraan dan bertanya tentang Gunung Es lagi? Hal ini menjadi sangat, sangat populer. Saya melihat raksasa-raksasa di industri ini mulai mengadopsi gunung es sebagai cara alami untuk menyatakan bahwa kami dapat dioperasikan, kami mendukungnya, dan sebagainya. Jadi seiring dengan semakin banyaknya organisasi yang mengadopsi analitik real-time, apa peran gunung es dalam memungkinkan pengelolaan data yang lebih efisien dan terukur? Apa pendapat Anda tentang itu?
Justin Borgman:
Ya, menurut saya ini masalah besar. Menurut saya, ini adalah kisah terbesar selain AI pada tahun 2024. Dan alasan saya mengatakannya adalah bahwa format tersebut telah ada selama beberapa tahun, namun sebenarnya tahun ini pasar telah menyelesaikan perdebatan mengenai format mana yang akan menang. Ada periode singkat di mana ada tiga format bersaing yang populer, dan pertanyaannya adalah siapa yang akan menang?
Taruhan kami selalu Iceberg, saya kira saya akan mengatakan kami memperkirakan akan pergi ke arah ini, tapi saya pikir pasar telah benar-benar setuju musim panas ini ketika Snowflake dan Databricks mengumumkan niat mereka sendiri untuk mendukungnya, dan hal semacam itu baru saja mematikan perdebatan seperti Iceberg adalah standar defacto dan apa manfaatnya bagi pelanggan, sejauh ini pelanggan adalah pemenang sesungguhnya dalam hal ini. Hal ini karena mereka sekarang dapat menyimpan data dalam format yang mereka miliki, yang dapat mereka kendalikan dan bersifat portabel bagi mereka, yang tidak berada di tangan vendor database yang akan menyandera mereka selama beberapa dekade mendatang.
Mereka memilikinya dan itu berarti mereka dapat memainkan mesin satu sama lain. Mereka dapat berkata, oke, Starburst akan melakukan beban kerja ini yang akan memberi saya kinerja biaya terbaik untuk itu. Mungkin Snowflake lebih baik untuk beban kerja ini. Mungkin Databricks lebih baik untuk beban kerja itu dan pelanggan memiliki pilihan di antara mesin-mesin ini, dan ini luar biasa. Saat mesin bersaing, Anda menang sebagai pelanggan dan menurut saya itulah yang disediakan Iceberg.
Dinesh Chandrasekhar:
Tapi itu ringkasan yang bagus. Saya pikir hal ini memperjelas pentingnya visi gunung es karena perusahaan sedang melakukan standarisasi model yang menurut saya semua orang lebih bisa dioperasikan dan menurut saya ini menguntungkan pelanggan, seperti yang Anda katakan, tanpa harus terikat dengan vendor tertentu, namun memungkinkan mereka menjadi sedikit lebih terbuka dan fleksibel. Itu adalah poin yang bagus tentunya.
Justin Borgman:
Tepat sekali.
Dinesh Chandrasekhar:
Justin, mengapa kita tidak membicarakan contoh pelanggan di sini karena Trino dan Iceberg adalah pusat percakapan hari ini, beri tahu kami tentang mungkin studi kasus pelanggan di mana Anda pernah melihat hal ini diterapkan secara praktis dan apa saja manfaat yang mereka lihat dengan mengadopsi Trino dan Iceberg?
Justin Borgman:
Senang untuk. Ada sejumlah contoh baik dari perusahaan internet terkemuka seperti DoorDash hingga perusahaan yang lebih tradisional seperti Comcast yang telah ada sejak lama yang dalam kedua kasus tersebut beralih dari apa yang saya sebut sebagai platform gudang data tradisional, memindahkan beban kerja untuk memulai dari platform gudang data tradisional.
Dalam kasus Comcast, gudang data lokal sangat tradisional. Dalam kasus DoorDash, saya menyebutnya gudang data cloud yang sangat tradisional. Apa pun kasusnya, apa yang mereka coba lakukan pada akhirnya adalah mendapatkan TCO yang lebih baik pada analisis SQL mereka dan memberikan fleksibilitas untuk bekerja dengan teknologi mutakhir yang dapat berinteraksi dengan satu format umum ini.
Sekali lagi, pada poin kami sebelumnya, menurut saya apa yang juga mereka coba lakukan, dan ini berkaitan dengan topik AI, adalah mereka meletakkan dasar untuk menerapkan arsitektur data sehingga mereka sekarang dapat memiliki akses mudah ke data yang mereka perlukan untuk melatih model mereka sendiri atau menjalankan alur kerja RAG pada akhirnya untuk mendukung ambisi AI mereka sendiri. Dan menurut saya, banyak perusahaan pada masa-masa awal tersebut sedang mencari tahu apa yang dapat dilakukan AI untuk saya? Bagaimana hal ini dapat memberi saya keunggulan kompetitif?
Dan sementara mereka memikirkan hal tersebut, satu hal yang menurut saya sudah jelas bagi mereka adalah bahwa data kepemilikan mereka akan menjadi hal penting dalam memberi mereka keunggulan kompetitif. Oleh karena itu, menyiapkan infrastruktur data yang memberi Anda akses ke apa yang Anda perlukan dengan biaya rendah dan performa tinggi adalah langkah inti dalam proses tersebut.
Dinesh Chandrasekhar:
Jadi sebagai cara untuk mendapatkan manfaat, bisakah saya mengklik dua kali pada itu dan mengatakan atau bertanya kepada Anda khususnya tentang data real-time, hal ini sering kali menimbulkan tantangan seperti evolusi skema yang berubah pada skema seiring dengan perubahan sumber, target perlu beradaptasi dan seterusnya, dan pembuatan versi data juga. Bagaimana Apache Iceberg membantu mengatasi beberapa tantangan dalam platform data modern seperti ini?
Justin Borgman:
Jadi ada konsep pembuatan versi dan melakukan perjalanan waktu serta kemampuan untuk melihat bagaimana data berkembang dalam platform kami. Kami juga telah menambahkan silsilah data, metrik kualitas data yang dapat kami tangkap dan sajikan kepada pengguna sehingga Anda benar-benar dapat memahami dari mana data tersebut berasal, bagaimana perkembangannya, bagaimana data tersebut diulangi, dan pada akhirnya memberikan visibilitas tersebut kembali kepada pengguna akhir.
Dinesh Chandrasekhar:
Oke. Kemudian dengan Trino, Anda berbicara tentang bagaimana Anda dapat menggabungkan beragam sumber data dan melakukan kueri bersama dan sebagainya. Apakah arsitekturnya lebih mengarah ke sumber data atau penyimpanan data yang terpusat, atau apakah arsitekturnya tetap mempertahankannya di tempatnya, namun memberikan kemampuan untuk menggabungkannya dan memberikan visibilitas kepada konsumen? Apa arsitektur dalam negara bagian yang kita lihat di sini?
Justin Borgman:
Ya, pertanyaan bagus. Ada elemen dari keduanya, dan menurut saya itulah yang selalu menyulitkan kami untuk mengartikulasikan proposisi nilai kami karena orang terbiasa dengan satu model dan satu kerangka berpikir, yang memusatkan segalanya di gudang data tradisional atau Anda tidak punya akses ke sana. Dan saya pikir cara kita melihat dunia berkembang adalah bahwa akan ada repositori pusat yang tidak diragukan lagi akan menjadi data lake, yang akan menyimpan sebagian besar data atau sebanyak mungkin data karena Anda akan mendapatkan manfaat ekonomi, Anda akan mendapatkan manfaat kinerja dengan menyimpan sebanyak mungkin data dalam format gunung es di danau Anda. Jadi menurut kami ini adalah strategi yang bagus untuk sebagian besar data Anda, namun menurut kami juga akan selalu ada kasus penggunaan yang mengharuskan Anda menjangkau sumber data lain.
Mungkin itu analisis eksplorasi. Saya hanya punya hipotesis yang ingin saya uji yang menurut saya bisa sangat besar bagi bisnis kami, tapi saya tidak ingin mengembangkan semua jalur ETL dan melalui semua proses itu hanya untuk sebuah ide, hanya untuk firasat yang saya miliki. Ya, itu adalah kasus penggunaan yang bagus di mana kemampuan untuk bergabung dengan meja yang ada di tempat lain dengan apa yang Anda miliki adalah sebuah pengubah permainan. Ini mungkin memungkinkan Anda untuk membuktikan hipotesis tersebut dalam hitungan menit, bukan minggu, agar tim dapat memindahkan data sesuai kebutuhan Anda. Jadi menurut saya keduanya berharga, namun kami menganggapnya sebagai mayoritas di danau dan kemudian menjangkau lebih jauh dari danau itu adalah cara kami memikirkannya.
Dinesh Chandrasekhar:
Jadi, jika saya adalah perusahaan pihak ketiga yang, katakanlah, sedang mencari platform data modern, apa saja pertimbangan kinerja penting yang ingin saya masukkan ke dalam daftar periksa saya saat mempertimbangkan Trino versus sejumlah alternatif lain? Maka prioritas saya adalah, katakanlah, menangani permintaan data waktu nyata, memastikan adanya latensi rendah dan hal-hal seperti itu. Jadi itulah persyaratan saya. Pertimbangan apa saja yang ingin saya masukkan ke dalam daftar periksa saya?
Justin Borgman:
Ya. Dua saran teratas yang akan saya berikan adalah, nomor satu, gunakan kueri nyata yang benar-benar Anda gunakan. Menurut saya, sangat umum bagi orang untuk menggunakan tolok ukur industri, dan itu mungkin merupakan langkah yang sepintas lalu, tetapi hal ini tidak akan mencerminkan beban kerja Anda. Itu tidak pernah terjadi. Setiap perusahaan memiliki hal-hal sendiri yang ingin mereka lakukan. Jadi, yang terbaik adalah mencoba mensimulasikan keadaan akhir Anda sebaik mungkin.
Dan itu berarti memanfaatkan pertanyaan dan data Anda sendiri saat Anda menyusun bukti konsep Anda sendiri dan melakukan tolok ukur. Anda hanya tidak boleh mempercayai tolok ukur vendor lain secara eksklusif. Bahkan milik kita sendiri. Kami memilikinya, Anda dapat melihatnya, tetapi Anda harus benar-benar mengujinya sendiri dengan pertanyaan dan data Anda sendiri.
Hal kedua yang ingin saya katakan adalah memastikan bahwa Anda melakukan simulasi skala dan skala itu penting karena di sinilah setidaknya kita menemukan beberapa peluang kita sendiri dengan pelanggan untuk misalnya mengganti vendor yang telah mereka beli, di mana dalam proses POC, mereka mengira vendor tersebut memenuhi kebutuhan mereka, namun ketika mereka mencapai skala produksi nyata, vendor tersebut tidak dapat mengatasinya.
Dan di sinilah menurut saya ada manfaat besar memanfaatkan teknologi sumber terbuka seperti Trino, yang telah terbukti dalam skala terbesar yang bisa dibayangkan, seperti Apple menjalankannya dalam skala yang gila, tentu saja skala Facebook yang gila. Jadi hal ini bisa berhasil. Ia bekerja pada skala itu. Itu akan memberi Anda ketenangan pikiran. Namun tetap saja, menurut saya simulasikan sendiri dalam proses benchmarking Anda sendiri untuk benar-benar memastikan bahwa berbagai teknologi ini akan memenuhi kebutuhan yang Anda miliki dalam produksi. Dingin.
Dan mungkin bagian ketiga yang akan saya tambahkan adalah biaya. Biaya juga sangat penting, bukan? Biaya dan kinerja sebenarnya hanyalah dua sisi dari mata uang yang sama. Dan Anda juga perlu mempertimbangkan hal itu dalam tolok ukur Anda, bukan? Anda tidak hanya akan memilih yang tercepat. Anda ingin memilih kinerja biaya terbaik. Jadi ini merupakan bagian penting dari komponen tersebut juga.
Dinesh Chandrasekhar:
Saya setuju. Saya pikir itu adalah item daftar periksa utama bagi banyak orang yang pasti sedang mengevaluasi solusi di luar sana. Jadi mungkin mari kita selesaikan hal ini dari perspektif tren. Saya hanya ingin bertanya, ada banyak hal yang terjadi di ruang data saat ini, bukan? Jadi ada vendor data warehouse, vendor lakehouse, vendor data lake, dan beberapa alternatif, database analitik real-time dan yang lainnya.
Pilihannya pasti luas dan membingungkan pembeli. Jadi dari perspektif tren yang sedang berkembang, apakah Anda melihat adanya konvergensi dalam hal pemrosesan data real-time, arsitektur data lakehouse yang baru saja kita bicarakan, dan ekosistem sumber terbuka secara umum? Apakah Anda melihat adanya konvergensi yang akan memperjelas hal ini bagi pembeli dalam waktu dekat?
Justin Borgman:
saya melakukannya. Saya pikir kita mulai melihat pola-pola yang sangat populer muncul dan seringkali pola-pola ini berasal dari internet, hyperscaler, dan kemudian diterjemahkan ke dalam perusahaan seiring berjalannya waktu. Dan saya pikir kita sekarang berada pada titik di mana teknologi ini mulai memasuki dunia usaha. Dan pola yang saya lihat adalah memanfaatkan teknologi seperti Kafka untuk porsi streaming. Dan tentu saja Anda punya banyak pilihan di sana. Anda dapat melakukan Confluent, Anda dapat melakukan versi Amazon. Anda punya pilihan di semua platform sumber terbuka ini, dan itu bagus. Saya pikir Iceberg pastinya, untuk format penyimpanan data Anda, bagi saya itu sepertinya taruhan teraman yang bisa Anda buat. Dan kemudian di sisi mesin, sekali lagi, menemukan mesin yang tepat untuk pekerjaan yang tepat. Menurut saya jika ini adalah SQL Analytics, kami akan mengatakan Trino dan Starburst adalah pilihan terbaik, namun Anda harus membuktikannya sendiri.
Jika Anda melatih model pembelajaran mesin, Anda mungkin akan menggunakan Spark untuk itu. Dan itulah pola yang kita lihat. Saya pikir keempat teknologi tersebut akan sangat populer dalam arsitektur data sumber terbuka di tahun-tahun mendatang. Dan sekali lagi, open source memberi Anda fleksibilitas untuk dapat memadupadankan komponen dari waktu ke waktu, yang akan membuat arsitektur Anda bertahan dalam ujian waktu. Dan menurut saya yang ingin Anda lakukan adalah tidak menciptakan utang teknis yang akan sulit Anda gantikan dalam 10 tahun dari sekarang. Dan open source memberi Anda fleksibilitas itu.
Dinesh Chandrasekhar:
Suka poin itu. Terima kasih. Saya pikir kita harus mengakhiri ini dengan catatan yang bagus. Justin, terima kasih banyak telah bergabung dengan kami hari ini. Saya pikir ini adalah percakapan yang bagus untuk memahami lebih banyak tentang Trino dan Iceberg dan bagaimana Starbust menawarkan platform fantastis yang menggabungkan yang terbaik dari kedua dunia di platform Anda. Terima kasih banyak dan hargai Anda bergabung dengan kami.
Justin Borgman:
Terima kasih, Dinesh. Itu adalah kesenangan saya.