Argot of the ace:Istilah umum untuk penggemar big data

Data besar sarat dengan kata-kata besar. Memiliki pemahaman yang baik tentang istilah data umum membantu Anda tidak hanya memahami, tetapi juga bergabung dan memengaruhi percakapan seputar inisiatif data. Lihat diskusi penting seputar evolusi dan revolusi data di www.datamakespossible.com.

Oke, mari kita mulai dan mengungkap beberapa istilah yang pernah Anda dengar sebelumnya dan memperkenalkan beberapa istilah yang mungkin baru.

Ilmuwan data

Menggabungkan bagian yang sama dari sains, bisnis, dan seni, Ilmuwan Data menggunakan pengetahuan tentang algoritme, alat, dan proses untuk mengekstrak beberapa nilai dari data. Seorang ilmuwan data akan sering menjalankan pembelajaran mesin atau kecerdasan buatan untuk menambang, mengelompokkan, atau menganalisis kumpulan data.

Data heteroskedastisitas dan heteroskedastisitas

HeteroAPA ? Ini mungkin istilah baru untuk Anda, jadi mari kita telusuri contoh yang sangat mendasar tentang apa artinya ini.

Beberapa data konstan dan tidak pernah berubah. Weblog kemarin adalah konstan. Sampai kami menemukan perjalanan waktu, Anda tidak akan dapat kembali dan mengubah apa yang dilakukan seseorang kemarin.

Tingkat kerumitan data berikutnya adalah linier . Antrian atau pesan suara adalah contoh pertumbuhan linier. Jika satu pekerja dapat memproses sepuluh pesan per jam, maka kami membutuhkan lima pekerja untuk menangani 50 pesan per jam. Data yang tumbuh dalam kuadrat fashion akan tumbuh pada tingkat 4x (atau lebih besar). Contohnya mungkin media sosial. Saat Anda menulis posting, 4, 10, 100, atau bahkan jutaan orang dapat membacanya. Orang-orang itu mungkin membagikan kiriman Anda, mengomentarinya, atau menghasilkan beberapa metadata yang berubah setiap detik. Di sinilah kita mulai masuk ke heteroskedastisitas. Ini ditentukan oleh kecepatan tinggi (bergerak dan berubah dengan cepat) dengan variabilitas tinggi (yaitu, tidak ada cara mudah untuk memprediksi siapa yang berkomentar, membagikan, dan menyukai postingan, atau seberapa cepat responsnya).

Analogi hebat lainnya adalah memasak. Saat memasak makanan, kami menggabungkan bahan-bahan dengan cara yang berbeda untuk mencoba menciptakan sesuatu yang (semoga) lezat. Seperti yang diketahui oleh siapa pun yang mencoba memasak, sejumlah perubahan kecil—menambahkan sedikit garam, memasak selama 2 menit terlalu lama, memotong tomat terlalu besar atau kecil—dapat berdampak besar pada hasil dan konvergensi resep akhir. untuk hidangan khas itu.

Bahkan jika Anda belum pernah menggunakan istilah ini sebelumnya, heteroskedastisitas adalah sesuatu yang akan semakin sering Anda hadapi dengan beban kerja IoT industri. Hal ini terutama berlaku saat menangani data berkecepatan tinggi (seperti streaming), atau sering kali saat menangani data yang tidak terstruktur dan berubah dengan cepat seperti halaman HTML yang dilintasi perayap web Google.

Pembelajaran mesin

Machine Learning (ML) adalah bidang ilmu komputer yang memungkinkan komputer mengenali dan mengekstrak pola dari data mentah melalui pelatihan model data yang ketat.

ML mengaktifkan "tiga C data besar" — klasifikasi, pengelompokan, dan pemfilteran kolaboratif.

Klasifikasi adalah masalah mengidentifikasi set kategori/ sub-kategori atau populasi/sub-populasi mana pola baru termasuk dalam set data pelatihan yang berisi pola itu atau contoh di mana kategori sudah diidentifikasi dan diketahui. Misalnya, klasifikasi mungkin melibatkan pelatihan algoritme untuk mengatakan, mengenali tumor dalam serangkaian pemindaian MRI, kemudian meminta algoritme untuk mengidentifikasi pemindaian lain yang memiliki tumor.

Clustering melibatkan pengelompokan titik data mentah ke dalam set atau "cluster". Contoh di sini mungkin adalah algoritme ML yang menjalankan log web secara real time, mengelompokkan lalu lintas yang valid (untuk mengizinkan) dalam satu kategori dan kemungkinan serangan (untuk memblokir) di kategori lain.

Pemfilteran kolaboratif hanyalah kata yang bagus untuk "rekomendasi". Contohnya adalah menentukan dan menampilkan produk yang menunjukkan kedekatan satu sama lain.

Banyak dari apa yang kami lakukan di ML disebut “pembelajaran dangkal”. Pembelajaran mendalam biasanya merupakan komponen dalam Kecerdasan Buatan yang sebenarnya.

Kecerdasan buatan

Kecerdasan Buatan (AI) mencakup dan memperluas ML dengan memberikan komputer kemampuan untuk melakukan analisis kognitif yang mendalam.

Sementara ML biasanya melibatkan semacam intervensi awal manusia dalam cara pembuatan, penyetelan, atau pelatihan algoritme (seperti memasukkan pindaian tumor ke komputer), AI memungkinkan komputer untuk memilih, menyetel, dan melatih dirinya untuk melakukan beberapa fungsi tertentu. Pada akhirnya AI menggunakan pembelajaran mendalam untuk meniru pengambilan keputusan dan proses pembelajaran manusia.

Anda mungkin tidak menyadarinya, tetapi AI mungkin sudah menjadi bagian dari kehidupan sehari-hari Anda. Lebih lanjut tentang ini dalam definisi NLP di bawah ini.

Realitas maya

Virtual Reality (VR) memungkinkan pengguna untuk masuk ke dunia virtual yang terlihat dan terdengar sangat berbeda dari lingkungan fisik mereka.

VR memungkinkan pengalaman hiburan seperti roller coaster virtual, tetapi juga memiliki aplikasi komersial yang signifikan. VR biasanya membutuhkan headset tampilan digital.

Realitas tertambah

Augmented Reality (AR) berusaha untuk melapisi artefak digital di atas dunia nyata, memungkinkan interaksi. Baru-baru ini, AR telah menjadi sangat sukses dengan popularitas aplikasi gameplay.

Pemrosesan bahasa alami

Natural Language Processing (NLP) memungkinkan komputer untuk mengurai dan memahami bahasa manusia tertulis atau lisan. Jika Anda berbicara dengan telepon atau rumah Anda, Anda mungkin pernah mengalami NLP.

NLP adalah tempat yang tepat untuk menjelaskan perbedaan antara pembelajaran mendalam dan dangkal. NLP generasi pertama (pembelajaran dangkal) berfokus pada pemecahan kalimat menjadi token (kata-kata), dan kemudian menerapkan beberapa aturan ke token. NLP pembelajaran mendalam hari ini, bagaimanapun, melihat seluruh konteks pernyataan dan alasan arti sebenarnya.

Bayangkan ulasan web tertulis. Pembelajaran dangkal hanya akan melihat sejumlah kecil token data seperti "jumlah bintang peringkat ulasan" dan "analisis sentimen" dasar. Ini mungkin melibatkan penghitungan jumlah kata positif vs. negatif. Poin data ini dimasukkan melalui seperangkat aturan yang sering rapuh untuk sampai pada kesimpulan tentang apakah ulasan itu positif atau negatif.

Mesin pembelajaran mendalam menerapkan lebih banyak kecerdasan untuk analisis ini—hampir seperti yang mungkin diperkirakan manusia jika mereka membaca ulasan yang sama. Misalnya, jika ulasan memiliki banyak "positif", seperti peringkat bintang lima, rasio jumlah positif hingga negatif yang baik, dll., mesin NLP yang dangkal mungkin menyimpulkan bahwa itu adalah ulasan positif. Namun, mesin NLP pembelajaran mendalam mungkin menafsirkan (seperti yang dilakukan manusia) bahwa ulasan tersebut sebenarnya negatif setelah membaca "Saya tidak akan pernah membeli produk ini lagi." Kalimat itu saja meniadakan sentimen positif yang mungkin diberikan pengguna.

Pengenalan gambar

Pengenalan gambar memberi komputer kemampuan untuk mengartikan makna dari gambar visual sederhana. Ini sering dibundel dalam penawaran ML atau AI penyedia (bersama dengan NLP).

Pengenalan gambar memungkinkan komputer mengidentifikasi objek seperti bahasa tertulis menggunakan Pengenalan Karakter Optik atau OCR (teks dalam papan iklan), menandai objek (seperti “gunung”, “pohon”, “mobil”, “pencakar langit”) dan bahkan melakukan analisis wajah (seperti menggambar kotak pembatas di sekitar wajah).

Pengenalan gambar saat ini dibawa ke tingkat yang sama sekali baru oleh industri otomotif dengan aplikasi analisis wajah mereka untuk mendeteksi dan memperingatkan pengemudi yang mungkin merasa lelah.

Data terstruktur, tidak terstruktur, semi terstruktur

Secara historis, sebagian besar data yang kami kerjakan sangat terstruktur. Ini berarti cocok dengan format baris/kolom (seperti database). Akibatnya, banyak sistem komputer dirancang untuk mencerna dan menghasilkan bentuk data tersebut.

Manusia adalah binatang yang berbeda. Kami unggul dalam menghasilkan dan menggunakan data tidak terstruktur seperti teks, suara, dan gambar yang mengalir bebas seperti jepretan kamera. Semua data ini secara inheren tidak memiliki "struktur" untuk itu. Kita tidak bisa “bergantung” pada bahasa, kata, intonasi tertentu, dll.

Data semi-terstruktur berada di tengah-tengah. Contoh yang baik adalah email. Ini memiliki beberapa struktur seperti "subjek", "ke", "dari", "tanggal", tetapi muatan utama adalah gumpalan teks tidak terstruktur di "tubuh" email.

Hanya dalam 10 tahun terakhir, sistem komputer kami menjadi cukup kuat untuk melakukan analisis pada data tidak terstruktur.

Danau data

Mesin analitik apa pun, seperti Hadoop, akan menyediakan penyimpanan dan komputasi, seringkali, dalam pengaturan yang sangat erat. Setiap kali Anda menambahkan lebih banyak pemrosesan, Anda secara inheren menambahkan lebih banyak penyimpanan.

Namun, banyak organisasi menyimpan data bergunung-gunung (petabytes) yang ingin mereka simpan secara tahan lama, tetapi tidak segera dianalisis. Salah satu alasan penundaan adalah pra-pemrosesan dan pembersihan data yang mungkin diperlukan sebelum analisis.

Data lake menyediakan penyimpanan berbiaya rendah, sangat tahan lama, dapat diakses dari mana saja dengan komputasi terbatas. Ini memungkinkan penyimpanan data yang jauh lebih besar daripada yang diproses pada satu waktu.

Melihat paradigma resep, data lake seperti dapur bahan mentah Anda (sayuran, nasi, kaldu). Hanya ketika Anda ingin memasak, apakah Anda mengeluarkan bagian bahan yang tepat, sesuai resep, dan menyiapkannya untuk makanan itu.

Database

Apa yang biasa kita sebut sebagai “basis data” juga dikenal sebagai Sistem Manajemen Basis Data Relasional (RDBMS) atau sistem OLTP (Pemrosesan Transaksi Online). Oracle, MySQL, SQL Server adalah contoh umum dari ini.

Banyak “transaksi” kecil yang (biasanya) berasal dari pengguna akhir menjadi ciri RDBMS.

Pikirkan situs web e-niaga ritel. Pada saat tertentu, beberapa ratus ribu pengguna melakukan pembacaan kecil (kueri) dan penulisan (menyisipkan) ketika mereka menelusuri produk, membaca ulasan, membuat pesanan, dll. Ada harapan bahwa sistem ini melakukan kueri ini dengan sangat cepat.

Gudang data

Data warehouse (juga dikenal sebagai enterprise data warehouse atau EDW) adalah tempat perusahaan menjalankan analitik untuk menjawab beberapa pertanyaan bisnis penting. Apa lini produk kami yang paling cepat berkembang? Kategori produk mana yang memiliki ROI terbaik? Apa wilayah, kategori, staf penjualan kami yang berkinerja terburuk, dan sebagainya?

EDW biasanya hanya digunakan oleh segelintir (mungkin selusin atau beberapa lusin) pengguna internal, menjalankan kueri yang berjalan lama pada kumpulan data besar (mungkin ratusan TB atau puluhan PB).

Visualisasi

Alat visualisasi menyediakan tampilan depan visual untuk melakukan analisis yang kompleks.

Menggunakan drag-and-drop sederhana, bahkan pekerja magang yang tidak terampil dapat membuat banyak laporan kompleks seperti penjualan triwulanan, produk terlaris, pertumbuhan, dll.

Sistem ini biasanya mengharuskan mesin yang Anda sambungkan memiliki antarmuka SQL, yang (tidak secara kebetulan) disediakan oleh setiap RDBMS dan EDW. Jika Anda seperti kebanyakan analis data, 95% interaksi Anda dengan sistem Anda akan melalui salah satu alat visualisasi ini.

Semoga Anda menikmati panduan singkat tentang istilah umum yang kami temukan di data besar ini. Jangan ragu untuk mengesankan orang-orang di pendingin air sekarang dengan mendiskusikan bagaimana visualisasi pertumbuhan data yang belum pernah terjadi sebelumnya, keuntungan membuat danau data, membuka kunci nilai data heteroskedastis melalui ML dan AI benar-benar mengubah dunia. Ingin tahu tentang dampak data pada dunia? Sekarang setelah Anda memahami istilah tersebut, silakan bergabung dalam diskusi di datamakespossible.com.

Artikel ini dibuat dalam kemitraan dengan Western Digital.

Penulis adalah Rekan dan Kepala Ilmuwan Data, Western Digital, dan membentuk, mendorong, dan mengimplementasikan platform, produk, dan teknologi Big Data, menggunakan analitik canggih dan pencocokan pola dengan manufaktur semikonduktor data di perusahaan.

Industri 4.0 – Membangun ekosistem IIoT dengan cara yang benar Bagaimana pusat inovasi perusahaan membuat perusahaan kompetitif

Teknologi Internet of Things

Tertanam

Sensor

Komputasi awan

Teknologi Internet of Things