Google TPUv2 dan TPUv3 (14:30 PT)

Posted on

[ad_1] Google TPUv2 dan TPUv3 (14:30 PT)

17:36 EDT – Tidak ada informasi TPUv4 dalam percakapan ini, cukup. Google sering berbicara tentang chip ini setelah penerapan

17:36 EDT – Ini tanggalnya

17:36 EDT – TPUv1 pada tahun 2015 untuk inferensi

17:36 EDT – TPUv2 untuk pelatihan di 2017

17:37 EDT Pelatihan ML memiliki tantangan unik

17:37 EDT – Jenis perhitungan, jumlah perhitungan

17:37 EDT – Pelatihan adalah exaflop atau zetaflop, sedangkan inferensi adalah 1 GOP

17:37 EDT – Pelatihan sensitif

17:37 EDT – Pelatihan bersifat eksperimental – Tujuan yang dapat dipindahkan

17:38 EDT – Tingkatkan skala versus penskalaan

17:38 EDT – Inferensi dapat dikurangi

17:38 EDT – Pelatihan lebih sulit

17:38 EDT Kemacetan oleh jalur data off-chip

17:38 EDT – Batas waktu di depan karyawan

17:38 EDT Jadilah ambisius tentang anggaran

17:39 EDT – Sasaran utama terlebih dahulu, semua sasaran harus “baik” atau “cukup baik”.

17:39 EDT – Ini TPU1

17:39 EDT – Siklus pusat adalah tempat perhitungan berlangsung

17:39 EDT – TPUv2 membuat perubahan

17:40 EDT – Fokus lebih pada vektor

17:40 EDT – Peningkatan Memori

17:40 EDT – Kain terlampir

17:41 EDT Berikut adalah cara memasukkannya ke dalam TPUv2

17:41 EDT – Multi-inti

17:41 EDT – Lebih suka inti yang lebih sedikit – Masalah data besar dan merampingkan instruksi unit pemrograman

17:41 EDT – VLIW

17:42 EDT – Paket perangkat lunak VLIW 322-bit

17:42 EDT – Tidak ada i-cache, instruksi memori tertutup dengan DMA

17:42 EDT – Tetap cukup baik dan tua

17:43 EDT – Nomor ganda ALU

17:43 EDT – 128 contoh garis ini

17:43 EDT – 8 set 128 vektor lebar di setiap siklus

17:43 EDT – Koneksi ke unit matriks

17:44 EDT – Array sistolik 128×128

17:44 EDT Kalikan BF16

17:44 EDT – Namun, aspek terbesar bukanlah area chip

17:44 EDT – Penghematan perangkat keras adalah penghematan uang

17:45 EDT – Mengapa 128×128?

17:45 EDT – Tempatkan kue untuk digunakan tanpa mengalokasikan lebih banyak area ke kabel

17:46 EDT – SRAM Scratchpad, perangkat lunak yang terlihat

17:46 EDT – HBM dalam paket

17:46 EDT – DMA asinkron

17:46 EDT – HBM menyimpan vektor dan matriks – Vektor vektor berjalan

17:46 EDT – 700 Gbps per chip karena HBM

17:47 EDT – Router terhubung

17:47 EDT – Lebih mudah untuk membangun sistem memori dengan cara ini

17:47 EDT – TPU harus cukup fleksibel

17:47 EDT – Torsi dua dimensi

17:48 EDT – DMA ke memori lain

17:48 EDT – Sekarang TPUv3

17:49 EDT – 2 unit mol mat

17:49 EDT – Frekuensi 700 hingga 940 MHz

17:49 EDT – HBM + 30

17:49 EDT – 2x HBM

17:49 EDT – Koneksi 650 GB / dtk

17:49 EDT – Mendukung 4x node per koneksi

17:49 EDT – Sistem chip 1024 v3

17:50 EDT – Pengoptimalan kompiler XLA

17:52 EDT – Penyimpanan di jaringan pusat data

17:53 EDT -> 100 PF dalam sarung TPUv3

17:54 EDT – Skala yang hampir ideal untuk beban kerja tertentu

17:54 EDT – Tingkatkan kinerja TPUv3

17:56 EDT – Bisa juga membuat kesimpulan

17:58 EDT Waktu tanya jawab

17:58 EDT T: TPUv4 di GCP? Jawaban: Anda tidak memiliki peta jalan. Saat ini hanya internal

17:59 EDT T: Bagaimana Anda menangani 100 GB tabel yang disematkan? A: Pisahkan antar chip. Kami menggunakan jaringan ICI cepat untuk berkomunikasi antar chip

17:59 EDT T: Apakah ada fitur permukaan chip untuk membantu MLP? A: Pemodelan model-model itu rumit. Kami memiliki teknik yang berbeda yang kami gunakan.

06:00 WIB – T: Pertukaran torsi 2D versus berbasis sakelar? J: Keduanya sah. Salah satu keuntungan terbesar kami adalah kami tidak perlu membuat sakelar atau mengelolanya. Apakah penskalaan ke sistem besar dan pola lalu lintas jaringan kami berfungsi dengan Taurus?

18:01 EDT – * Torus.

18:01 EDT Q: Protokol dengan menghubungkan satu sama lain? A: Kustom tapi super cepat

18:02 EDT T: Mengingat manfaat dari setiap generasi TPU, apakah Anda menukar pasar dan fitur? Jawaban: Keterbatasan terbesar kami! Kami harus melakukan pekerjaan dengan baik, kami memprioritaskan. Penting untuk tidak pergi terlalu jauh, tetapi Anda harus pergi cukup jauh. Kami memiliki tim yang mengerjakan ini. Konteksnya juga berubah dengan cepat, jadi kami melakukan TTM dengan cepat.

18:02 EDT – Akhir dari diskusi adalah skala berikutnya dari wafer otak!

[ad_2]

Source link

Leave a Reply

Your email address will not be published. Required fields are marked *