Blog Langsung Analisis Kinerja Google TPU (3pm PT, 10pm UTC)

Posted on

Blog Langsung Analisis Kinerja Google TPU (3pm PT, 10pm UTC)

06:00 WIB Pembicaraan Hot Chips lainnya, sekarang Google TPU.

06:00 WIB – TPU generasi pertama hanyalah akselerator inferensi

06:00 WIB Ukuran batch adalah cara mudah untuk mendapatkan kinerja dan efisiensi

18:02 EDT – TPU adalah produk futuristik: Pada tahun 2013, jika semua orang ingin berbicara di ponsel mereka selama 2 hingga 3 menit sehari, itu akan membutuhkan 2 hingga 3 kali total kinerja CPU saat ini.

18:02 EDT – “Proyek TPU adalah investasi ketika kinerja dibutuhkan”

06:04 EDT Kembangkan pembelajaran mesin dalam hal aliran tensor, idenya adalah untuk menyederhanakan TPU

06:05 EDT Setelah pembentukan jaringan saraf kejang, menarik betapa kecilnya total beban kerja kami

06:05 EDT – TPU adalah kartu accel pada PCIe, bekerja seperti unit floating point

06:06 EDT Pusat komputasi adalah unit matriks 256×256 pada 700 MHz

06:06 EDT – Unit MAC 8-bit

06:06 EDT – Puncak 92 T ops / dtk

06:06 EDT Antarmuka DDR3 adalah batas bandwidth untuk TPU utama

06:06 EDT – Sistem yang seimbang tidak ideal, tetapi memiliki banyak MAC

18:07 WIB – Ukuran chip, 30% untuk buffer, 24% untuk unit matriks

18:07 WIB – Kumpulan perintah perangkat lunak memiliki 11 perintah, 5 di antaranya adalah perintah yang paling banyak digunakan

18:07 WIB – Rata-rata 10 siklus clock per instruksi

18:08 EDT – Kirim 2000 siklus kerja dalam satu instruksi

18:08 EDT – masing-masing, tanpa percabangan

18:08 EDT Buffer yang dikontrol SW

18:08 EDT – Perangkat keras dikembangkan dengan cepat, masalahnya dipindahkan ke perangkat lunak untuk mengimbanginya

06:09 EDT Masalah: Energi / waktu untuk akses berulang SRAM Mat mul

06:09 EDT – Saat setiap masukan bergerak melintasi larik, masukan dikalikan, lalu ditambahkan dengan memindahkan larik ke bawah.

06:09 EDT Kasar, waktu sangat sistolik

06:10 EDT – Secara desain dapat mengabaikan penundaan pipa

06:10 EDT – Chip pertama di pusat data pada tahun 2015, dibandingkan dengan Haswell dan K80

06:10 EDT – Ukuran cetakan TPU lebih kecil, TDP lebih kecil

06:10 EDT – 2 batasan untuk kinerja: perhitungan puncak dan memori puncak (model garis atap)

18:11 WIB Intensitas aritmatika (FLOP per byte) menentukan seberapa jauh Anda telah mencapai

18:12 WIB – TPU mendekati puncak penggunaan di garis atap, tetapi hanya dua tes yang mencapai garis plafon. Tes lain memiliki memori terbatas

18:12 WIB – Kami berpikir bahwa pengguna berada dalam siklus inferensi pada saat pengembangan generasi pertama

18:12 WIB – CPU dan GPU memiliki keseimbangan yang lebih baik, tetapi kinerjanya jauh lebih rendah

18:12 WIB – Kami membangun mesin dengan kapasitas operasional, tetapi digunakan dengan cara berbasis penundaan

06:15 WIB – Perf / watt 80 kali dibandingkan dengan Haswell, 30 kali dibandingkan dengan K80

06:15 WIB – Tata letak garis atap mengatakan memori terbatas

06:15 WIB – Jadi tingkatkan TPU: pindahkan titik tonjolan

06:15 WIB – Karena keterbatasan memori, ubah memori 2x DDR3 ke GDDR5 misalnya. Meningkatkan kinerja untuk tes tertentu

06:15 WIB – 200 kali lebih perf / W dari Haswell, 70x lebih dari K80

18:17 EDT – Pada tingkat tinggi, TPU berhasil karena latihan dalam desain khusus program

06:18 EDT – Pada tingkat tinggi, TPU berhasil karena latihan dalam desain khusus program

06:18 EDT – Saat TPU bergerak maju, kami juga dapat beradaptasi dengan bagian belakang untuk melihat usia mesin

06:18 EDT – Fleksibilitas untuk mencocokkan NN pada tahun 2017 vs. 2013

06:18 EDT – Model eksekusi string tunggal definitif, cocok dengan waktu respons persentil ke-99

06:18 EDT – Aplikasi di Tensor Flow, sangat mudah untuk porting dengan cepat

06:18 EDT Saat Anda memiliki palu TOP 92 besar, semuanya tampak seperti paku NN

06:18 EDT – Jalankan seluruh model inferensi pada TPU

06:18 EDT Pemrograman yang mudah karena kontrol single-threaded, sementara CPU 18-core sulit untuk dipikirkan

18:19 EDT Memudahkan untuk menarik masalah secara mental ke dalam lingkungan disiplin tunggal, seperti AlphaGo

06:20 WIB – Dalam retrospeksi, inferensi penundaan lebih disukai daripada daya operasional – K80 dalam inferensi yang buruk versus kemampuan untuk melatih

06:21 EDT Di DRAM, desain ulang kecil sangat meningkatkan TPU (diselesaikan dalam TPUv2)

06:21 EDT – MAC TPU 65546 lebih murah daripada Mac CPU / GPU

06:21 EDT Waktu tanya jawab

06:22 WIB T: Apa masalah ukuran minimum untuk mendapatkan kinerja yang baik di TPU – Apa cara yang tepat untuk memikirkannya?

06:23 EDT Jawaban: Saya tidak memiliki jawaban yang lengkap, tetapi rekan-rekan saya telah menggambar lapisan tunggal dan menerima hasil yang baik, tetapi tujuannya adalah jaringan saraf berbobot tinggi.

06:23 EDT T: Apakah sistem secara dinamis memutuskan untuk menjalankan TPU pada CPU?

06:23 EDT Jawaban: Tidak sekarang

06:24 EDT T: Akurasi yang akurat?

06:24 EDT – A: 8-bit dalam bilangan bulat 8-bit, tidak bertanda dan tidak bertanda

06:24 EDT – A: bilangan bulat 8-bit dalam 8 bit, tanpa tanda dan tanda tangan

06:24 EDT – A: integer 8-bit dalam 8-bit, tanpa tanda dan tanda tangan *

06:26 EDT T: Apakah Google melihat lebih sedikit pencar dan lebih akurat?

06:27 EDT Jawaban: Generasi pertama tidak berbuat banyak untuk bubar. Produk masa depan tidak diungkapkan dalam hal ini. Penurunan akurasi sangat penting. Kami ingin tahu di mana keterbatasan pengajaran dan inferensi yang kurang akurat

06:27 EDT T: TPU 1 memiliki DDR3 dan studi GDDR5 sangat fungsional, apakah Anda membuat versi GDDR5?

06:28 EDT A: Tidak, tapi TPU baru menggunakan HBM

06:30 WIB T: Bagaimana Anda mentransfer konvolusi ke GEMM? Jawaban: Dibahas dalam artikel dan paten! Ada dua lapisan perangkat keras untuk meningkatkan kinerja

06:32 EDT – Ini semua untuk pertanyaan dan jawaban. Ada pembicaraan TPU2 sebelumnya yang saya lewatkan tetapi saya harus memeriksa slide dan menulis nanti.

18:32 EDT -.



Source link

Leave a Reply

Your email address will not be published. Required fields are marked *