[ad_1] Blog Langsung Analisis Kinerja Google TPU (3pm PT, 10pm UTC)
06:00 WIB Pembicaraan Hot Chips lainnya, sekarang Google TPU.
06:00 WIB – TPU generasi pertama hanyalah akselerator inferensi
06:00 WIB Ukuran batch adalah cara mudah untuk mendapatkan kinerja dan efisiensi
18:02 EDT – TPU adalah produk futuristik: Pada tahun 2013, jika semua orang ingin berbicara di ponsel mereka selama 2 hingga 3 menit sehari, itu akan membutuhkan 2 hingga 3 kali total kinerja CPU saat ini.
18:02 EDT – “Proyek TPU adalah investasi ketika kinerja dibutuhkan”
06:04 EDT Kembangkan pembelajaran mesin dalam hal aliran tensor, idenya adalah untuk menyederhanakan TPU
06:05 EDT Setelah pembentukan jaringan saraf kejang, menarik betapa kecilnya total beban kerja kami
06:05 EDT – TPU adalah kartu accel pada PCIe, bekerja seperti unit floating point
06:06 EDT Pusat komputasi adalah unit matriks 256×256 pada 700 MHz
06:06 EDT – Unit MAC 8-bit
06:06 EDT – Puncak 92 T ops / dtk
06:06 EDT Antarmuka DDR3 adalah batas bandwidth untuk TPU utama
06:06 EDT – Sistem yang seimbang tidak ideal, tetapi memiliki banyak MAC
18:07 WIB – Ukuran chip, 30% untuk buffer, 24% untuk unit matriks
18:07 WIB – Kumpulan perintah perangkat lunak memiliki 11 perintah, 5 di antaranya adalah perintah yang paling banyak digunakan
18:07 WIB – Rata-rata 10 siklus clock per instruksi
18:08 EDT – Kirim 2000 siklus kerja dalam satu instruksi
18:08 EDT – masing-masing, tanpa percabangan
18:08 EDT Buffer yang dikontrol SW
18:08 EDT – Perangkat keras dikembangkan dengan cepat, masalahnya dipindahkan ke perangkat lunak untuk mengimbanginya
06:09 EDT Masalah: Energi / waktu untuk akses berulang SRAM Mat mul
06:09 EDT – Saat setiap masukan bergerak melintasi larik, masukan dikalikan, lalu ditambahkan dengan memindahkan larik ke bawah.
06:09 EDT Kasar, waktu sangat sistolik
06:10 EDT – Secara desain dapat mengabaikan penundaan pipa
06:10 EDT – Chip pertama di pusat data pada tahun 2015, dibandingkan dengan Haswell dan K80
06:10 EDT – Ukuran cetakan TPU lebih kecil, TDP lebih kecil
06:10 EDT – 2 batasan untuk kinerja: perhitungan puncak dan memori puncak (model garis atap)
18:11 WIB Intensitas aritmatika (FLOP per byte) menentukan seberapa jauh Anda telah mencapai
18:12 WIB – TPU mendekati puncak penggunaan di garis atap, tetapi hanya dua tes yang mencapai garis plafon. Tes lain memiliki memori terbatas
18:12 WIB – Kami berpikir bahwa pengguna berada dalam siklus inferensi pada saat pengembangan generasi pertama
18:12 WIB – CPU dan GPU memiliki keseimbangan yang lebih baik, tetapi kinerjanya jauh lebih rendah
18:12 WIB – Kami membangun mesin dengan kapasitas operasional, tetapi digunakan dengan cara berbasis penundaan
06:15 WIB – Perf / watt 80 kali dibandingkan dengan Haswell, 30 kali dibandingkan dengan K80
06:15 WIB – Tata letak garis atap mengatakan memori terbatas
06:15 WIB – Jadi tingkatkan TPU: pindahkan titik tonjolan
06:15 WIB – Karena keterbatasan memori, ubah memori 2x DDR3 ke GDDR5 misalnya. Meningkatkan kinerja untuk tes tertentu
06:15 WIB – 200 kali lebih perf / W dari Haswell, 70x lebih dari K80
18:17 EDT – Pada tingkat tinggi, TPU berhasil karena latihan dalam desain khusus program
06:18 EDT – Pada tingkat tinggi, TPU berhasil karena latihan dalam desain khusus program
06:18 EDT – Saat TPU bergerak maju, kami juga dapat beradaptasi dengan bagian belakang untuk melihat usia mesin
06:18 EDT – Fleksibilitas untuk mencocokkan NN pada tahun 2017 vs. 2013
06:18 EDT – Model eksekusi string tunggal definitif, cocok dengan waktu respons persentil ke-99
06:18 EDT – Aplikasi di Tensor Flow, sangat mudah untuk porting dengan cepat
06:18 EDT Saat Anda memiliki palu TOP 92 besar, semuanya tampak seperti paku NN
06:18 EDT – Jalankan seluruh model inferensi pada TPU
06:18 EDT Pemrograman yang mudah karena kontrol single-threaded, sementara CPU 18-core sulit untuk dipikirkan
18:19 EDT Memudahkan untuk menarik masalah secara mental ke dalam lingkungan disiplin tunggal, seperti AlphaGo
06:20 WIB – Dalam retrospeksi, inferensi penundaan lebih disukai daripada daya operasional – K80 dalam inferensi yang buruk versus kemampuan untuk melatih
06:21 EDT Di DRAM, desain ulang kecil sangat meningkatkan TPU (diselesaikan dalam TPUv2)
06:21 EDT – MAC TPU 65546 lebih murah daripada Mac CPU / GPU
06:21 EDT Waktu tanya jawab
06:22 WIB T: Apa masalah ukuran minimum untuk mendapatkan kinerja yang baik di TPU – Apa cara yang tepat untuk memikirkannya?
06:23 EDT Jawaban: Saya tidak memiliki jawaban yang lengkap, tetapi rekan-rekan saya telah menggambar lapisan tunggal dan menerima hasil yang baik, tetapi tujuannya adalah jaringan saraf berbobot tinggi.
06:23 EDT T: Apakah sistem secara dinamis memutuskan untuk menjalankan TPU pada CPU?
06:23 EDT Jawaban: Tidak sekarang
06:24 EDT T: Akurasi yang akurat?
06:24 EDT – A: 8-bit dalam bilangan bulat 8-bit, tidak bertanda dan tidak bertanda
06:24 EDT – A: bilangan bulat 8-bit dalam 8 bit, tanpa tanda dan tanda tangan
06:24 EDT – A: integer 8-bit dalam 8-bit, tanpa tanda dan tanda tangan *
06:26 EDT T: Apakah Google melihat lebih sedikit pencar dan lebih akurat?
06:27 EDT Jawaban: Generasi pertama tidak berbuat banyak untuk bubar. Produk masa depan tidak diungkapkan dalam hal ini. Penurunan akurasi sangat penting. Kami ingin tahu di mana keterbatasan pengajaran dan inferensi yang kurang akurat
06:27 EDT T: TPU 1 memiliki DDR3 dan studi GDDR5 sangat fungsional, apakah Anda membuat versi GDDR5?
06:28 EDT A: Tidak, tapi TPU baru menggunakan HBM
06:30 WIB T: Bagaimana Anda mentransfer konvolusi ke GEMM? Jawaban: Dibahas dalam artikel dan paten! Ada dua lapisan perangkat keras untuk meningkatkan kinerja
06:32 EDT – Ini semua untuk pertanyaan dan jawaban. Ada pembicaraan TPU2 sebelumnya yang saya lewatkan tetapi saya harus memeriksa slide dan menulis nanti.
18:32 EDT -.
[ad_2]
Source link