Grafik (Intel, AMD, Google, Xilinx)

Posted on

[ad_1] Grafik (Intel, AMD, Google, Xilinx)

05:28 EDT – Selamat datang di Hot Chips! Ini adalah konferensi tahunan tentang Lembah Silikon terbaru, terhebat dan hebat yang menggairahkan kita semua. Ikuti kami pada hari Senin dan Selasa untuk blog langsung AnandTech khas kami.

17:31 EDT – Streaming dimulai! Kami memiliki Intel, AMD, Google, Xilinx

17:32 EDT – Salah satu proyek Intel yang paling kompleks

17:33 EDT – 500 kali target GPU Intel terbaik sebelumnya

17:33 EDT Skala sangat penting

17:33 EDT – Empat jenis Xe

17:34 EDT Skala kebutuhan pasar Exascale

17:34 EDT – Koleksi tipe data yang luas

17:34 EDT – Xe-Core

17:34 EDT – UE lainnya – Core Xe sekarang

17:35 EDT Setiap inti di HPC memiliki vektor 8×512-bit, motor matriks 8×4096-bit, dan array sistolik 8-kedalaman.

17:35 EDT – L1 cache dengan kapasitas 512 KB per Xe core

17:35 EDT – Perangkat lunak bantalan gores memori yang dapat disesuaikan

17:36 EDT – 8192 x INT8 per Xe-Core

17:36 EDT – One piece memiliki 16 core Xe, 16 unit RT, 1 bidang perangkat keras.

17:36 EDT – ProVis dan pembuatan konten

17:37 EDT – Tumpukan adalah empat iris

17:37 EDT – 64 inti Xe, 64 unit RT, 4 bidang perangkat keras, cache L2, 4 pengontrol HBM2e

17:37 EDT – 8 tautan Xe

17:37 EDT – Dukungan untuk 2 tumpukan

17:38 EDT – Terhubung langsung melalui kemasan

17:38 EDT – Koneksi GPU ke GPU

17:38 EDT – 8 GPU yang terhubung sepenuhnya melalui sakelar bawaan

17:38 EDT – Bukan untuk CPU-ke-GPU

17:39 EDT – 8 GPU di OAM

17:39 EDT – Modul akselerator OCP

17:39 EDT – 1 juta INT8 / jam dalam satu sistem

17:40 EDT – Kemasan canggih

17:41 EDT – Banyak hal baru

17:41 EDT – EMIB + Foveros

17:41 EDT – 5 node proses yang berbeda

17:42 EDT – Lalu lintas koneksi MDFI

17:42 EDT – Banyak tantangan

17:42 EDT – Belajar banyak

17:43 EDT – Rencananya segera dikunci

17:43 EDT Jalankan Furus pada frekuensi 1,5 kali, yang awalnya dianggap meminimalkan koneksi Furus.

17:43 EDT – Boot beberapa hari setelah pengembalian silikon pertama

17:44 EDT – Atur koneksi Foveros lebih tinggi dari desain sebelumnya lainnya

17:44 EDT – Perhitungan ubin yang dibuat pada TSMC N5

17:45 EDT – 640 milimeter persegi per ubin dasar, dibangun di atas Intel 7

17:46 EDT – Xe Link Tile dibangun dalam waktu kurang dari setahun

17:47 EDT – Dukungan OneAPI

17:47 EDT – 45 Performa Stabil TFLOP

17:48 EDT – Pelanggan awal tahun depan

17:48 EDT – pertanyaan dan jawaban

17:50 EDT – Q: Hitung PV 45TF FP32 – 45 TF dari FP64? Jawaban: Ya

17:51 EDT T: Lebih banyak wawasan perangkat keras – Apakah 8x PV terintegrasi atau 800 sampel? A: Tampaknya menjadi perangkat logis tunggal, aplikasi mandiri dapat berjalan secara terpisah di tingkat lapangan

17:53 EDT T: Apakah Xe Link mendukung CXL, jika demikian, versi yang mana? Jawaban: Tidak ada hubungannya dengan CXL

17:54 EDT T: Apakah GPU terhubung ke CPU dengan PCIe atau CXL? A: PCIe

17:54 EDT – T: Bandwidth Xe Link? A: Cypress 90G

17:55 EDT T: Puncak daya / TDP? A: Jangan ungkapkan – tidak ada nomor produk tertentu

17:55 EDT – Pembahasan selanjutnya adalah AMD – RDNA2

17:57 EDT – CDNA untuk menghitung vs. RDNA untuk dimainkan

17:57 EDT Keduanya fokus menghitung untuk setiap arah

17:58 EDT – Desain yang fleksibel dan kompatibel

17:58 EDT – 18 bulan setelah produk RDNA pertama

17:59 EDT – Cache tak terbatas 128 MB

17:59 EDT – Peningkatan frekuensi

17:59 EDT RDNA menjatuhkan desain dari infrastruktur GCN tertentu

17:59 EDT Performa / W adalah metrik utama

17:59 EDT – Minimalkan daya yang terbuang

06:00 WIB – Dukungan untuk DX12 Ultimate, dukungan DirectStorage

06:00 WIB Konsol generasi berikutnya membantu mengembangkan fitur

18:01 EDT – 30% frekuensi pada daya ISO atau kurang dari setengah daya pada frekuensi ISO

18:02 EDT – Semua dilakukan tanpa mengubah simpul proses

06:03 EDT – RX5000 – RDNA1 – Bandwidth tinggi tetapi tingkat dampak rendah

06:04 EDT – Cobalah untuk menghindari penggunaan GDDR untuk mengurangi daya – jadi tambah cache!

06:04 EDT – Tingkat hit cache GPU

18:04 EDT – Grafik dulunya adalah komputasi satu arah

06:05 EDT – Cache L3 besar

18:07 WIB – Lebih sedikit energi per bit – Hanya 1,3 pJ / bit dalam cache vs. 7-8 pJ / bit untuk GDDR6

18:08 EDT – Latensi memori rata-rata pada RX6800 adalah 34% lebih rendah dari pada RX5700.

06:10 EDT – Pelacakan sinar di RDNA2

06:10 EDT – Bayangan dengan tingkat variabel

06:10 EDT – Contoh umpan balik

06:10 EDT – Tenda jala

18:11 WIB Tujuan RT adalah menjadi efisien tanpa menambahkan overhead

06:12 EDT – Sepenuhnya terintegrasi dengan arsitektur teduh

18:12 WIB – Implementasi sederhana

06:13 EDT VRS menggunakan pemilihan tingkat butiran halus per 8 8 8 piksel

06:13 EDT – VRS hingga 2×2 pada jaringan 8×8

06:16 EDT – pertanyaan dan jawaban

18:19 EDT Q: Mengapa Infinity Cache vs. Stacked V-Cache A: Tidak berdebat, hanya mengevaluasi cache pada template

06:22 WIB Q: Persentase TDP sebagai CU versus lainnya? A: Beban kerja tinggi, daya maksimum di CU – Pemisahan akurat berdasarkan beban kerja – CU adalah yang terbesar, dapat melebihi 50%, blok GPU paling umum kedua, yang ketiga adalah antarmuka DRAM. Cache tak terbatas mengubah posisi sebesar 2/3. Yang keempat adalah Infinity Cache

06:23 EDT – T: SteamDeck Van Gogh? Jawaban: Tidak ada komentar

06:29 EDT – Pembicaraan Google VCU

06:30 WIB Video menyumbang lebih dari 60% lalu lintas Internet global

06:30 WIB – Perlu algoritma yang lebih baik

06:30 WIB – Video menerima perangkat keras untuk kompresi

06:31 EDT – AV1 memiliki 200 kali lebih banyak waktu untuk enkripsi dalam perangkat lunak dibandingkan dengan H.264.

06:31 EDT – Piksel per detik telah meningkat 8000 kali sejak H.264

18:32 EDT Sebagian besar perangkat keras konsumen dioptimalkan untuk biaya, bukan kinerja atau kinerja

18:32 EDT – Saya tidak menemukan semuanya di persediaan yang tersedia

18:32 EDT – Enkripsi 10 salinan versi dengan satu masukan

06:33 EDT – Memerlukan akses penuh ke alat konfigurasi

06:34 EDT – Enkripsi dan dekripsi khusus VP9

06:36 EDT – Aktifkan kode sw / hw

06:38 EDT Dengan HLS, ini memungkinkan mereka untuk menguji banyak perubahan arsitektur untuk fitur dan kinerja

06:39 EDT Akselerator harus dihitung pada skala stok

06:40 WIB – Toleransi kesalahan chip dan kesalahan level inti – Keandalan fungsi level yang lebih tinggi

06:40 WIB – Membutuhkan dukungan untuk 48 kata sandi per dekripsi (MOT)

06:40 WIB – Unggah satu video, enkripsi beberapa versi

06:41 EDT – Cache permukaan chip tidak efektif

06:41 EDT – Jumlah inti untuk mendukung MOT besar

06:41 EDT – LPDDR4 untuk bandwidth per byte

06:41 EDT – Gunakan ECC dalam memori chip

06:42 EDT – Desain konservatif NOC

06:43 EDT – Bingkai yang didekripsi dapat digunakan beberapa kali – Satu dekripsi untuk banyak kode

06:43 EDT – Antrian paralel untuk penggunaan berat

06:44 EDT – 2 ASIC per papan, 2 papan per sasis, 2 sasis per host

06:44 EDT – Jumlah perangkat per rak yang memungkinkan ruang dan daya

06:44 EDT – Performa melawan dua soket Skylake

06:44 EDT – 100x VP9 vs. H.264

06:45 WIB – Perangkat 20 VCU menggantikan rak CPU

06:46 EDT – Peningkatan kualitas setelah penerapan

06:47 EDT Waktu tanya jawab

06:49 EDT T: Bisakah VCU dengan ASIC? Jawaban: Tidak mungkin, tidak ada dampak sedang/luar. Desain berpasangan erat

06:50 EDT T: Spesifikasi Kartu PCIe – Apa itu Lines / TDP? A: Dalam bentuk bifurkasi rumah, jika tidak, alur ganda FHFL, tiang silikon di bawah 100 watt

06:50 EDT T: Apakah VCU diaktifkan oleh GCP? J: Anda selalu mencari GCP yang unik, tetapi tidak ada notifikasi.

06:52 EDT T: T: Bisakah HLS cocok dengan RTL? Jawaban: Ya

06:54 EDT T: Cache SECDED ECC? J: Jika SECDED memungkinkan, beberapa SRAM di encoder codec hanya melakukan deteksi – jika terjadi kesalahan, kami dapat mengatur ulang pekerjaan.

06:54 EDT T: 8K60 – Bisakah VCU melakukan itu? Jawab: Kapasitas operasional, ya. Tetapi tidak ada profil VP9.

06:55 EDT T: Codec lain? A: Tidak ada komentar untuk format yang akan datang. Sangat terlibat dengan AV1 adalah AV2 generasi berikutnya

06:55 EDT – Q streaming audio? A: Streaming antar video/audio terputus, dapat dipisahkan dan diproses di tempat lain. VCU tidak menyentuh suara

06:58 EDT – Xilinx adalah diskusi terakhir

06:59 EDT – Xilinx Versal AI Edge

06:59 EDT – 7 nm

06:59 EDT – Arsitektur AIE-ML dioptimalkan untuk inferensi

07:00 EDT – Untuk apa ML digunakan?

07:00 EDT – Semua program membutuhkan banyak kecerdasan buatan dengan latensi rendah dan daya rendah

19:02 WIB Perangkat kelas bawah dan kelas atas ditampilkan hari ini

19:03 EDT – Ubin ML 10 detik hingga ubin 100 detik

19:04 EDT – Sejumlah besar faktor bentuk untuk dicetuskan

19:05 EDT – Detail tentang arsitektur

19:05 EDT – Ubin memori, inti komputasi yang dioptimalkan

19:06 EDT – Dukungan asli untuk INT4 dan BF16

19:07 WIB – SRAM dilindungi dari ECC

19:07 WIB – Jumlah ubin memori tergantung pada perangkat – Kisaran menengah adalah sekitar 38 MB ubin memori

19:10 WIB – Ubin ML baru yang berfokus pada produk kelas menengah ini

19:10 WIB Level tinggi masih menggunakan AIE karena 5G membutuhkannya

19:10 WIB – Prosesor vektor VLIW

19:10 WIB – Koneksi tanpa pemblokiran

19:10 WIB – DMA Mikro

19:15 WIB – Pindahkan data di tingkat perangkat

19:15 WIB Ubin dapat membaca langsung dari DDR, tanpa perlu tingkat menengah

19:16 WIB – DDR mendukung kompresi langsung

19:20 EDT – Memori didistribusikan, tidak ada data yang hilang, tidak ada cache yang hilang

07:23 EDT – Segera hadir di tumpukan perangkat lunak

07:23 EDT – Tidak perlu memprogram dalam C ++ – pytorch, Tensorflow, Caffe, tvm

07:24 EDT – Menggunakan

19:25 EDT – Cara menggunakan prosesor Versal AI Edge lengkap untuk sekali pakai

19:31 EDT – Ini adalah paket

[ad_2]

Source link

Leave a Reply

Your email address will not be published. Required fields are marked *