0% Complete
فارسی
Home
/
شانزدهمین کنفرانس بین المللی فناوری اطلاعات و دانش
Design of low-latency Floating-Point units for Softmax Computation in Transformer-based Large Language Models
Authors :
Hoda Ghabeli
1
Amir Sabbagh Molahosseini
2
1- دانشکاه آزاد کرمان
2- دانشکاه آزاد کرمان
Keywords :
LLM،transformer،softmax،speculative،floating-point
Abstract :
Large Language Models (LLMs) have emerged as one of the most desirable and widely used interactive digital tools in the world in the last decade. Softmax is one of the key steps in LLMs where the output is a vector of probabilities for each token in the model dictionary. The softmax computations are time-consuming due to the large vocabulary size, which can significantly increase the exponential computations and normalization, impacting the overall speed of the model. Given the importance of accuracy and speed, some of the main operations and computations of softmax are performed on the floating-point units. Arithmetic speculative computations are considered when the result of the computations can be estimated from a path shorter than the critical path, with improved speedup. In this paper, speculative 32-bit floating-point computation is proposed by merging two formats, 32-bit and 16-bit, for softmax computations. Both the floating-point adder and the floating-point multiplier use this strategy. The proposed design, based on the input data of the softmax function, speculates that the 32-bit floating-point computations can be obtained by concatenating the result of 16-bit format and a part of the 32-bit format result, that gives correct results most of the time with less delay. If speculation is unsuccessful, the longer path from through the conventional 32-bit floating-point unit is activated at the cost of a slightly longer critical path. Experimental results show that speculative floating-point units lead to a reduction in delay with only marginal overhead in area and power consumption.
Papers List
List of archived papers
شناسایی جایگاه مالونیلاسیون در پروتئینها با بهرهگیری از استخراج ویژگی و تکنیکهای پردازش زبان طبیعی
حنانه رجبیون - محمد قاسم زاده - وحید رنجبر بافقی
Wireless Virtual-Reality by considering Hybrid Beamforming in IEEE802.11ay standard
Nasim Alikhani - Abbas Mohammadi
Spatial On–Off Keying Modulation with Mirror-Array Optical IRSs for Indoor Machine-to-Machine Visible Light Communication
Babak Sadeghi - Seyed Mohammad Sajad Sadough
شناسایی حملات رومینگ تلفنهمراه با استفاده از یادگیری ماشین
سعیده سیف الدین - سجاد شیرعلی شهرضا
Prompt-Based Composed Fashion Image Retrieval via Gated Detail-Enhanced Dual Cross-Attention Difference Modeling
Kosar Keshavarz - Reza Azmi
UltraLearn: Next-Generation CyberSecurity Learning Platform
Saeed Raisi - Saeid Ghasemshirazi - Ghazaleh Shirvani
طراحی واسط کاربری مبتنی بر رفتار و احساسات کاربران در سیستم های هوشمند
فاطمه صبائی - دکتر احمد عبداله زاده بارفروش
روش مهاجرت خوشهای برای بهبود بستربندی به مشتری در گردشکارهای بدون سرویسدهنده
محمدامین قسوری جهرمی - مهرداد آشتیانی - فاطمه بخشی
بررسی تأثیر استقرار استاندارد COBIT در افزایش بهره وری سازمانها (مطالعه موردی: شعب نمایندگیهای همراه اول، ایرانسل، رایتل)
دکتر محمد ابراهیم سمیع - ساره رحمانیان محمد ابراهیم سمیع - ساره رحمانیان -
ارائه یک سیستم توصیهگر آگاه به زمینه مبتنی بر رفتار کاربر در شبکه اجتماعی با استفاده از پیامهای برچسب شده جغرافیایی
زهرا امینی - سید علیرضا هاشمی گلپایگانی - علی میرزائی
more
Samin Hamayesh - Version 43.8.0