شتابدهنده هوش مصنوعی
شتابدهنده هوش مصنوعی (به انگلیسی: AI accelerator) یک کلاس از شتابدهندههای سختافزاری[۱] یا سیستم کامپیوتری[۲][۳]است که برای شتاب دهندگی به برنامههای هوش مصنوعی و یادگیری ماشین، از جمله شبکههای عصبی مصنوعی و بینایی ماشین طراحی شدهاست. برنامههای کاربردی معمولی شامل الگوریتمهایی برای رباتیک، اینترنت اشیا، و سایر وظایف مبتنی بر داده یا حسگر است.[۴] این برنامهها اغلب طرحهای چند هستهای هستند و عموماً روی محاسبات با دقت پایین ، معماریهای جدید جریان داده یا قابلیت محاسبات درون حافظه تمرکز میکنند. تا به امروز، سال ۲۰۱۸، یک تراشه مدار مجتمع هوش مصنوعی عادی حاوی میلیاردها ترانزیستور ماسفت است.[۵] چندین اصطلاح خاص تجاری برای دستگاههای این گروه به کار میرود و این فناوری، یک فناوری نوظهور بدون طراحی فراگیر است.
تاریخ
[ویرایش]سیستمهای رایانهای اغلب واحد پردازش مرکزی را با شتابدهندههای ویژه برای کارهای تخصصی تکمیل میکنند که به عنوان کمک پردازنده شناخته میشوند. واحدهای سختافزاری ویژه برنامه کاربردی شامل کارتهای گرافیکی، کارتهای صدا، واحدهای پردازش گرافیکی و پردازندههای سیگنال دیجیتال هستند. همانطور که در دهه ۲۰۱۰ کاربردهای یادگیری عمیق و هوش مصنوعی افزایش یافت، واحدهای سختافزاری تخصیص یافته نیز از محصولات موجود توسعه یافتند تا به اعمال این الگوریتمها شتاب دهند
تلاشهای ابتدایی
[ویرایش]اولین طراحیها مانند ETANN 80170NX[۶] از شرکت اینتل، مدارهای آنالوگ را برای محاسبه توابع عصبی دخیل کرده بودند. نمونه دیگری از تراشههای این گروه، ANNA است که یک شتابدهنده شبکه عصبی CMOS است که توسط یان لی کان توسعه یافتهاست.[۷] بعداً نیز تمام تراشههای دیجیتال مانند Nestor/Intel Ni1000 از این تراشه الگو برداری کردند.
در اوایل سال ۱۹۹۳، پردازندههای سیگنال دیجیتال در زمینههایی مانند سرعت بخشیدن به نرمافزار تشخیص کاراکتر نوری، به عنوان شتابدهنده شبکه عصبی، مورد استفاده قرار گرفتند.[۸]
در دهه ۱۹۹۰ نیز تلاشهایی برای ایجاد سیستمهای موازی با توان عملیاتی بالا برای محیطهای کاری با هدف کاربردهای گوناگون از جمله شبیهسازی شبکههای عصبی صورت گرفت.[۹][۱۰] شتابدهندههای با مبنای FPGA نیز نخستین بار در دهه ۱۹۹۰ برای استدلال و استنباط[۱۱] و آموزش مورد بررسی قرار گرفتند. گوشیهای هوشمند نیز شروع به توسعه شتابدهندههای هوش مصنوعی کردند که اولین نمونه آن کوالکام اسنپدراگون 820 بود که در سال ۲۰۱۵ میلادی طراحی شد.[۱۲][۱۳]
محاسبات ناهمگن
[ویرایش]محاسبات ناهمگن به معنی ترکیب تعدادی پردازنده تخصیص یافته در یک سیستم یا حتی یک تراشه واحد است که هر یک برای وظیفهٔ خاصی طراحی شدهاند. معماریهایی مانند ریزپردازنده سلولی[۱۴] دارای خصوصیاتی هستند که دارای اشتراکهای زیادی با شتابدهندههای هوش مصنوعی هستند، از جمله: پشتیبانی از محاسبات با دقت محدود، معماری جریان داده، و اولویت دادن به «نتیجه» بر زمان مورد نیاز. ریزپردازنده سلولی بعداً برای تعدادی از وظایف[۱۵] از جمله هوش مصنوعی به کار گرفته شدند.[۱۶]
در دهه ۲۰۰۰، واحدهای پردازش مرکزی همچنان واحدهای SIMD گستردهتری را به دست آوردند که ناشی از کاربردشان در ویدئو و بازی و پشتیبانی از انواع دادههای ساختار یافته با دقت پایین بود.[۱۷]
به دلیل افزایش کارایی واحدهای پردازش مرکزی، از آنها برای انجام وظایف الگوریتمهای هوش مصنوعی نیز استفاده میشود. پردازندههای مرکزی برای DNNهای با موازیسازی در مقیاس کوچک یا متوسط نسبت به DNNهای پراکنده و در طراحیهای با حجم کم، برتر هستند.
استفاده از GPU
[ویرایش]واحدهای پردازش گرافیکی یا GPUها، سختافزارهای تخصیص یافتهای برای اعمال تغییرات بر روی تصاویر و محاسبه خصوصیات تصاویر هستند. اساس ریاضی شبکههای عصبی و الگوریتمهای تغییر تصاویر، اعمال مشابه و مستقلاً موازی ای شامل ماتریسها هستند که باعث شدهاند پردازندههای گرافیکی بهطور روزافزون برای راه اندازی الگوریتمهای یادگیری ماشین استفاده شوند.[۱۸][۱۹][۲۰]
تا به امروز، سال ۲۰۱۶، واحدهای پردازش گرافیکی برای راه اندازی الگوریتمهای هوش مصنوعی محبوب هستند و به تکامل خود ادامه میدهند تا یادگیری عمیق را، هم برای آموزش[۲۱] و هم برای استنباط در دستگاههایی مانند ماشینهای خودران، مجهزتر کنند.[۲۲] توسعه دهندگان GPUها مانند Nvidia NVLink، در حال توسعه توانایی اتصال این سختافزارها به جریان دادههایی هستند که الگوریتمهای هوش مصنوعی از آن بهره میبرند.[۲۳] از آنجایی که واحدهای پردازش گرافیکی بهطور روزافزون در شتاب دهندگی به الگوریتمهای هوش مصنوعی به کار میروند، تولیدکنندگان واحدهای پردازش گرافیکی، سختافزارهایی تخصیص یافته برای شبکههای عصبی مصنوعی را برای سرعت بخشیدن بیشتر به این الگوریتمها در نظر گرفتهاند.[۲۴][۲۵] هستههای تانسوری برای سرعت بخشیدن به آموزش شبکههای عصبی در نظر گرفته شدهاند.[۲۵]
بکارگیری FPGA
[ویرایش]محیطهای کاری یادگیری عمیق همچنان در حال تکامل و رشد هستند که باعث سخت شدن طراحی سختافزارهای تخصیص یافته شدهاست. دستگاههای با قابلیت تنظیم مجدد مانند آرایههای دروازه قابل برنامهریزی میدانی (FPGA)، تکامل سختافزارها، محیطهای کاری و نرمافزارها را در کنار یکدیگر آسانتر میکنند.[۲۶][۱۱][۲۷]
شرکت مایکروسافت نیز از تراشههای FPGA برای سرعت بخشیدن استنتاج بهره بردهاست.[۲۸]
ظهور شتابدهندههای تخصیص یافتهٔ هوش مصنوعی
[ویرایش]با اینکه که واحدهای پردازش گرافیکی و FPGA برای وظایف مرتبط با هوش مصنوعی عملکرد بسیار بهتری نسبت به CPUها دارند، اما همچنان ممکن است با طراحیهای خاص تر بازدهی ای تا ۱۰ برابر[۲۹][۳۰] از طریق یک مدار مجتمع مختص برنامه یا ASIC به دست آید.[نیازمند منبع]این شتابدهندهها از رویکردهایی مانند استفاده بهینه از حافظه[نیازمند منبع] یا انجام محاسبات با دقت محدودتر برای افزایش سرعت و توان عملیاتی محاسبات بهره میبرند.[۳۱] برخی از چارچوبهای ممیز شناور که با شتاب دهندگی هوش مصنوعی با دقت پایین استفاده میکنند، نیم-دقت و ممیز شناور bfloat16 هستند.[۳۲][۳۳][۳۴][۳۵][۳۶] شرکتهایی مانند گوگل، کوالکام، آمازون، اپل، فیس بوک، AMD و سامسونگ همگی در حال طراحی AI ASIC خود هستند.[۳۷][۳۸][۳۹][۴۰][۴۱][۴۲]
معماریهای محاسباتی درون حافظه ای
[ویرایش]در ژوئن ۲۰۱۷، پژوهشگران آیبیام معماری ای را بر خلاف معماری فون نیومن معرفی کردند که متکی بر محاسبات درون حافظه ای و آرایههای حافظهٔ تغییر فاز دهنده است که برای تشخیص همبستگی زمانی اعمال میشود و قصد توسعه رویکرد محاسبات ناهمگن و سیستمهای موازی حجیم را دارند.[۴۳]
همچنین در اکتبر ۲۰۱۸، محققان IBM معماری ای متکی بر پردازش درون حافظه ای و مدلسازی شده از شبکه سیناپسی مغز انسان را برای شتاب دهندگی به شبکههای عصبی عمیق معرفی کردند.[۴۴] این سیستم بر اساس آرایههای حافظهٔ تغییر فاز دهنده است.
محاسبات درون حافظه ای با حافظههای مقاومتی آنالوگ
[ویرایش]در سال ۲۰۱۹، محققان از مؤسسه Politecnico di Milano راه حلی از طریق یک عملیات واحد برای حل سیستمهای معادلات خطی در چند ده نانوثانیه یافتند. الگوریتم آنها متکی بر محاسبات درون حافظه ای با حافظههای مقاومتی آنالوگ بود که از طریق محاسبه ضرب ماتریس-بردار در یک گام با استفاده از قانون اهم و قانون کیرشهوف، کار میکرد که بازدهی بالایی در زمان و انرژی داشت.
پژوهشگران نشان دادند که یک مدار بازخوردی با حافظههای مقاومتی نقطه متقاطع میتواند مسائل جبری مانند سیستمهای معادلات خطی، بردارهای ویژه ماتریس و معادلات دیفرانسیل را تنها در یک گام حل کند. چنین رویکردی زمان مورد نیاز برای محاسبات را در مقایسه با الگوریتمهای دیجیتال به طرز چشمگیری کاهش میدهد.[۴۵]
نیمه رساناهای نازک اتمی
[ویرایش]در سال ۲۰۲۰ میلادی، Marega و همکارانش. آزمایشهایی را با یک ماده تونل فعال با مساحت بزرگ برای توسعه دستگاهها و مدارهای منطقی در حافظه بر اساس ترانزیستورهای اثر میدانی دروازه شناور (FGFET) معرفی کردند.[۴۶] چنین نیمه رساناهای نازک اتمی ای برای برنامههای پرکاربرد یادگیری ماشینی با انرژی کارا مورد استفاده قرار میگیرند، جایی که ساختار اصلی دستگاه برای عملیات منطقی و ذخیره دادهها استفاده میشود. این پژوهشگران مواد دو بعدی مانند دی سولفید مولیبدن که نیمه رسانا است را به کار گرفتند.[۴۶]
هسته مجتمع تانسور فوتونیک
[ویرایش]در سال ۲۰۲۱ میلادی، J. Feldmann و همکارانش، یک شتابدهنده سختافزاری فوتونیک مجتمع برای پردازش کانولوشنی موازی ارائه کردند.[۴۷] نویسندگان دو مزیت کلیدی فوتونیک مجتمع را نسبت به همتایان الکترونیکی آن مورد بررسی قرار دادند که آنها عبارتند از: (۱) انتقال انبوه داده موازی از طریق مالتی پلکسی تقسیم طول موج در ترکیب با شانههای فرکانسی، و (۲) سرعت تلفیق بسیار بالای دادهها.[۴۷] سیستم آنها میتواند تریلیونها عملیات انباشته چند برابری را در ثانیه پردازش کند که نشاندهنده پتانسیل فوتونیک مجتمع در برنامههای کاربردی هوش مصنوعی با دادههای حجیم است.[۴۷]
نامگذاری
[ویرایش]از سال ۲۰۱۶ میلادی، این زمینه هنوز در جریان است و فروشندگان، اصطلاح تجاری خود را برای معادل «شتابدهنده هوش مصنوعی» مطرح میکنند، به این امید که طرحها و APIهایشان به طرح غالب در این زمینه تبدیل شود. با وجود آنکه هیچ نقطه نظر مشترکی در مورد مرز بین این دستگاهها و همچنین شکل دقیق آنها وجود ندارد، اما چندین نمونه به جهت پر کردن این فضای جدید، با مقدار قابل توجهی از همپوشانی در قابلیتها، اختصاص یافتهاند.
در نهایت، زمانی که شتابدهندههای گرافیکی مصرفکننده روی کار آمدند، صنعت در نهایت اصطلاح به کار برده شده توسط شرکت انویدیا، یعنی "GPU"[۴۸] را به عنوان اسم جمع برای «شتابدهندههای گرافیکی» سط دایرکتتریدی، شکلهای مختلفی به خود گرفته بود.
کاربردهای بالقوه
[ویرایش]- رباتهای کشاورزی، به عنوان مثال کنترل علفهای هرز بدون علف کش.[۴۹]
- وسایل نقلیه خودمختار: انویدیا بردهای سری Drive PX خود را در این برنامه هدف قرار دادهاست.[۵۰]
- تشخیص به کمک کامپیوتر
- رباتهای صنعتی، با افزودن قابلیت انطباق به موقعیتهای متغیر، دامنه کارهایی را که میتوانند خودکار شوند را افزایش میدهند.
- ترجمه ماشینی
- روباتهای نظامی
- پردازش زبان طبیعی
- موتورهای جستجو، افزایش بهرهوری انرژی مراکز داده و توانایی استفاده از پرس و جو پیشرفته روزافزون.
- وسایل نقلیه هوایی بدون سرنشین، به عنوان مثال سیستمهای ناوبری، مثال دیگر موویدیوس 2 است که نشان داده شدهاست که با موفقیت هواپیماهای بدون سرنشین خودران را هدایت میکند.[۵۱]
- رابط کاربری صوتی، به عنوان مثال در تلفنهای همراه، هدف Qualcomm Zeroth.[۵۲]
جستارهای وابسته
[ویرایش]منابع
[ویرایش]- ↑ "Intel unveils Movidius Compute Stick USB AI Accelerator". July 21, 2017. Archived from the original on August 11, 2017. Retrieved August 11, 2017.
- ↑ "Inspurs unveils GX4 AI Accelerator". June 21, 2017.
- ↑ Wiggers, Kyle (November 6, 2019) [2019], Neural Magic raises $15 million to boost AI inferencing speed on off-the-shelf processors, archived from the original on March 6, 2020, retrieved March 14, 2020
- ↑ "Google Designing AI Processors". Google using its own AI accelerators.
- ↑ "13 Sextillion & Counting: The Long & Winding Road to the Most Frequently Manufactured Human Artifact in History". Computer History Museum. April 2, 2018. Retrieved July 28, 2019.
- ↑ John C. Dvorak: Intel’s 80170 chip has the theoretical intelligence of a cockroach in PC Magazine Volume 9 Number 10 (May 1990), p. 77,, retrieved May 16, 2021
- ↑ "Application of the ANNA Neural Network Chip to High-Speed Character Recognition" (PDF).
- ↑ "convolutional neural network demo from 1993 featuring DSP32 accelerator".
- ↑ "design of a connectionist network supercomputer".
- ↑ "The end of general purpose computers (not)".This presentation covers a past attempt at neural net accelerators, notes the similarity to the modern SLI GPGPU processor setup, and argues that general purpose vector accelerators are the way forward (in relation to RISC-V hwacha project. Argues that NN's are just dense and sparse matrices, one of several recurring algorithms)
- ↑ ۱۱٫۰ ۱۱٫۱ "Space Efficient Neural Net Implementation".
- ↑ "Qualcomm Helps Make Your Mobile Devices Smarter With New Snapdragon Machine Learning Software Development Kit". Qualcomm.
- ↑ Rubin, Ben Fox. "Qualcomm's Zeroth platform could make your smartphone much smarter". CNET (به انگلیسی). Retrieved September 28, 2021.
- ↑ Gschwind, Michael; Hofstee, H. Peter; Flachs, Brian; Hopkins, Martin; Watanabe, Yukio; Yamazaki, Takeshi (2006). "Synergistic Processing in Cell's Multicore Architecture". IEEE Micro. 26 (2): 10–24. doi:10.1109/MM.2006.41.
- ↑ De Fabritiis, G. (2007). "Performance of Cell processor for biomolecular simulations". Computer Physics Communications. 176 (11–12): 660–664. arXiv:physics/0611201. doi:10.1016/j.cpc.2007.02.107.
- ↑ "Development of an artificial neural network on a heterogeneous multicore architecture to predict a successful weight loss in obese individuals" (PDF). Archived from the original (PDF) on 30 August 2017. Retrieved 2 January 2022.
- ↑ "Improving the performance of video with AVX". February 8, 2012.
- ↑ "microsoft research/pixel shaders/MNIST".
- ↑ "How GPU came to be used for general computation".
- ↑ "ImageNet Classification with Deep Convolutional Neural Networks" (PDF).
- ↑ "nvidia driving the development of deep learning". May 17, 2016.
- ↑ "Nvidia introduces supercomputer for self driving cars". January 6, 2016.
- ↑ "how nvlink will enable faster easier multi GPU computing". November 14, 2014.
- ↑ "A Survey on Optimized Implementation of Deep Learning Models on the NVIDIA Jetson Platform", 2019
- ↑ ۲۵٫۰ ۲۵٫۱ Harris, Mark (May 11, 2017). "CUDA 9 Features Revealed: Volta, Cooperative Groups and More". Retrieved August 12, 2017.
- ↑ Sefat, Md Syadus; Aslan, Semih; Kellington, Jeffrey W; Qasem, Apan (August 2019). "Accelerating HotSpots in Deep Neural Networks on a CAPI-Based FPGA". 2019 IEEE 21st International Conference on High Performance Computing and Communications; IEEE 17th International Conference on Smart City; IEEE 5th International Conference on Data Science and Systems (HPCC/SmartCity/DSS): 248–256. doi:10.1109/HPCC/SmartCity/DSS.2019.00048. ISBN 978-1-72812-058-4.
- ↑ "FPGA Based Deep Learning Accelerators Take on ASICs". The Next Platform. August 23, 2016. Retrieved September 7, 2016.
- ↑ "Project Brainwave". Microsoft Research (به انگلیسی). Retrieved June 16, 2020.
- ↑ "Google boosts machine learning with its Tensor Processing Unit". May 19, 2016. Retrieved September 13, 2016.
- ↑ "Chip could bring deep learning to mobile devices". www.sciencedaily.com. February 3, 2016. Retrieved September 13, 2016.
- ↑ "Deep Learning with Limited Numerical Precision" (PDF).
- ↑ Khari Johnson (May 23, 2018). "Intel unveils Nervana Neural Net L-1000 for accelerated AI training". VentureBeat. Retrieved May 23, 2018.
...Intel will be extending bfloat16 support across our AI product lines, including Intel Xeon processors and Intel FPGAs.
- ↑ Michael Feldman (May 23, 2018). "Intel Lays Out New Roadmap for AI Portfolio". TOP500 Supercomputer Sites. Retrieved May 23, 2018.
Intel plans to support this format across all their AI products, including the Xeon and FPGA lines
- ↑ Lucian Armasu (May 23, 2018). "Intel To Launch Spring Crest, Its First Neural Network Processor, In 2019". Tom's Hardware. Retrieved May 23, 2018.
Intel said that the NNP-L1000 would also support bfloat16, a numerical format that’s being adopted by all the ML industry players for neural networks. The company will also support bfloat16 in its FPGAs, Xeons, and other ML products. The Nervana NNP-L1000 is scheduled for release in 2019.
- ↑ "Available TensorFlow Ops | Cloud TPU | Google Cloud". Google Cloud. Retrieved May 23, 2018.
This page lists the TensorFlow Python APIs and graph operators available on Cloud TPU.
- ↑ Elmar Haußmann (April 26, 2018). "Comparing Google's TPUv2 against Nvidia's V100 on ResNet-50". RiseML Blog. Archived from the original on April 26, 2018. Retrieved May 23, 2018.
For the Cloud TPU, Google recommended we use the bfloat16 implementation from the official TPU repository with TensorFlow 1.7.0. Both the TPU and GPU implementations make use of mixed-precision computation on the respective architecture and store most tensors with half-precision.
- ↑ "Google Reveals a Powerful New AI Chip and Supercomputer". MIT Technology Review (به انگلیسی). Retrieved July 27, 2021.
- ↑ "What to Expect From Apple's Neural Engine in the A11 Bionic SoC – ExtremeTech". www.extremetech.com. Retrieved July 27, 2021.
- ↑ "Facebook has a new job posting calling for chip designers".[پیوند مرده]
- ↑ "Facebook joins Amazon and Google in AI chip race". www.ft.com.
- ↑ Amadeo, Ron (May 11, 2021). "Samsung and AMD will reportedly take on Apple's M1 SoC later this year". Ars Technica (به انگلیسی). Retrieved July 28, 2021.
- ↑ Smith, Ryan. "The AI Race Expands: Qualcomm Reveals "Cloud AI 100" Family of Datacenter AI Inference Accelerators for 2020". www.anandtech.com. Retrieved September 28, 2021.
- ↑ Abu Sebastian; Tomas Tuma; Nikolaos Papandreou; Manuel Le Gallo; Lukas Kull; Thomas Parnell; Evangelos Eleftheriou (2017). "Temporal correlation detection using computational phase-change memory". Nature Communications. 8 (1): 1115. arXiv:1706.00511. doi:10.1038/s41467-017-01481-9. PMC 5653661. PMID 29062022.
- ↑ "A new brain-inspired architecture could improve how computers handle data and advance AI". American Institute of Physics. October 3, 2018. Retrieved October 5, 2018.
- ↑ Zhong Sun; Giacomo Pedretti; Elia Ambrosi; Alessandro Bricalli; Wei Wang; Daniele Ielmini (2019). "Solving matrix equations in one step with cross-point resistive arrays". Proceedings of the National Academy of Sciences. 116 (10): 4123–4128. doi:10.1073/pnas.1815682116. PMC 6410822. PMID 30782810.
- ↑ ۴۶٫۰ ۴۶٫۱ Marega, Guilherme Migliato; Zhao, Yanfei; Avsar, Ahmet; Wang, Zhenyu; Tripati, Mukesh; Radenovic, Aleksandra; Kis, Anras (2020). "Logic-in-memory based on an atomically thin semiconductor". Nature. 587 (2): 72–77. doi:10.1038/s41586-020-2861-0. PMC 7116757. PMID 33149289.
- ↑ ۴۷٫۰ ۴۷٫۱ ۴۷٫۲ Feldmann, J.; Youngblood, N.; Karpov, M.; et al. (2021). "Parallel convolutional processing using an integrated photonic tensor". Nature. 589 (2): 52–58. arXiv:2002.00281. doi:10.1038/s41586-020-03070-1. PMID 33408373.
- ↑ "NVIDIA launches the World's First Graphics Processing Unit, the GeForce 256".
- ↑ "Design of a machine vision system for weed control" (PDF). CiteSeerX 10.1.1.7.342. Archived from the original on June 23, 2010. Retrieved July 29, 2021.
{{cite journal}}
: Cite journal requires|journal=
(help) - ↑ "Self-Driving Cars Technology & Solutions from NVIDIA Automotive". NVIDIA.
- ↑ "movidius powers worlds most intelligent drone". March 16, 2016.
- ↑ "Qualcomm Research brings server class machine learning to everyday devices–making them smarter [VIDEO]". October 2015.
پیوند به بیرون
[ویرایش]- انویدیا با Pascal.htm شتابدهنده را به فلز تبدیل میکند، نسل بعدی پلتفرم
- پروژه Eyeriss , MIT
- https://alphaics.ai/