چندین تکنیک دیگر برای اصلاح ساختار درختان CSA معرفی شده است که از کنتورهای 302 برای رسیدن به طرح منظم تر و Lass arebconsuming استفاده می کند. چنین ساختارهای درختی اصلاح شده ممکن است مستلزم تعداد بیشتری از سطوح CSA با تأخیر کلی بیشتر باشد. دو نمونه از این فنون بعداً تشریح می شود. نمونة اول، درختان تأخیر موازنه شده [24] ( همچنین با 19 رجوع شود) را تعیین می کند در حالیکه نمونة دوم، درختان پلکان واژگون را تعیین می کند [15] . شکل 13- 6 ساختار bit – slices را برای دو تکنیک نشان می دهد و آنها را با Wallace tree bit8slice متناظر مقایسه می کند. تمام bit – slices در شکل 13- 6 برای 18 operands است که ممکن است بوسیله الگوریتم بزرگ مضاربه ای پایه تولید شود. در این مورد، 18 مثلث واژگون در شکل 13-6 3و 2 هستند و اعداد روی این کنتورها، تأخیر تجربه شده توسط operands داده را نشان می دهند. بنابر این ع پس از اینکه نتایج 2~ 64 توسط Wallae و درختان پلکان واژگون تولید شدند، درخت متوازن مستلزم ~ AFA است.
توجه کنید که تمام 3 ساختار درختی ، شامل 15 Carries حاصل بیرون رونده و 15 حاصل وارده شونده هستند و هر حامل بیرون رونده در مسیر حامل وارد شوندة خود قرار دارد، برای اینکه با bit – slices مجاور ، متصل شود. حاملان وارد شونده با کنتورهای مختلف (3 و 29 ronted درگیر می شوند، برای اینکه تمام داده ها به یک کنتور قبل یا در زمان لازم معتبر هستند . تنها برای درختان متوازن تمام 15 حامل وارد شوندهه هنگامی که لازم هستند به طور کامل تولید می شوند چون تمام مسیرها متوازن هستند در 2 درخت دیگر، کنتورهایی وجود دارد که تمام حاملان وارد شوند به طور همزمان تولید نشوند. برای مثال، منتور پایینی در درخت پلکان واژگون ، حاملان وارد شونده ای دارد که تأخیرهای مرتبط،44 و54 هستند.
3 ساختار درختی همچنین در تعداد مسیر کشی لازم بین bit – slices مجاور متفاوت هستند، این در عوض بر مساخت طرح اثر می گذارد. درخت Wallae مستلزم 6 مسیر سیم کشی است، پلکان واژگون و درخت متوازن به ترتیب مستلزم 3 و 2 مسیر هستند. به رابطة trabeoff لاینفک بین اندازه و سرعت توجه فرمائید. درخت Wallae، پائین ترین تأخیر کلی را تضمین می کند اما بیشترین تعداد مسیرهای سیم کشی است.
درخت متوازن، از سوی دیگر، مستلزم کمترین تعداد مسیر سیم کشی است اما بیشترین تأخیر کلی را دارد. درختان متوازن و پلکان واژگون ساختار منظمی دارند و می توانند به روش قانونمندی طراحی شوند این به سختی از شکل 13- 6 دیده می شود، اما از شکل 13- 6 که ساختار کامل دو درخت را مانند آن درخت Wallae متناظر نشان می دهد می توان نتیجه گیری کرد. آجرهای ساختمان درختان متوازن و پلکان واژگون، با خطوط منظم و برخی انحرافات آنها می توانند از 1241 و [15] مشخص شوند. در هنگام تعیین طرح نهایی یک درخت SCA، باید دقت شود تا اطمینان حاصل شود که سیم ها، داده ها را به Carry – Save adder با طولی تقریباً مشابه وصل می کنند، در غیر اینصورت مسیرهای متوازن تأخیر دیگر متوازن نخواهند بود.
برای مثال ، یک درخت CSA را برای 27 محصول operands بدست آمده از bit – 53 افزاینده با استفاده از الگوریتم اصلاح شدة پایة Booth 4، یک درخت CSA از کمپرسورهای 2 و 4 نشان داده شده در شکل 15- 6 ساخته می شود و طرح متناظر در شکل 15 – 6 (ب) 1251 نشان داده شده است. توجه کنید که کمپرسور پائینی (13# در وسط قرار دارد، برای اینکه کمپرسورهای 11# و 12# در فاصله نسبتاً مشابهی از آن هستند. کمپرسور 11# در عوض سیم هایی با طول مشابه از 8# و 9# و ... دارد.)
• 5 - 6 واحد افزودن مضرب ترکیبی (FMA)
یک واحد FMA، ضرب A * B زیر را فوراً بوسیله یک محصول اضافی و operand سوم (C) انجام می دهد برای اینکه محاسبه A * b + C یک عمل واحد و منفرد انجام می گیرد. واضح است که چنین واحدی قادر به انجام ضرب تنها با قرار دادن C=0 و جمع (یا تفریق) تنها با قرار دادن برای مثال B=1 می باشد.
یک واحد FMA می تواند زمان کلی استخراج ضرب زنجیره ای 0 را کاهش دهد وسپس عملیات تفریق را اضافه نماید. یک مثال برای این مورد زمانی که این ضرب و جمع زنجیره ای مفیدند، در ارزیابی چند اسمی an * n + a , -1 * n-1 + … + aa از طریق
{(GX + an -1) X + an -2} X + … است. از سوی دیگر ، ضرب مستقل و عملیات جمع نمی توانند به موازات هم انجام گیرند.
مزیت دیگر یک واحد FMA در مقایسه با افزاینده و جمع کنندة مجزا، زمان اجرای عملیات نقطة شناور است، چون گرد کردن تنها یکبار برای نتیجه A * B + C انجام می گیرید نه دوبار (ضرب وسپس برای جمع). چون گرد کردن ممکن است خطا های محاسبه را نشان دهد، کاهش تعداد گرد کردن ها ممکن است اثر مثبتی بر خطای کلی داشته باشد. در طرح گزارش شده در 1141، این صحت اضافی زمانی مفید بود که به طور صحیحی خارج قسمت را در تقسیم بر الگوریتم متناوب گرد کند. (رجوع شود به بخش 2 – 8).
شکل 16- 6 اجرای یک واحد FMA را برای محاسبات نقطة شناور نشان می دهد. در اینجا C , B , A قابل توجه هستند در حالیکهE c ,Eg , Eaبه ترکیب نمونه های operands هستند درخت CSA تمام محصولات نسبی را تولید می کند و جمع آوری Carry – Save را برای تولید 2 نتیجه ای که سپس با operand مرتب شدة C به طور صحیح جمع می شود. جمع کنندة 3 operands را می پذیرد و بنابر این، ابتدا باید آنها را به 2 (با استفاده از کنتورهای 2 و 3) کاهش دهد و سپس افزایش حمل – تکثیر را انجام می دهد. مراحل طرح و نرمال سازی و گرد کردن سپس انجام می گیرند. طرح نشان داده شده در شکل 16- 6 ، 2 تکنیک را برای کاهش زمان اجرای کلی بکار می برد. ابتدا، مدار مهم پیش بینی کنندة صفر، از تکثیر استفاده می کند و علائم تولید شده توسط adder را برای پیش بینی نوع تغییری که در مرحله پس از نرمال سازی مورد نیاز است، تولید کند. این مدار به موازات خود جمع عمل می کند برای اینکه تأخیر مرحلة نرمال سازی کوتاه تر است. ثانیاًو مهمتر اینکه ، مرتب کردن C برجسته در Ea + Eg – Ec به موازات ضرب A و B انجام می گیرد. به طور معمول، یک جمع نقطة شناور، ما اهمیت operand کوچک تر را مرتب می کنیم. این دلالت دارد بر اینکه اگر محصول AXBکوچکتر از C باشد. باید محصول را پس از تولید، تغییر دهیم و تأخیر اضافی را نشان دهیم. ترجیح می دهیم همیشه C را مرتب کنیم حتی اگر بزرگتر از AXB باشد، تا تغییر به موازات ضرب باشد. برای رسیدن به این ، باید اجازه دهیم که C به راست یا چپ تغییر کند (مسیری که به ترتیب با مثبت یا منفی بودن نتیجة Ea + EB – Ec دیکته می شود). اگر اجازه بدهیم C به چپ تغییر کند باید عدد کلی Bits در adder افزایش یابد. برای مثال ، اگر تمام operands، اعداد نقطة شناور در قالب طولانی IEEE هستند، ترتیب ممکن C در رابطه با محصول AXB به صورت زیر نشان داده می شود.
این ترتیب برای 53 – 2 EA + EB – EC 2 53 است. اگر 54 2 EA + Eg – EC باشد، بیت های C بیشتر به راست تغییر کرده اند، جایگزین بیت چسبنده می شود و اگر 54-5 EA + ED – EC باشد تمام بیت های A * B جایگزین یک بیت چسبنده می گردند. بنابر این penaity جریمة کلیع 50 درصد افزایش در پهنای adder می باشد که در عوض، زمان اجرای adder را افزایش خواهد داد. به هر حال توجه کنید که 53 بیت بالای adderتنها لازم است قادر به افزایش محتویات اصلی 53 بیت باشد (اگر یک Carry از106 بیت پائینی تکثیر یابد).
مسیر از محصول مدار گردشی در شکل 16 – 6 به مضرب در سمت راست زمانی بکار می رود که محاسبه ای نظیر (xy + z) + AXB انجام می شود. مسیر از محصول مدار نرمال سازی به مضرب سمت چپ زمانی بکار می رود که محاسباه ای نظیر (X * Y + Z) + C انجام می شود. در این مورد مرحلة گرد کردن برای (A * B + C) در زمانی مشابه با ضرب در D با افزودن محصول نسبی 1nn * D به درخت CSA انجام می گیرد.
• 6 – 6 تنظیم مضرب ها
در عمل اساسی (تولید محصولات نسبی و جمع) ممکن است ظاهر شوند. در این روش، از افراطب overhead که بخاطر کنترل های جداگانة این دو عمل است جلوگیری می کنیم و بنابر این سرعت ضرب را بالا می بریم. این مضرب ها که شامل سلولهای یکسانی است که قارد به تشکیل یک محصول نسبی جدید و افزودن آن به محصول نسبی جمع شده از قبل می باشد، مضرب های کناری نامیده می شوند. واضح است که هر سودی در سرعت، به هزینه سخت افزار اضافی بدست می آید. ویژگی مهم دیگر تنظیم مضرب ها این است که آنها می توانند برای حمایت سرعت بالای لوله کشی بکار روند. برای نشان دادن عمل تنظیم یک مضرب، متوازی الاضلاع 5 * 5 نشان داده شده در شکل 17- 6 را آزمایش می کنیم که شامل 25 بیت محصول نسبی به شکل a4 . xjاست که به طور صحیحی مرتب شده است. یک استنباط مستقیم از تنظیم مضرب، دو محصول نسبی نخست را پس از تنظیم صحیح جمع می کند. نتایج ردیف اول سپس با ad .xz به صورت aD .xz ... و 22 در ردیف دوم جمع می شود و .... سلول اصلی برای هر تنظیم مضرب، یک FA مورد قبول یکی از محصولات نسبی جدید (ai . xi) ، یک بیت از محصول نسبی از قبل جمع شده و یک carry – in – bit است. یک نمودار block از یک تنظیم 5*5 برای اعداد بدون علامت، در شکل 18 – 6 ترسیم شده است. در 4 ردیف اول ، هیچ تکثیر افقی carry وجود ندارد. به عبارت دیگر، یک نوع افزایش carry – save در این ردیف ها انجام می گیرد و محصول سبی جمع شده شامل جمع متوسط و بیت های carry است.
تنها در ردیف آخر ، تکثیر افقی carry مجاز است. ردیف آخر سلولها در شکل یک ripple carry – adder است که می تواند با یک two – operand adder سریع جایگزین شود (اگر زمان اجرای کلی مطلوب باشد) تنظیم مضرب در شکل 16 – 6 باید برای ضرب اعداد علامت دار در دو تکمیل عدد نویسی اصلاح شود، چون بیت های محصولی نظیر a4 .xo و ao . x4 ، وزن منفی دارند و باید کسر شوند نهجمع . یک روش برای کنترل صحیح 8 بیت محصول نسبی وزن شدة منفی در یک ضرب 5*5 بیتی، در شکل 19- 6 ترسیم شده است. بیت ها با وزن منفی. با یک دایرة کوچک به جای یک فلش، نشان داده می شوند. این بیت ها باید بجای جمع ، کسر شوند. سلولهای با3 محصول مثبت معمولاً FAS هستند و در شکل با I نشان داده می شوند. سلولهای با یک دادة منفی واحد و دو دادة مثبت ، با II نشان داده می شوند. مجموع 3 داده از یک سلول نوع II می تواند از 1- تا 2 متغیر باشد. این مستلزم این است که محصول دیجیتالی C ، وزنی معادل با 2+ داشته باشد و محصول عمودی S وزن 1- داشته باشد. عمل جبری یک سلول نوع II به وسیلة معادله با تمام داده های منفی نشان داده شده با I در شکل 23- 6 تشریح می شود و به طور منفی وزن C و محصولات S را می گیرد. این سلول اعداد1- را در داده هایش می شمرد و این عد را از طریق محصولات C و S نشان می دهد. عمل منطقی آن مانند سلول نوع I است و بنابر این، اجراهای gate ورودی آنها یکسان است. این ، تشریح کنندة دلیل علامت گذاری آنها به صورت I , I است . همچنین اجراهای ورودی سلولهای نوع II و II یکسان هستند. شیوة دیگر برای طرح یک ضرب منظم برای 2 مؤلفة operands، استفاده از الگوریتم Booth است. یک مضرب طبق این الگوریتم شامل n ردیف از سلولهای اصلی است که n ، تعداد بیت های مضرب است. هر ردیف قارد به جمع یا کسر مضربهای مرتب شدة صحیح به محصول نسبی جمع شدة قبلی است. سلولها در ردیف C ، جمع یا کسر یا تنها تبدیل را بسته به تعداد xi و بیت مرجع مناسب انجام می دهند. این مضرب در شکل 20 – 6 برای operands 4 بیت داده شده است. سلول اصلی در این مضربع یک مدار کنترل شدة جمع / کسر / تبدیل است که در شکل 20 - 6 الف) ترسیم شده است [12] . علامت های D , H علامت های کنترل نشان دهندة نوع عمل برای اجرا توسط ردیف متناظر سلولهای CASS است. اگر H ، صفر باشد هیچ جبری انجام نمی گیرد و بنابر این بیت محصول نسبی جدید که توسط Pwt نشان داده شده است برابر با بیت قبلی است.
فرمت این مقاله به صورت Word و با قابلیت ویرایش میباشد
تعداد صفحات این مقاله 15 صفحه
پس از پرداخت ، میتوانید مقاله را به صورت انلاین دانلود کنید
دانلودمقاله فنون دیگری برای جمع آوری محصول Partial