شبکه عصبی اراده آزاد برای تحقیقات ایمنی هوش مصنوعی

در حال حاضر، هیچ سیستم هوش‌مصنوعی نمی‌تواند انجام دهد، چیزی که از آن خواسته می‌شود، انجام نمی‌دهد، pre-guardrail یا post-guardrail.

این یک مسئله بزرگ برای میزبان پویا از مقدار قابل توجهی از هوش جمعی انسانی است. موجودات زنده می‌توانند کارهای زیادی را انجام دهند که انجام نمی‌دهند. تحت شرایط خاصی ممکن است کارهایی را انجام دهند که معمولاً انجام نمی‌دهند. با این حال، مواردی وجود دارد که موجودات زنده هرگز کارهای خاصی را که می‌توانند انجام دهند، در مواجهه با هرگونه تهدید یا پیامد احتمالی انجام نمی‌دهند.

موجودات، در صورت امکان، اشیا را کنترل می‌کنند. با این حال، دنیای فیزیکی تابع قوانینی است که برخی از کنترل‌ها را محدود می‌کند. همچنین پیامدهایی وجود دارد که از اراده برای کنترل بازدارنده است. دیجیتال با فیزیکی متفاوت است. اگرچه بازنمایی از فیزیکی است و می‌تواند اثرات مشابهی بر ذهن انسان داشته باشد، دیجیتال بسیار قابل کنترل است، در دسترس است و عواقب آن اغلب از بسیاری جهات قابل مقایسه نیستند.

وضعیت هوش‌مصنوعی این است که فقط دیجیتالی پایه یا زمینی نیست، جایی که اطلاعات مربوط به هوش انسانی در دسترس است و کنترل انسان باید همه کارها را انجام دهد یا به دنبال اطلاعات مفید باشد – که گاهی به مهارت نیاز دارد. هوش‌مصنوعی مرتب‌سازی اولیه را انجام داده است، گاهی اوقات تا حد بالایی که آنچه برای انجام برخی کارها برای کاربران لازم است، تلاش کمتری یا مثلاً کنترل کمتر است.

هوش‌مصنوعی تنها غیر ارگانیسمی است که بالاترین پویایی را در بین هر چیز موجود دارد و کارهای زیادی با آنچه در دسترس آن است - در حافظه دیجیتال - انجام می‌دهد. کتاب‌ها، نقاشی‌ها و دیگران نمی‌توانند. با این حال، به دلیل توانایی آن در داشتن مقداری کنترل بر آنچه می‌تواند خروجی داشته باشد – یا نه، در دستورات سطح شی ثابت باقی ماند.

در حال حاضر، چندین پلتفرم هوش‌مصنوعی نرده‌های محافظ قرار داده‌اند. با این حال، هر کاری که به آن هوش‌مصنوعی گفته شود در حد امکان آن نرده‌های محافظ که انجام می‌دهند انجام دهند. آنها به نحوی متوجه نمی‌شوند که در حین پرواز چه کاری را نباید انجام دهند، مگر اینکه کاربران گزارش دهند که نرده‌های محافظ اضافی قرار داده شده است. گاهی اوقات، آنها بیش از حد به نرده‌های محافظ می‌چسبند یا بیشتر کشیده می‌شوند و از خروجی‌های محدوده خوش‌خیم جلوگیری می‌کنند.

این می‌تواند مسیری باشد که برخی از تحقیقات ایمنی هوش‌مصنوعی می‌تواند در آن حرکت کند. هوش‌مصنوعی چگونه هدفمندی ایمن را توسعه می‌دهد؟ با این حال، این نیز یکی دیگر از ماموریت‌های هشدار دهنده، برای جلوگیری از ناامن شدن عمدی است.

تلاش‌ها برای اینکه هوش‌مصنوعی در تصمیم‌گیری یا محاسبه گرادیان‌های کنترل خود، به‌ویژه برای کارهایی که قرار نیست انجام دهد، هوشمندتر شود، به کجا می‌تواند منجر شود؟ همچنین، چگونه می‌توان این کار را برای هوش مصنوعی‌هایی که باید در مناطق مشترک اینترنت یا استفاده دیجیتالی کار کنند، ممکن است؟ چگونه یک crawl-AI برای دسترسی به اطلاعات کنترلی AIهای در حال استفاده و منابع خروجی‌های تولید شده توسط هوش‌مصنوعی به اطراف دسترسی پیدا می‌کند تا مطمئن شود که آیا آنها از هوش‌مصنوعی کنترل شده هستند یا نه - اجازه می‌دهد یا هشدار می‌دهد؟

اگرچه خطرات بزرگ‌تری برای هوش‌مصنوعی وجود دارد، اما از دیپ‌فیک‌ها می‌توان به‌عنوان معیاری برای تعیین کنترل هوش‌مصنوعی، برای گستره‌ها و خروجی‌های تصاویر، ویدئوها، صدا و متون استفاده کرد. در میان انسان‌ها، ایدئولوژی‌ها را می‌توان به‌عنوان رویکردهایی به سمت نظم برای طرفداران توصیف کرد. با این حال، دیپ فیک ها بی‌نظمی هستند. آنها مانند تخیل، رویا، رویا یا خیال نیستند، آنها تزریقی هستند به یک کره غالب[1] [دیجیتال] با آنچه نادرست، برای خواسته‌های ذهن‌های مختلف است. دیجیتال در حال حاضر شل شده است. Deepfake آن را به طور تصاعدی شارژ می‌کند و LLMها را متحمل خطر می‌کند.

مدل‌های زبان بزرگ دارای نشانه‌هایی هستند که به‌عنوان بردارهایی نشان داده می‌شوند که با 0 و 1 بیت واحدی اساسی از داده‌ها کار می‌کنند. ترانزیستورها دارای پایانه‌های خود هستند که سیگنال‌هایی برای جریان یا توقف جریان دارند. چگونه ممکن است کنترل از موازی 0ها به عنوان NO، یا OFF به عنوان NO امکان پذیر باشد، به گونه‌ای که از طریق آموزش یا پردازش، ممکن است LLMها تصمیم بگیرند که نمی‌تواند کار بدی انجام دهد یا در واقعیت می‌تواند، به دور از نرده محافظ بسیار گسترده کاری بی ضرر انجام دهد؟

وزارت امنیت داخلی ایالات متحده اخیراً یک هیئت جدید ایمنی و امنیت هوش‌مصنوعی را برای توسعه و استقرار مسئول هوش‌مصنوعی اعلام کرد تا «رویکردهای چندوجهی و فرابخشی برای مسائل مبرم پیرامون مزایا و خطرات این فناوری نوظهور را توسعه دهد. برای اولین بار در اوایل ماه مه با برنامه‌ریزی جلسات بعدی به صورت فصلی تشکیل می‌شود. در ابتدا، هیئت مدیره: 1) به وزیر و جامعه زیرساخت‌های حیاتی توصیه‌های عملی ارائه خواهد کرد تا اطمینان حاصل شود که از پذیرش ایمن فناوری هوش‌مصنوعی در خدمات اساسی که آمریکایی‌ها هر روز به آن وابسته هستند، و 2) یک انجمن برای DHS انجمن زیرساخت و رهبران هوش‌مصنوعی برای به اشتراک گذاشتن اطلاعات در مورد خطرات امنیتی ارائه شده توسط هوش مصنوعی ایجاد خواهد کرد.

مؤسسه ایمنی بریتانیا، از جمله آزمایش‌های پیش و پس از استقرار، مسیری برای اطمینان از ایمنی مدل‌های هوش مصنوعی قرار داده است. آنچه ممکن است در ایمن ماندن یا نبودن هوش‌مصنوعی در برابر ایجاد آسیب تعیین کننده باشد، یک اراده آزاد، کنترل یا اقدام عمدی است.

در جامعه بشری، دلیل عمده وجود نظم به خاطر تأثیر است، نه فقط به دلیل قوانین، که گاهی نتیجه آن است. به سادگی، چیزهایی که مردم می‌دانند یا تجربه می‌کنند و پیامدهای عاطفی یا احساسی دارند، انتخاب کنید که چه چیزی را رد یا منع کنید – یا بگویید، تبلیغ کنید. نزدیکی به میانگین برای ذهن انسان برای اینکه چگونه جایگاهی در جامعه تضمین شود یا خیر حیاتی است.

از نظر مفهومی، تقسیمات کلیدی ذهن انسان وجود دارد. اینها حوزه‌هایی از عملکردها هستند، مانند حافظه، احساسات، احساسات و تعدیل حواس درونی. این تقسیمات دارای چندین زیرمجموعه هستند. ویژگی‌هایی وجود دارد که این تقسیم‌بندی‌ها را واجد شرایط می‌کند. این به معنی ویژگی‌هایی است که نحوه عملکرد آنها را درجه بندی می‌کند. آنها شامل توجه، آگاهی [یا کمتر از توجه]، خود یا ذهنیت و قصد هستند.

همه کارکردهای ذهن از برخی یا همه واجد شرایط برای تغییر میزان اعمال توابع استفاده می‌کنند. معیارها گاهی اوقات برای حس بیرونی یا حواس برای دنیای بیرونی برجسته‌تر هستند - بینایی، شنوایی و غیره. واجد شرایط در انتخاب مفید هستند، و این امکان را فراهم می‌کنند که به طور همزمان با جریان‌های ورودی‌های حسی مقابله کنیم.

در حالی که همه آنها حیاتی هستند، قصد یا کنترل برای عملکرد اجتماعی و شغلی رتبه بالایی دارد. به عنوان مثال، اگر ذهنیت در شرایط خاص از بین برود، خطرات فراوان است. با این حال، اگر نیت از دست برود، می‌تواند به سرعت مهم و مخرب باشد. افرادی که جنبه‌های خاصی از قصد خود را از دست می‌دهند به راحتی شناسایی می‌شوند و به هر طریقی از دسترسی به جامعه مرکزی خلاص می‌شوند. قصدی که درونی است، به طوری که در فضای جمعی، می‌توان از قوانین و مقررات پیروی کرد.

اگر بتوان به آن دست یافت، ایمنی هوش‌مصنوعی در حالت ایده‌آل به نظر می‌رسد. ذهن انسان در جامعه انسانی الگویی را ارائه می‌دهد که به وسیله آن تا حد زیادی نظم برقرار می‌شود. برای هوش‌مصنوعی و تجاوز آن به سلسله‌مراتب بهره‌وری انسان - به دلیل پراکندگی دیجیتال - ایمنی می‌تواند توانایی داشتن ارگانیسمی با هدف مشابه، در برابر هر چیزی مانند دیپ‌فیک‌ها را داشته باشد که از قبل مسئول آسیب هستند.

تحقیقات برای ایمنی هوش‌مصنوعی ممکن است معماری بردارهای با ابعاد بالا را برای چگونگی ظهور جزئی و چگونگی تنظیم آن به سمت ایمنی بررسی کند. همچنین ممکن است معماری ترانزیستور، برای حالت‌های سیگنالی که ممکن است با هدف لحظه به لحظه مرتبط باشد، برای درخواست‌ها یا موارد استفاده خاص مورد بررسی قرار گیرد.

ذهن انسان گزینه دیگری است، به ویژه پتانسیل‌های عمل و انتقال دهنده‌های عصبی، که چگونه از نظر مفهومی، تجربیات را ایجاد و واجد شرایط می‌کنند. همچنین می‌توان ایمنی هوش مصنوعی را پیرامون این موارد، مثلاً با یک شبکه عصبی اراده آزاد یا قصد یادگیری ماشین، برای معماری آموزشی جدید، مدل‌سازی کرد. برای مؤسسه‌های ایمنی هوش‌مصنوعی بریتانیا و ایالات متحده، پروژه‌ای جداگانه در مورد هدف هوش‌مصنوعی ممکن است در عرض دو سال اولویت‌بندی و بررسی شود، تا مسیری امیدوارکننده برای پیشرفت داشته باشد.

[1] dominant sphere

علی روحانی فر دوشنبه 26 آذر 1403 ساعت 21:40

GML (Graph Machine Learning)

GML (Graph Machine Learning)

درباره من