آیا هوش مصنوعی می‌تواند طنز را درك كند؟

نویسنده: مسعود ذاكری

1398/10/03
|
14:33
|



ماشین‌ ها تقریبا هیچ‌چیزی نمی‌فهمند و طنز نیز از این قاعده مستثنی نیست؛ اما یادگیری ماشین شاید بتواند ما را در تغییر این وضعیت یاری دهد.

بسیاری از ظرافت‌های نوشتار، ازجمله طنز ، در اینترنت از بین می‌رود؛ به‌همین‌دلیل، مطالب طنز مانند مطالب اندی بورویتز در مجله‌ی نیویوركر باید برچسب «طنز» بخورند تا مطمئن شوند طنزبودن آن را درك خواهیم كرد.

در سال‌های اخیر، دانشمندان نگران این موضوع شده‌اند كه چه چیزی در نوشتار به‌درستی درك نمی‌شود كه طنز به‌جای حقیقت و اطلاعات نادرست به‌جای طنز سوءبرداشت می‌شود؟ از‌این‌رو، تلاشی جهانی برای توسعه‌ی نوعی از فناوری یادگیری ماشین شكل گرفت كه بتواند طنز را از دروغ‌های ظریف تمییز دهد.

درحقیقت، ماشین چیز زیادی درك نمی‌كند و به‌طور قطع طنز نیز جزو استثناءها نیست؛ اما همین ماشین‌ها ممكن است بتوانند جنبه‌های متمایز نوشتار طنز را اندازه‌گیری و به شناسایی اخبار دروغین در اینترنت كمك كنند.

اخیرا محققان استارتاپ AdVerifai و دانشگاه جورج واشنگتن آمریكا و بخش كلاد Amazon AWS مقاله‌ای در كنفرانس روش‌های تجربی در پردازش زبان طبیعی سال 2019 هنگ‌كنگ ارائه كرده‌اند.

این مقاله كه شناسایی تفاوت‌های ظریف میان اخبار جعلی و طنز : استفاده از سرنخ‌های معنایی و زبانی نام دارد، براساس سال‌ها مدل‌سازی از تفاوت‌های میان اخبار جعلی و گمراه‌كننده و مقاله‌های خبری غیردقیق از یك سو و طنز از سوی دیگر حاصل شده‌ است. مقاله‌ی مذكور در كارگاه سانسور و اطلاعات اشتباه و تبلیغات سیاسی ارائه شد.

طبق نظر نویسنده‌ی ارشد این مقاله، آر. لوی از AdVerifai، نگرانی اساسی این است كه تفاوت قائل‌شدن میان طنز و اخبار جعلی در عمل می‌تواند بسیار سخت باشد. این یعنی طنز قانونی ممكن است با اطلاعات گمراه‌كننده اشتباه گرفته شود؛ زیرا این نوع اطلاعات از فرمی شبیه به طنز برای پوشش خود استفاده می‌كنند.

ایده‌ی كلی این تحقیق آن است كه با وجود طنزبودن یك نوشته، رگه‌هایی از منطق و دانش در آن دیده شده و جامعه نیاز دارد به نوشتار طنز با دیدی دقیق‌تر و ماشینی‌تر بنگرد.

تمامی تلاش‌های پیشین برای تمایز میان طنز و اخبار ساختگی، از روش‌های ساده‌ی یادگیری ماشین بهره برده‌اند كه با استفاده از مجموعه‌ای از كلمات، جنبه‌ی بسیار ساده‌ای از نوشتار را بررسی می‌كنند. برای مثال، در مطالعه‌ای كه محققان دانشگاه انتاریو غربی در سال 2016 انجام دادند، سعی شد سیستم خودكار تشخیص طنز ایجاد شود. در این روش، به ویژگی‌های خاصی توجه می‌شد.

برای نمونه، آیا در جمله‌ی نهایی مقاله ارجاعی به اشخاص و اماكن وجود دارد و درصورت وجود، آیا با سایر ارجاعات مقاله‌ مغایرت دارد یا خیر. ایده‌ی استفاده از این روش آن است كه ارجاعات ناگهانی و دور از انتظار می‌تواند نشانه‌ی ابزورد و سرنخی از طنز باشد. به زبان ساده، این روش گشتن میان تعارض‌ها و براساس تئوری‌های كارشناسان زبان‌شناسی، درباره‌ی چگونگی خلق طنز است.

در روشی كه لوی و همكارانش در پیش گرفته‌اند، یادگیری ماشین اندكی پیش‌تر رفته و از ابزار بسیار محبوب پردازش زبان طبیعی BERT گوگل استفاده شده‌ است. این ابزار شبكه‌ی یادگیری عمیقی است كه در آزمایش‌های متعدد درك زبان در سال‌های اخیر دستاوردهای درخورتوجهی داشته‌ است.

این محققان نسخه‌ای از قبل تمرین‌داده‌شده از BERT را با ستونی از مقالات منتشرشده طنز و جعلی بهبود بخشیده‌اند. این دیتاست سال گذشته در دانشگاه مریلند ساخته شد و مشتمل بر 283 مقاله‌ی خبری جعلی و 203 مقاله‌ی طنز درباره‌ی سیاست ایالات متحده در بازه زمانی ژانویه 2016 تا اكتبر 2017 است. تمامی این مقاله‌ها را انسان‌ها به‌عنوان طنز یا جعلی دسته‌بندی كردند.

لوی و همكارانش دریافتند BERT در تشخیص طنز یا جعلی‌بودن مقالات عملكرد بسیار خوبی دارد و در آزمایش‌ها نیز از روش مرسوم پیشین كارایی بسیار بیشتری دارد؛ بااین‌حال، چگونگی این امر هنوز جای سؤال است. درست است BERT بهترین نتایج را می‌دهد؛ اما این نتایج به‌راحتی درك‌پذیر نیست. طبق فرضیات، نوعی از تشخیص الگوی معنایی در BERT جریان دارد؛ ولی همچنان با قاطعیت نمی‌توان آن را شرح داد.

برای حل این مشكل، محققان تحلیل‌های دیگری را نیز اجرا كردند. در این تحلیل‌ها از دو نوع نوشتار استفاده شد كه یك دهه پیش دنیل مك‌نامارای، روان‌شناس دانشگاه ممفیس، خلق كرده‌ است. این ابزار كه Coh-Metrix نام دارد، برای سنجش سختی متنی برای انسان كاربرد دارد و درك انسان از متن را مشخص می‌كند. این ابزار مبتنی‌بر نتایج مطالعات حوزه‌ی زبان‌شناسی محاسباتی است.

ابزار Coh-Metrix به لوی و همكارانش امكان می‌دهد دفعات تكرار متن خاص را بشمارند. برای مثال در متون طنز، استفاده از ضمیر اول شخص مفرد عنصری بسیار رایج است. درمقابل، اخبار جعلی معمولا از زبان سوم شخص و به‌طور مجهول نقل می‌شوند.

لوی و همكارانش از تكنیكی به‌نام principle component analysis بهره برده تا این تكرارها را شناسایی كند و طنز را از اخبار جعلی تشخیص دهد. این روش از BERT دقتی كمتر، اما شفافیتی بیشتر دارد. دقیق و توضیح‌پذیر بودن این روش مانند اكثر روش‌های یادگیری ماشین‌ امروزی است. لوی و همكارانش برای ادامه‌ی تحقیقاتشان با دیتاستی بسیار بزرگ‌تر از مقالات جعلی و طنز برنامه دارند.

تمام این تلاش‌ها به چه معنا است؟ این فناوری می‌تواند به بسیاری از مؤسسه‌ها و شركت‌ها مانند فیسبوك برای تشخیص اخبار طنز و جعلی از یكدیگر كمك كند. محققان می‌گویند تلاش آن‌ها با هدف مبارزه با اخبار دروغین و حراست از آزادی بیان است.

كمترین دستاورد این محققان آن است كه روش آن‌ها درمقایسه‌با روش‌های سابق كارایی و دقت بیشتری دارد. درپایان، برای شفاف‌سازی باید بگوییم ماشین‌ها هیچ‌گاه طنز را به‌گونه‌ای كه ما درك می‌كنیم، درك نخواهند كرد؛ اما می‌توانیم امیدوار باشیم در آینده‌ای نه‌چندان دور، از آن‌ها در شناسایی این متون بهره خواهیم جست.

دیدگاه شما درباره‌ی این موضوع چیست؟ آیا خواهیم توانست طنز را به‌طور كامل برای ماشین‌ ها تعریف كنیم؟ ماشین‌ها در درك طنز و زبان طبیعی انسان تا چه حدی پیشرفت خواهند كرد؟

نویسنده: مسعود ذاكری

منبع : زومیت
برگرفته از سایت شیرین طنز

دسترسی سریع