نویسنده: مسعود ذاكری
ماشین ها تقریبا هیچچیزی نمیفهمند و طنز نیز از این قاعده مستثنی نیست؛ اما یادگیری ماشین شاید بتواند ما را در تغییر این وضعیت یاری دهد.
بسیاری از ظرافتهای نوشتار، ازجمله طنز ، در اینترنت از بین میرود؛ بههمیندلیل، مطالب طنز مانند مطالب اندی بورویتز در مجلهی نیویوركر باید برچسب «طنز» بخورند تا مطمئن شوند طنزبودن آن را درك خواهیم كرد.
در سالهای اخیر، دانشمندان نگران این موضوع شدهاند كه چه چیزی در نوشتار بهدرستی درك نمیشود كه طنز بهجای حقیقت و اطلاعات نادرست بهجای طنز سوءبرداشت میشود؟ ازاینرو، تلاشی جهانی برای توسعهی نوعی از فناوری یادگیری ماشین شكل گرفت كه بتواند طنز را از دروغهای ظریف تمییز دهد.
درحقیقت، ماشین چیز زیادی درك نمیكند و بهطور قطع طنز نیز جزو استثناءها نیست؛ اما همین ماشینها ممكن است بتوانند جنبههای متمایز نوشتار طنز را اندازهگیری و به شناسایی اخبار دروغین در اینترنت كمك كنند.
اخیرا محققان استارتاپ AdVerifai و دانشگاه جورج واشنگتن آمریكا و بخش كلاد Amazon AWS مقالهای در كنفرانس روشهای تجربی در پردازش زبان طبیعی سال 2019 هنگكنگ ارائه كردهاند.
این مقاله كه شناسایی تفاوتهای ظریف میان اخبار جعلی و طنز : استفاده از سرنخهای معنایی و زبانی نام دارد، براساس سالها مدلسازی از تفاوتهای میان اخبار جعلی و گمراهكننده و مقالههای خبری غیردقیق از یك سو و طنز از سوی دیگر حاصل شده است. مقالهی مذكور در كارگاه سانسور و اطلاعات اشتباه و تبلیغات سیاسی ارائه شد.
طبق نظر نویسندهی ارشد این مقاله، آر. لوی از AdVerifai، نگرانی اساسی این است كه تفاوت قائلشدن میان طنز و اخبار جعلی در عمل میتواند بسیار سخت باشد. این یعنی طنز قانونی ممكن است با اطلاعات گمراهكننده اشتباه گرفته شود؛ زیرا این نوع اطلاعات از فرمی شبیه به طنز برای پوشش خود استفاده میكنند.
ایدهی كلی این تحقیق آن است كه با وجود طنزبودن یك نوشته، رگههایی از منطق و دانش در آن دیده شده و جامعه نیاز دارد به نوشتار طنز با دیدی دقیقتر و ماشینیتر بنگرد.
تمامی تلاشهای پیشین برای تمایز میان طنز و اخبار ساختگی، از روشهای سادهی یادگیری ماشین بهره بردهاند كه با استفاده از مجموعهای از كلمات، جنبهی بسیار سادهای از نوشتار را بررسی میكنند. برای مثال، در مطالعهای كه محققان دانشگاه انتاریو غربی در سال 2016 انجام دادند، سعی شد سیستم خودكار تشخیص طنز ایجاد شود. در این روش، به ویژگیهای خاصی توجه میشد.
برای نمونه، آیا در جملهی نهایی مقاله ارجاعی به اشخاص و اماكن وجود دارد و درصورت وجود، آیا با سایر ارجاعات مقاله مغایرت دارد یا خیر. ایدهی استفاده از این روش آن است كه ارجاعات ناگهانی و دور از انتظار میتواند نشانهی ابزورد و سرنخی از طنز باشد. به زبان ساده، این روش گشتن میان تعارضها و براساس تئوریهای كارشناسان زبانشناسی، دربارهی چگونگی خلق طنز است.
در روشی كه لوی و همكارانش در پیش گرفتهاند، یادگیری ماشین اندكی پیشتر رفته و از ابزار بسیار محبوب پردازش زبان طبیعی BERT گوگل استفاده شده است. این ابزار شبكهی یادگیری عمیقی است كه در آزمایشهای متعدد درك زبان در سالهای اخیر دستاوردهای درخورتوجهی داشته است.
این محققان نسخهای از قبل تمریندادهشده از BERT را با ستونی از مقالات منتشرشده طنز و جعلی بهبود بخشیدهاند. این دیتاست سال گذشته در دانشگاه مریلند ساخته شد و مشتمل بر 283 مقالهی خبری جعلی و 203 مقالهی طنز دربارهی سیاست ایالات متحده در بازه زمانی ژانویه 2016 تا اكتبر 2017 است. تمامی این مقالهها را انسانها بهعنوان طنز یا جعلی دستهبندی كردند.
لوی و همكارانش دریافتند BERT در تشخیص طنز یا جعلیبودن مقالات عملكرد بسیار خوبی دارد و در آزمایشها نیز از روش مرسوم پیشین كارایی بسیار بیشتری دارد؛ بااینحال، چگونگی این امر هنوز جای سؤال است. درست است BERT بهترین نتایج را میدهد؛ اما این نتایج بهراحتی دركپذیر نیست. طبق فرضیات، نوعی از تشخیص الگوی معنایی در BERT جریان دارد؛ ولی همچنان با قاطعیت نمیتوان آن را شرح داد.
برای حل این مشكل، محققان تحلیلهای دیگری را نیز اجرا كردند. در این تحلیلها از دو نوع نوشتار استفاده شد كه یك دهه پیش دنیل مكنامارای، روانشناس دانشگاه ممفیس، خلق كرده است. این ابزار كه Coh-Metrix نام دارد، برای سنجش سختی متنی برای انسان كاربرد دارد و درك انسان از متن را مشخص میكند. این ابزار مبتنیبر نتایج مطالعات حوزهی زبانشناسی محاسباتی است.
ابزار Coh-Metrix به لوی و همكارانش امكان میدهد دفعات تكرار متن خاص را بشمارند. برای مثال در متون طنز، استفاده از ضمیر اول شخص مفرد عنصری بسیار رایج است. درمقابل، اخبار جعلی معمولا از زبان سوم شخص و بهطور مجهول نقل میشوند.
لوی و همكارانش از تكنیكی بهنام principle component analysis بهره برده تا این تكرارها را شناسایی كند و طنز را از اخبار جعلی تشخیص دهد. این روش از BERT دقتی كمتر، اما شفافیتی بیشتر دارد. دقیق و توضیحپذیر بودن این روش مانند اكثر روشهای یادگیری ماشین امروزی است. لوی و همكارانش برای ادامهی تحقیقاتشان با دیتاستی بسیار بزرگتر از مقالات جعلی و طنز برنامه دارند.
تمام این تلاشها به چه معنا است؟ این فناوری میتواند به بسیاری از مؤسسهها و شركتها مانند فیسبوك برای تشخیص اخبار طنز و جعلی از یكدیگر كمك كند. محققان میگویند تلاش آنها با هدف مبارزه با اخبار دروغین و حراست از آزادی بیان است.
كمترین دستاورد این محققان آن است كه روش آنها درمقایسهبا روشهای سابق كارایی و دقت بیشتری دارد. درپایان، برای شفافسازی باید بگوییم ماشینها هیچگاه طنز را بهگونهای كه ما درك میكنیم، درك نخواهند كرد؛ اما میتوانیم امیدوار باشیم در آیندهای نهچندان دور، از آنها در شناسایی این متون بهره خواهیم جست.
دیدگاه شما دربارهی این موضوع چیست؟ آیا خواهیم توانست طنز را بهطور كامل برای ماشین ها تعریف كنیم؟ ماشینها در درك طنز و زبان طبیعی انسان تا چه حدی پیشرفت خواهند كرد؟
نویسنده: مسعود ذاكری
منبع : زومیت
برگرفته از سایت شیرین طنز