روشی برای بهبود تشخيص گفتار

پژوهشگران ایرانی موفق به ساخت دستگاه هوشمندی شدند که قادر خواهد بود از نوع گفتار افراد احساسات آن ها را ارزیابی کند.در این تحقیق میزان ادراک زنان و مردان و واکنش آن ها نسبت به این سیستم نیز مورد آزمایش قرار گرفته است.
تشخیص و بازشناسي احساس از روي گفتار، كاربردهاي مختلفي در سیستم‌های تعاملي انسان و ماشين دارد.به‌طور مثال چنین فرایندی می‌تواند عملكرد سیستم‌های تشخيص گفتار را بهبود بخشد. این فرایند همچنين در زمينه آموزش، بازی‌های كامپيوتري، پزشكي، روانشناسي و خودروهاي هوشمند كاربردهاي متنوعي دارد.

به گفته دانشمندان، اغلب ویژگی‌هایی كه براي بازشناسي احساس از روي گفتار به كار گرفته می‌شوند، می‌توانند در دو گروه «ویژگی‌های عروضي» و «ویژگی‌های طيفي» دسته‌بندی شوند. ویژگی‌های عروضي، بيشتر با لحن و ريتم گفتار در ارتباط هستند. اين ویژگی‌ها معمولاً از مشخصات آماري مربوط به منحنی‌های فركانس گام و انرژي صدا محاسبه می‌شوند و با دربرداشتن اطلاعات مهم احساسي، پركاربردترين ویژگی‌های اين حوزه به شمار می‌آیند. ولی ویژگی‌های طيفي كه از طيف سيگنال به دست می‌آیند در سال‌های اخير جايگاه ویژه‌ای پيدا کرده‌اند. اين ویژگی‌ها به‌عنوان مكمل ویژگی‌های عروضي نقش به سزايي در افزايش راندمان تشخيص احساس از روي گفتار داشته‌اند.

تشخیص و بازشناسي احساس از روي گفتار، كاربردهاي مختلفي در سیستم‌های تعاملي انسان و ماشين دارد، به‌طور مثال چنین فرایندی می‌تواند عملكرد سیستم‌های تشخيص گفتار را بهبود بخشد.

به تازگی محققینی از دانشگاه آزاد اسلامی واحد شاهرود، دانشگاه صنعتی شاهرود و دانشگاه سمنان، پژوهشی را به انجام رسانده‌اند که در آن سعی شده با استفاده از ویژگی‌های ديناميكي سیگنال صوتی صدای افراد به‌عنوان مکملی برای ویژگی‌های عروضی و طیفی، سیستمی طراحی شود تا بتواند احساس‌های عصبانيت، خوشحالي و همچنين خستگي را از احساس عادي افراد مجزا نموده و تشخیص دهد.

بدین منظور، محققین صداهای استخراج‌شده از زنان و مردان مختلف را با صداهای موجود در پايگاه داده احساسي آلماني برلين، مورد مقایسه علمی قرار داده‌اند. این پایگاه داده، شامل 535 جمله با 10 محتواي مختلف است كه توسط 10گوينده ( 5 زن و 5 مرد) در 7 احساس مختلف بيان شده‌اند. پايگاه داده‌ای فوق، به‌صورت رايگان از طريق اينترنت در اختيار عموم قرار دارد.

نتايج این مطالعه نشان داد که متوسط نرخ تشخيص احساس افراد در این سیستم، برای زنان بیشتر از مردان بوده است. به گفته محققین، سیستم فوق توانست حدود 96 درصد از موارد مربوط به احساسات زنان و 87 درصد از احساسات مردان را به‌درستی تشخیص دهد.

به گفته محققین فوق، نرخ تشخيص بيشتر زنان نسبت به مردان، به دليل ادراك و بروز بيشتر احساسات توسط زنان در گفتار معمول خود است. بااین‌حال، طبق نتایج حاصله، با در نظر گرفتن 301 جمله زنان و 234 جمله مردان، متوسط نرخ تشخيص کلی افراد، حدود 92 درصد ارزیابی شد.

حریمی و همکاران با اشاره به نتایج به‌دست‌آمده از پژوهش خود گفته‌اند: بر اساس نتايج آزمایش‌های ما، ویژگی‌های ديناميكي غیرخطی مربوط به صدا، حاوي اطلاعات مهمي از سطح جاذبه گفتار هستند.

به گفته این محققین، نتايج قابل توجهی از اين مقاله علمی قابل استحصال است: اول این‌که سیستم تشخیصی فوق که اصطلاحا «منحنی فضاي فاز بازسازی‌شده» نام دارد، ارتباط مهمي با احساس گفتار دارد، لذا به نظر می‌رسد این منحني، منبع خوبي براي استخراج ویژگی‌های مرتبط با احساس افراد باشد. دوم این‌که ویژگی‌های متداول عروضي و طيفي صدا براي جداسازي احساس‌ها بر اساس «سطح برانگيختگي» مناسب آن کاربرد دارند. حال‌آنکه اين ویژگی‌ها براي جداسازي احساس‌های با سطح برانگيختگي يكسان از كارايي لازم برخوردار نيستند. و بالاخره سوم این‌که، ویژگی‌های مستخرج از منحنی‌های مورداشاره، براي طبقه‌بندی احساس‌های عصبانيت، خوشحالي، خستگي و عادي كارآمد هستند.

گفتنی است نتایج این تحقیق در ﻣﺠﻠﻪ “مهندسی برق و مهندسی کامپیوتر ایران” وابسته به پژوهشكده برق جهاد دانشگاهي منتشر شده است.

منبع/شفاآنلاین

روشی برای بهبود تشخيص گفتار

اشتراک گذاری (چگونه میتوانید این مطلب را برای دیگران بفرستید)

ساختمان پزشکان