استخراج خودکار کلمات کلیدی از متون فارسی |
کد مقاله : 1027-AISCH (R1) |
نویسندگان |
فاطمه سلطان زاده *1، سید احمد افتخاری2، مرتضی رضایی شریف آبادی2، علیرضا خزاعلی3 1گروه زبانشناسی، دانشکده ادبیات و زبانهای خارجه، دانشگاه علامه طباطبایی، تهران 2مرکز تحقیقات کامپیوتری علوم اسلامی نور، تهران، ایران 3باشگاه پژوهشگران و نخبگان، دانشگاه علوم پزشکی آزاد اسلامی تهران، تهران |
چکیده مقاله |
استخراج کلمات کلیدی، استخراج خودکار مجموعه ای از اصطلاحات است که به بهترین شکل موضوع یک سند را توصیف میکنند. هدف پژوهش حاضر استخراج خودکار کلمات کلیدی از متون تخصصی به زبان فارسی است. سامانۀ طراحی شده در این پژوهش از روش TF-IDF در کنار قواعد زبانشناختی خاص زبان فارسی بهره میجوید. در این سامانه ابتدا کلمات و عبارات کاندیدا با توجه به محدودیتهای صرفی و نحوی انتخاب شده و سپس با استفاده از روش TF-IDF امتیازدهی میشوند و کلمات و عبارات با امتیاز بالا به عنوان کلمات کلیدی در نظر گرفته میشوند. به منظور ارزیابی سامانۀ استخراج کلمات کلیدی متون زبان فارسی پیکرهای تهیه شد که شامل شانزده کتاب دارای نمایۀ موضوعی است. تمامی کتب مذکور در حوزۀ علوم انسانی و علوم اسلامی همچون تاریخ، فلسفه، زبانشناسی، فقه و غیره میباشند. پیکرۀ حاصل حجمی معادل با 1010633 توکن دارد. نتایج ارزیابی این سامانه بر روی متون تخصصی حوزۀ علوم انسانی و اسلامی حاکی از این است که میانگین همساز دقت و بازخوانی این سامانه معادل با 8.98 است که تقریباً برابر با نمونۀ مشابه آن در زبان انگلیسی است. |
کلیدواژه ها |
پردازش زبان طبیعی، استخراج خودکار کلمات کلیدی، زبان فارسی، الگوریتم TF-IDF، نمایه موضوعی، پیکره زبانی |
وضعیت: پذیرفته شده |