استخراج خودکار کلمات کلیدی از متون فارسی
کد مقاله : 1027-AISCH (R1)
نویسندگان
فاطمه سلطان زاده *1، سید احمد افتخاری2، مرتضی رضایی شریف آبادی2، علیرضا خزاعلی3
1گروه زبانشناسی، دانشکده ادبیات و زبانهای خارجه، دانشگاه علامه طباطبایی، تهران
2مرکز تحقیقات کامپیوتری علوم اسلامی نور، تهران، ایران
3باشگاه پژوهشگران و نخبگان، دانشگاه علوم پزشکی آزاد اسلامی تهران، تهران
چکیده مقاله
استخراج کلمات کلیدی، استخراج خودکار مجموعه ای از اصطلاحات است که به بهترین شکل موضوع یک سند را توصیف می‌کنند. هدف پژوهش حاضر استخراج خودکار کلمات کلیدی از متون تخصصی به زبان فارسی است. سامانۀ طراحی شده در این پژوهش از روش TF-IDF در کنار قواعد زبانشناختی خاص زبان فارسی بهره می‌جوید. در این سامانه ابتدا کلمات و عبارات کاندیدا با توجه به محدودیتهای صرفی و نحوی انتخاب شده و سپس با استفاده از روش TF-IDF امتیازدهی می‌شوند و کلمات و عبارات با امتیاز بالا به عنوان کلمات کلیدی در نظر گرفته می‌شوند. به منظور ارزیابی سامانۀ استخراج کلمات کلیدی متون زبان فارسی پیکره‌ای تهیه شد که شامل شانزده کتاب دارای نمایۀ موضوعی است. تمامی کتب مذکور در حوزۀ علوم انسانی و علوم اسلامی همچون تاریخ، فلسفه، زبانشناسی، فقه و غیره می‌باشند. پیکرۀ حاصل حجمی معادل با 1010633 توکن دارد. نتایج ارزیابی این سامانه بر روی متون تخصصی حوزۀ علوم انسانی و اسلامی حاکی از این است که میانگین همساز دقت و بازخوانی این سامانه معادل با 8.98 است که تقریباً برابر با نمونۀ مشابه آن در زبان انگلیسی است.
کلیدواژه ها
پردازش زبان طبیعی، استخراج خودکار کلمات کلیدی، زبان فارسی، الگوریتم TF-IDF، نمایه موضوعی، پیکره زبانی
وضعیت: پذیرفته شده
login