مجموعه داده فارسی سانا
به دلیل کمبود مجموعهدادههای بزرگ و باکیفیت در زبان فارسی، مدلهای زبانی در درک این زبان دچار ضعف هستند. وب منبعی غنی برای تولید دادههای متنی به شمار میرود، اما به دلیل حجم بالا و سرعت زیاد انتشار محتوا، لازم است که دامنهها به طور مداوم و سریع خزش شوند. همچنین برای بهبود کارایی مدلها، پس از جمعآوری دادهها باید محتوای نویزی و نامرتبط از متنهای مفید جدا شده و حذف گردد.
در این مجموعهداده، علاوه بر خزش سریع صفحات وب، محتوا توسط یک مدل هوش مصنوعی عمیق پردازش شده و متن مفید به طور خودکار استخراج میشود. استخراجگر بهکاررفته کاملاً مستقل از ساختار صفحات وب عمل میکند؛ بنابراین بدون وابستگی به قالب یا طراحی سایت قادر است محتوای مفید دامنههای گوناگون را شناسایی و استخراج نماید.

جمعآوری داده از وب
دامنههای مختلف فارسی از سطح وب جمعآوری شدند و هر دامنه بهصورت دستی توسط نیروی انسانی بررسی و از نظر موضوعی برچسبگذاری گردید. پس از مرحله ی برچسبزنی، این دامنهها با استفاده از یک خزشگر توزیعشده با سرعت بسیار بالا خزش شده و محتوای صفحات آنها توسط چندین استخراجگر بهصورت موازی پردازش میشود.
تمیز کردن صفحات وب
با توجه به اینکه محتوای متنی صفحات وب معمولاً شامل نویز و بخشهای غیرمرتبط مانند منوها، تبلیغات و عناصر تکراری است، استخراج متن اصلی صفحه از اهمیت زیادی برخوردار است. برای رفع این چالش، یک مدل شبکه ی عصبی عمیق ویژه زبان فارسی طراحی و پیادهسازی شد.
در میان صفحات خزششده، برخی از آنها فاقد محتوای متنی مفید بوده یا تنها شامل ساختارهایی مشابه منو و فهرستی از لینکها هستند. برای حذف این نوع صفحات از مجموعهداده و جلوگیری از پردازش غیرضروری، یک مدل یادگیری ماشین جداگانه به کار گرفته شد.
ساختار داده
دادههای جمعآوریشده در قالب JSON میباشد با ساختار زیر. بخش linkحاوی اطلاعات مربوط به خزش میباشد از جمله زمان خزش و دانلود صفحه، دامنه صفحه، لینک پدر صفحه و... میباشد. بخش data حاوی اطلاعات مربوط به محتوای صفحه میباشد.
{
"link": {
"id": "",
"domain": "https://example.com",
"category": "category 1",
"url": "https://example.com/home/index",
"depth": 2,
"anchor": "",
"referer": "https://example.com",
"date": "Mon, 22 Sep 2025 12:53:17 GMT"
},
"data": {
"version": 1,
"main_content": "main content of the url",
"markdown_content": "main content in markdown format",
"url": "https://example.com/home/index",
"create_date": "2025-05-25",
"metadata": {
"title": "title",
"description": "description",
"lang": "fa",
"last_date": "2020-01-01",
"keywords": [
{ "name": "keywords1", "source": "meta/oth" }
],
"author": [
{ "name": "author1", "source": "meta/oth" }
],
"page_type": "website"
}
}
}دریافت مجموعه داده
مجموعه داده شرکت تحلیلگران هوشمند لیوراد بر روی آدرس زیر قرار گرفته است: https://huggingface.co/datasets/lioradCo/sana_dataset
دسترسی به این مجموعه داده نیازمند تأیید درخواست میباشد. جهت دریافت حق بهرهبرداری غیرتجاری، کافی است در پلتفرم Hugging Face دارای حساب کاربری باشید و درخواست دسترسی خود را ثبت نمایید.
آمار کلی از مجموعه داده
لیست برخی از دامنههای خزش شده و آمار آن
| ردیف | آدرس دامنه | تعداد صفحات خزش شده | تعداد صفحات استخراج شده |
|---|---|---|---|
| 1 | president.ir | 3552 | 1875 |
| 2 | kanoon.ir | 4612 | 1044 |
| 3 | tasnimnews.com | 3939 | 2832 |
| 4 | gama.ir | 6362 | 4505 |
| 5 | jobinja.ir | 8525 | 3614 |
| 6 | mehrnews.com | 6993 | 1381 |
| 7 | soft98.ir | 21472 | 2671 |
| 8 | khamenei.ir | 6224 | 2419 |
| 9 | hamshahrionline.ir | 6762 | 5613 |
| 10 | e-estekhdam.com | 4526 | 541 |
| 11 | digikala.com | 4173 | 2735 |
پردازشهای انجام شده بر روی مجموعه داده
- جایگزینی برخی از حروف و نشانهها با حروف و نشانههای فارسی (مثل تبدیل دات به ممیز و …)
- تبدیل اعداد فارسی و عربی به انگلیسی
- حذف اعراب
- حذف فاصلههای اضافه و فاصلهگذاری در پیشوندها (اعمال نیمفاصله)
- جایگزینی برخی از کاراکترهای خاص یونیکد با معادل نرمال آنها (برای مثال تبدیل ﷴ به محمد)
- حذف برخی از کاراکترها و نشانههای خاص که کاربردی در پردازش متن ندارند (مثل ٞ یا ٔ)
- حذف تکرارهای زائد حروف در کلماتی مثل «سلامممممم»
- جدا کردن پیشوند «می» و «نمی» در افعال و چسباندن آنها با نیمفاصله
- حذف متنهای تکراری