مجموعه داده فارسی سانا

به دلیل کمبود مجموعه‌داده‌های بزرگ و باکیفیت در زبان فارسی، مدل‌های زبانی در درک این زبان دچار ضعف هستند. وب منبعی غنی برای تولید داده‌های متنی به شمار می‌رود، اما به دلیل حجم بالا و سرعت زیاد انتشار محتوا، لازم است که دامنه‌ها به طور مداوم و سریع خزش شوند. همچنین برای بهبود کارایی مدل‌ها، پس از جمع‌آوری داده‌ها باید محتوای نویزی و نامرتبط از متن‌های مفید جدا شده و حذف گردد.

در این مجموعه‌داده، علاوه بر خزش سریع صفحات وب، محتوا توسط یک مدل هوش مصنوعی عمیق پردازش شده و متن مفید به طور خودکار استخراج می‌شود. استخراجگر به‌کاررفته کاملاً مستقل از ساختار صفحات وب عمل می‌کند؛ بنابراین بدون وابستگی به قالب یا طراحی سایت قادر است محتوای مفید دامنه‌های گوناگون را شناسایی و استخراج نماید.

نمودار فرآیند

جمع‌آوری داده از وب

دامنه‌های مختلف فارسی از سطح وب جمع‌آوری شدند و هر دامنه به‌صورت دستی توسط نیروی انسانی بررسی و از نظر موضوعی برچسب‌گذاری گردید. پس از مرحله ی برچسب‌زنی، این دامنه‌ها با استفاده از یک خزشگر توزیع‌شده با سرعت بسیار بالا خزش شده و محتوای صفحات آن‌ها توسط چندین استخراج‌گر به‌صورت موازی پردازش می‌شود.

تمیز کردن صفحات وب

با توجه به اینکه محتوای متنی صفحات وب معمولاً شامل نویز و بخش‌های غیرمرتبط مانند منوها، تبلیغات و عناصر تکراری است، استخراج متن اصلی صفحه از اهمیت زیادی برخوردار است. برای رفع این چالش، یک مدل شبکه ی عصبی عمیق ویژه زبان فارسی طراحی و پیاده‌سازی شد.

در میان صفحات خزش‌شده، برخی از آن‌ها فاقد محتوای متنی مفید بوده یا تنها شامل ساختارهایی مشابه منو و فهرستی از لینک‌ها هستند. برای حذف این نوع صفحات از مجموعه‌داده و جلوگیری از پردازش غیرضروری، یک مدل یادگیری ماشین جداگانه به کار گرفته شد.

ساختار داده

داده‌های جمع‌آوری‌شده در قالب JSON می‌باشد با ساختار زیر. بخش linkحاوی اطلاعات مربوط به خزش می‌باشد از جمله زمان خزش و دانلود صفحه، دامنه صفحه، لینک پدر صفحه و... می‌باشد. بخش data حاوی اطلاعات مربوط به محتوای صفحه می‌باشد.

{
  "link": {
    "id": "",
    "domain": "https://example.com",
    "category": "category 1",
    "url": "https://example.com/home/index",
    "depth": 2,
    "anchor": "",
    "referer": "https://example.com",
    "date": "Mon, 22 Sep 2025 12:53:17 GMT"
  },
  "data": {
    "version": 1,
    "main_content": "main content of the url",
    "markdown_content": "main content in markdown format",
    "url": "https://example.com/home/index",
    "create_date": "2025-05-25",
    "metadata": {
      "title": "title",
      "description": "description",
      "lang": "fa",
      "last_date": "2020-01-01",
      "keywords": [
        { "name": "keywords1", "source": "meta/oth" }
      ],
      "author": [
        { "name": "author1", "source": "meta/oth" }
      ],
      "page_type": "website"
    }
  }
}

دریافت مجموعه داده

مجموعه داده شرکت تحلیل‌گران هوشمند لیوراد بر روی آدرس زیر قرار گرفته است: https://huggingface.co/datasets/lioradCo/sana_dataset

دسترسی به این مجموعه داده نیازمند تأیید درخواست می‌باشد. جهت دریافت حق بهره‌برداری غیرتجاری، کافی است در پلتفرم Hugging Face دارای حساب کاربری باشید و درخواست دسترسی خود را ثبت نمایید.

آمار کلی از مجموعه داده

تعداد دامنه خزش‌شده
265
تعداد صفحات خزش‌شده
500,419
تعداد صفحات استخراج‌شده
422,218
صفحات فاقد متن
191,753
صفحات حاوی متن مفید
230,465
صفحات با محتوای یکتا
179,862
تعداد کل توکن‌ها
300,689,961
تعداد کل کاراکترها
929,332,077

لیست برخی از دامنه‌های خزش شده و آمار آن

ردیفآدرس دامنهتعداد صفحات خزش شدهتعداد صفحات استخراج شده
1president.ir35521875
2kanoon.ir46121044
3tasnimnews.com39392832
4gama.ir63624505
5jobinja.ir85253614
6mehrnews.com69931381
7soft98.ir214722671
8khamenei.ir62242419
9hamshahrionline.ir67625613
10e-estekhdam.com4526541
11digikala.com41732735

پردازش‌های انجام شده بر روی مجموعه داده

  • جایگزینی برخی از حروف و نشانه‌ها با حروف و نشانه‌های فارسی (مثل تبدیل دات به ممیز و …)
  • تبدیل اعداد فارسی و عربی به انگلیسی
  • حذف اعراب
  • حذف فاصله‌های اضافه و فاصله‌گذاری در پیشوندها (اعمال نیم‌فاصله)
  • جایگزینی برخی از کاراکترهای خاص یونیکد با معادل نرمال آن‌ها (برای مثال تبدیل ﷴ به محمد)
  • حذف برخی از کاراکترها و نشانه‌های خاص که کاربردی در پردازش متن ندارند (مثل ٞ یا ٔ)
  • حذف تکرارهای زائد حروف در کلماتی مثل «سلامممممم»
  • جدا کردن پیشوند «می» و «نمی» در افعال و چسباندن آن‌ها با نیم‌فاصله
  • حذف متن‌های تکراری