مجموعه داده فارسی سانا

به دلیل کمبود مجموعه‌داده‌های بزرگ و باکیفیت در زبان فارسی، مدل‌های زبانی در درک این زبان دچار ضعف هستند. وب منبعی غنی برای تولید داده‌های متنی به شمار می‌رود، اما به دلیل حجم بالا و سرعت زیاد انتشار محتوا، لازم است که دامنه‌ها به طور مداوم و سریع خزش شوند. همچنین برای بهبود کارایی مدل‌ها، پس از جمع‌آوری داده‌ها باید محتوای نویزی و نامرتبط از متن‌های مفید جدا شده و حذف گردد.

در این مجموعه‌داده، علاوه بر خزش سریع صفحات وب، محتوا توسط یک مدل هوش مصنوعی عمیق پردازش شده و متن مفید به طور خودکار استخراج می‌شود. استخراجگر به‌کاررفته کاملاً مستقل از ساختار صفحات وب عمل می‌کند؛ بنابراین بدون وابستگی به قالب یا طراحی سایت قادر است محتوای مفید دامنه‌های گوناگون را شناسایی و استخراج نماید.

جمع‌آوری داده از وب

دامنه‌های مختلف فارسی از سطح وب جمع‌آوری شدند و هر دامنه به‌صورت دستی توسط نیروی انسانی بررسی و از نظر موضوعی برچسب‌گذاری گردید. پس از مرحله ی برچسب‌زنی، این دامنه‌ها با استفاده از یک خزشگر توزیع‌شده با سرعت بسیار بالا خزش شده و محتوای صفحات آن‌ها توسط چندین استخراج‌گر به‌صورت موازی پردازش می‌شود.

تمیز کردن صفحات وب

با توجه به اینکه محتوای متنی صفحات وب معمولاً شامل نویز و بخش‌های غیرمرتبط مانند منوها، تبلیغات و عناصر تکراری است، استخراج متن اصلی صفحه از اهمیت زیادی برخوردار است. برای رفع این چالش، یک مدل شبکه ی عصبی عمیق ویژه زبان فارسی طراحی و پیاده‌سازی شد.

در میان صفحات خزش‌شده، برخی از آن‌ها فاقد محتوای متنی مفید بوده یا تنها شامل ساختارهایی مشابه منو و فهرستی از لینک‌ها هستند. برای حذف این نوع صفحات از مجموعه‌داده و جلوگیری از پردازش غیرضروری، یک مدل یادگیری ماشین جداگانه به کار گرفته شد.

ساختار داده

داده‌های جمع‌آوری‌شده در قالب JSON می‌باشد با ساختار زیر. بخش linkحاوی اطلاعات مربوط به خزش می‌باشد از جمله زمان خزش و دانلود صفحه، دامنه صفحه، لینک پدر صفحه و... می‌باشد. بخش data حاوی اطلاعات مربوط به محتوای صفحه می‌باشد.

{
  "link": {
    "id": "",
    "domain": "https://example.com",
    "category": "category 1",
    "url": "https://example.com/home/index",
    "depth": 2,
    "anchor": "",
    "referer": "https://example.com",
    "date": "Mon, 22 Sep 2025 12:53:17 GMT"
  },
  "data": {
    "version": 1,
    "main_content": "main content of the url",
    "markdown_content": "main content in markdown format",
    "url": "https://example.com/home/index",
    "create_date": "2025-05-25",
    "metadata": {
      "title": "title",
      "description": "description",
      "lang": "fa",
      "last_date": "2020-01-01",
      "keywords": [
        { "name": "keywords1", "source": "meta/oth" }
      ],
      "author": [
        { "name": "author1", "source": "meta/oth" }
      ],
      "page_type": "website"
    }
  }
}

دریافت مجموعه داده

مجموعه داده شرکت تحلیل‌گران هوشمند لیوراد بر روی آدرس زیر قرار گرفته است: https://huggingface.co/datasets/lioradCo/sana_dataset

دسترسی به این مجموعه داده نیازمند تأیید درخواست می‌باشد. جهت دریافت حق بهره‌برداری غیرتجاری، کافی است در پلتفرم Hugging Face دارای حساب کاربری باشید و درخواست دسترسی خود را ثبت نمایید.

آمار کلی از مجموعه داده

تعداد دامنه خزش‌شده

265

تعداد صفحات خزش‌شده

500,419

تعداد صفحات استخراج‌شده

422,218

صفحات فاقد متن

191,753

صفحات حاوی متن مفید

230,465

صفحات با محتوای یکتا

179,862

تعداد کل توکن‌ها

300,689,961

تعداد کل کاراکترها

929,332,077

لیست برخی از دامنه‌های خزش شده و آمار آن

ردیف	آدرس دامنه	تعداد صفحات خزش شده	تعداد صفحات استخراج شده
1	president.ir	3552	1875
2	kanoon.ir	4612	1044
3	tasnimnews.com	3939	2832
4	gama.ir	6362	4505
5	jobinja.ir	8525	3614
6	mehrnews.com	6993	1381
7	soft98.ir	21472	2671
8	khamenei.ir	6224	2419
9	hamshahrionline.ir	6762	5613
10	e-estekhdam.com	4526	541
11	digikala.com	4173	2735

پردازش‌های انجام شده بر روی مجموعه داده

جایگزینی برخی از حروف و نشانه‌ها با حروف و نشانه‌های فارسی (مثل تبدیل دات به ممیز و …)
تبدیل اعداد فارسی و عربی به انگلیسی
حذف اعراب
حذف فاصله‌های اضافه و فاصله‌گذاری در پیشوندها (اعمال نیم‌فاصله)
جایگزینی برخی از کاراکترهای خاص یونیکد با معادل نرمال آن‌ها (برای مثال تبدیل ﷴ به محمد)
حذف برخی از کاراکترها و نشانه‌های خاص که کاربردی در پردازش متن ندارند (مثل ٞ یا ٔ)
حذف تکرارهای زائد حروف در کلماتی مثل «سلامممممم»
جدا کردن پیشوند «می» و «نمی» در افعال و چسباندن آن‌ها با نیم‌فاصله
حذف متن‌های تکراری