Giter VIP home page Giter VIP logo

mozilla-voice-fa's Introduction

جملات فارسی برای common voice

مجموعه ای از جملات به زبان فارسی برای پروژه common voice موزیلا

مشارکت:

برای کمک به پروژه متن باز common voice بنیاد موزیلا ما نیاز به جملاتی داریم که بعدا توسط دیگر فارسی زبان ها ضبط بشه و به دیتابیس اضافه بشه چند نکته در این مورد وجود داره که حتما باید رعایت بکنید.

دو راه برای نوشتن جمله ها وجود داره:

  • خود شما جملات رو بنویسید.

  • جملات موجود در سایت های عمومی(به دلیل مسائل کپی رایت) رو مرتب کنید و بنویسید.


۱. خود شما جملات رو بنویسید.

  • در حالت ایده آل، باید 5 ثانیه خواندن هر جمله (حداکثر 10 ثانیه) طول بکشه. بنابراین برای جملات تقریبا 5 تا 10 کلمه را هدف قرار دهید.

  • جملات 1 یا 2 کلمه‌ای نیز خوب است، اما نه برای همه جملات! سعی کنید ترکیب جملات کوتاه و متوسط داشته باشید، اما سعی کنید همه آنها را زیر 10 ثانیه خوانده شدن حفظ کنید

  • سعی کنید از کلمات مختلف استفاده کنید. این کار به غنی سازی واژگان ابزارهای یادگیری ماشین کمک خواهد کرد.

  • استفاده از جملات با نشانه های نگارشی(نقطه ؛ کاما وعلامت سوال) نیز عالی است، اما زیاد خود را درگیر ان نکنید

  • اگر زبان شما از هر نماد خاص استفاده می کند (به عنوان مثال ُ ، ِ ، َ ) این عالی است. با استفاده از نحوه تلفظ ان ها به فارسی، به دستگاه برای تشخیص صداهای مختلف کمک می کند.

  • سعی کنید اسم های مناسب (نام ها(محمد علی و ....) و نام های خانوادگی پر استفاده (محمدی احمدی و......) ، نام خیابان ها، مکان ها و غیره) را وارد کنید.

  • اعداد خوب هستند، اما لطفا عدد را به جای نوشتن ارقام به صورت حروف بنویسید (به عنوان مثال "پانصد و بیست و هفت" به جای "527")

۲. جملات موجود در سایت های عمومی(به دلیل مسائل کپی رایت) رو مرتب کنید و بنویسید.

  • بهترین منابع مورد نظر شما، پادکست ها، روزنامه ها، وبلاگ ها ، زیرنویس های فیلم و هر چیز دیگری است که ممکن است شامل مکالمات روزمره باشد.
  • جلسات دولتی، کتاب ها و مقالات نیز بسیار عالی است هرچند که متون رسمی کمتردر اولویت ماست.
  • متاسفانه ما هنوز نمی توانیم مقالات ویکیپدیا را داشته باشیم. بنابراین از آنجا کپی نکنید(مسائل کپی رایت).
  • دو منبع عالی برای بررسی عبارتند از: Crawl Common وOpen Subtitles. اگر هر مجموعه مشابهی را در زبان محلی خود پیدا کنید، عالی است

سخن آخر

این که هرچند مسائل کپی رایت در ایران جدی گرفته نمیشه اما شما سعی کنید اون ها رو رعایت کنید منابع بسیاری برای بهره گیری وجود داره و در اخر کیفیت مهم تر از کمیت هست

نحوه نوشتن جملات (هر سطر یک جمله)

علی به خانه رفت.

چرا ما اینجاییم؟

جامعه متن باز بسیار بزرگ است.

منبع: Common Voice

mozilla-voice-fa's People

Contributors

ali-abz avatar hkazazi avatar imanmoghimiq30 avatar jazyjayz avatar

Watchers

 avatar

Recommend Projects

  • React photo React

    A declarative, efficient, and flexible JavaScript library for building user interfaces.

  • Vue.js photo Vue.js

    🖖 Vue.js is a progressive, incrementally-adoptable JavaScript framework for building UI on the web.

  • Typescript photo Typescript

    TypeScript is a superset of JavaScript that compiles to clean JavaScript output.

  • TensorFlow photo TensorFlow

    An Open Source Machine Learning Framework for Everyone

  • Django photo Django

    The Web framework for perfectionists with deadlines.

  • D3 photo D3

    Bring data to life with SVG, Canvas and HTML. 📊📈🎉

Recommend Topics

  • javascript

    JavaScript (JS) is a lightweight interpreted programming language with first-class functions.

  • web

    Some thing interesting about web. New door for the world.

  • server

    A server is a program made to process requests and deliver data to clients.

  • Machine learning

    Machine learning is a way of modeling and interpreting data that allows a piece of software to respond intelligently.

  • Game

    Some thing interesting about game, make everyone happy.

Recommend Org

  • Facebook photo Facebook

    We are working to build community through open source technology. NB: members must have two-factor auth.

  • Microsoft photo Microsoft

    Open source projects and samples from Microsoft.

  • Google photo Google

    Google ❤️ Open Source for everyone.

  • D3 photo D3

    Data-Driven Documents codes.