loading...

noopa

بازدید : 260
يکشنبه 11 خرداد 1399 زمان : 10:00

مایکروسافت تحقیقات آسیا برای کشیدن متن به گفتار که نیاز به آموزش کمی دارد- تشویق می کند و نتایج واقع بینانه ای "فوق العاده" نشان می دهد.


کایل ویگرز در VentureBeat گفت الگوریتم های متن به گفتار متناسب نیستند و دیگران کاملاً توانمند هستند ، اما با این وجود ، تلاش تیم مایکروسافت هنوز نتیجه ای دارد.

عبدالله ماتلووب در دنیای اطلاعات دیجیتال : "تبدیل متن به گفتار با گذشت زمان بسیار هوشمندانه می شود ، اما اشکال این است که هنوز هم می توانید مقدار زیادی از زمان و منابع آموزشی را برای ساخت یک محصول با صدای طبیعی بگذرانید."

تحقیقات مایکروسافت و محققان چینی به دنبال راهی برای کاهش هزینه های زمان آموزش و منابع برای ایجاد خروجی با صدای طبیعی ، راه دیگری را برای تبدیل متن به گفتار کشف کردند.

فابین لنگ در مهندسی جالب : پاسخ آنها معلوم می شود متن به گفتار هوش مصنوعی با استفاده از 200 نمونه صدا (فقط 200) برای ایجاد گفتار صدایی واقعی برای مطابقت با رونوشت ها. لنگ گفت: "این به معنی تقریبا 20 دقیقه ارزش دارد."

این شرط تنها 200 کلیپ صوتی بود و رونوشت های مربوطه آنها را تحت تأثیر قرار Wiggers در VentureBeat قرار دادند . وی همچنین خاطرنشان كرد كه محققان یك سیستم هوش مصنوعی را ابداع كرده اند كه "یادگیری بدون نظارت را تقویت می كند. شاخه ای از یادگیری ماشینی كه دانش را از داده های آزمایش بدون برچسب ، طبقه بندی نشده و طبقه بندی نشده می گیرد."

مقاله آنها روی arXiv است. "تقریباً بدون نظارت متن به گفتار و تشخیص خودکار گفتار " توسط یی رن ، زو تان ، تائو شین ، شنگ ژائو ، ژو ژائو ، کراوات یان لیو است. انجمن های نویسنده دانشگاه ژجیانگ ، تحقیقات مایکروسافت و مرکز فناوری جستجوی مایکروسافت (STC) آسیا هستند.

در مقاله خود ، این تیم اعلام كرد كه TTS AI از دو مؤلفه كلیدی ، ترانسفورماتور و انكودركننده اتوماتیک مخلوط كننده ، استفاده می كند تا همه این كارها را انجام دهد.


200-جفت فقط "... به ویژه وقتی که دیگر وقت اشغال نشده یا هزینه ای در تنظیم ریخته گری یا چاپ حروف زیبا متحمل شده است ..."

یی رن و همکاران روش. "... به ویژه وقتی که دیگر وقت اشغال نشده یا هزینه ای در تنظیم ریخته گری یا چاپ حروف زیبا متحمل شده است ..."
مقاله ای در Edgy توسط Rechelle Fuertes گفت: از طریق ترانسفورماتورها ، هوش مصنوعی متن به گفتار مایکروسافت قادر به تشخیص گفتار یا متن به عنوان ورودی یا خروجی بود .



تایلر لی در Ubergizmo تعریفی از ترانسفورماتور ارائه داد: "ترانسفورماتورها ... شبکه های عصبی عمیقی هستند که برای تقلید نورونها در مغز ما طراحی شده اند ."

MathWorks تعریفی برای autododer داشت. "یک خودرمزگذار یک نوع از شبکه های عصبی مصنوعی مورد استفاده برای یادگیری اطلاعات کارآمد (رمزگذاری) در یک روش بدون نظارت است. هدف از یک رمز گذار خودکار است که برای یادگیری یک نمایش (رمزگذاری) برای مجموعه ای از داده ها، حذف نوفه خودرمزگذار معمولا یک نوع خودکارسازهایی که نادیده گرفته شده اند 'نویز' را در نمونه های ورودی فاسد آموزش ببینند. "

آیا نتایج آزمایش آنها نشان داده است که ایده آنها ارزش تعقیب دارد؟ "روش ما از نظر سطح قابل فهم سطح کلمه 99.84٪ و TOS 2.68 و TER 11.7٪ PER برای ASR [تشخیص خودکار گفتار] در مجموعه داده LJSpeech ، با اعمال تنها 200 داده گفتاری و متن زوجی (حدود 20 دقیقه صوتی) ، همراه با داده های گفتاری و متنی اضافی غیرمجاز. "

چرا این مهم است: این گزارش ممکن است متن را به گفتار در دسترس تر کند.

بیشتر بخوانید: پمپ های وکیوم

لانگ گفت: "محققان به طور مستمر در تلاشند تا سیستم را بهبود بخشند و امیدوارند كه در آینده حتی تولید یك گفتمان مادام العمر حتی كار كمتری نیز انجام دهد."

ویگگر گفت: این مقاله در کنفرانس بین المللی یادگیری ماشین ، در لانگ بیچ کالیفرنیا در اواخر سال جاری ارائه می شود و تیم قصد دارد این کد را در هفته های آینده منتشر کند.

در همین حال ، محققان هنوز در ارائه تحولات با داده های زوجی کمی از کار خود دور نیستند.

وی ادامه داد: "در این کار ، روش تقریباً نظارت نشده ای را برای متن به گفتار و تشخیص خودکار گفتار ارائه داده ایم ، که تنها به معدود داده های گفتاری و متنی زوج و داده های غیر جفت شده اضافی کمک می کند ... برای کار بعدی ، ما به سمت یادگیری بدون نظارت سوق می دهیم با استفاده از روشهای صرفاً اعمال فشار گفتار و متن ، بدون کمک سایر روشهای قبل از آموزش ، "

مایکروسافت تحقیقات آسیا برای کشیدن متن به گفتار که نیاز به آموزش کمی دارد- تشویق می کند و نتایج واقع بینانه ای "فوق العاده" نشان می دهد.


کایل ویگرز در VentureBeat گفت الگوریتم های متن به گفتار متناسب نیستند و دیگران کاملاً توانمند هستند ، اما با این وجود ، تلاش تیم مایکروسافت هنوز نتیجه ای دارد.

عبدالله ماتلووب در دنیای اطلاعات دیجیتال : "تبدیل متن به گفتار با گذشت زمان بسیار هوشمندانه می شود ، اما اشکال این است که هنوز هم می توانید مقدار زیادی از زمان و منابع آموزشی را برای ساخت یک محصول با صدای طبیعی بگذرانید."

تحقیقات مایکروسافت و محققان چینی به دنبال راهی برای کاهش هزینه های زمان آموزش و منابع برای ایجاد خروجی با صدای طبیعی ، راه دیگری را برای تبدیل متن به گفتار کشف کردند.

فابین لنگ در مهندسی جالب : پاسخ آنها معلوم می شود متن به گفتار هوش مصنوعی با استفاده از 200 نمونه صدا (فقط 200) برای ایجاد گفتار صدایی واقعی برای مطابقت با رونوشت ها. لنگ گفت: "این به معنی تقریبا 20 دقیقه ارزش دارد."

این شرط تنها 200 کلیپ صوتی بود و رونوشت های مربوطه آنها را تحت تأثیر قرار Wiggers در VentureBeat قرار دادند . وی همچنین خاطرنشان كرد كه محققان یك سیستم هوش مصنوعی را ابداع كرده اند كه "یادگیری بدون نظارت را تقویت می كند. شاخه ای از یادگیری ماشینی كه دانش را از داده های آزمایش بدون برچسب ، طبقه بندی نشده و طبقه بندی نشده می گیرد."

مقاله آنها روی arXiv است. "تقریباً بدون نظارت متن به گفتار و تشخیص خودکار گفتار " توسط یی رن ، زو تان ، تائو شین ، شنگ ژائو ، ژو ژائو ، کراوات یان لیو است. انجمن های نویسنده دانشگاه ژجیانگ ، تحقیقات مایکروسافت و مرکز فناوری جستجوی مایکروسافت (STC) آسیا هستند.

در مقاله خود ، این تیم اعلام كرد كه TTS AI از دو مؤلفه كلیدی ، ترانسفورماتور و انكودركننده اتوماتیک مخلوط كننده ، استفاده می كند تا همه این كارها را انجام دهد.


200-جفت فقط "... به ویژه وقتی که دیگر وقت اشغال نشده یا هزینه ای در تنظیم ریخته گری یا چاپ حروف زیبا متحمل شده است ..."

یی رن و همکاران روش. "... به ویژه وقتی که دیگر وقت اشغال نشده یا هزینه ای در تنظیم ریخته گری یا چاپ حروف زیبا متحمل شده است ..."
مقاله ای در Edgy توسط Rechelle Fuertes گفت: از طریق ترانسفورماتورها ، هوش مصنوعی متن به گفتار مایکروسافت قادر به تشخیص گفتار یا متن به عنوان ورودی یا خروجی بود .



تایلر لی در Ubergizmo تعریفی از ترانسفورماتور ارائه داد: "ترانسفورماتورها ... شبکه های عصبی عمیقی هستند که برای تقلید نورونها در مغز ما طراحی شده اند ."

MathWorks تعریفی برای autododer داشت. "یک خودرمزگذار یک نوع از شبکه های عصبی مصنوعی مورد استفاده برای یادگیری اطلاعات کارآمد (رمزگذاری) در یک روش بدون نظارت است. هدف از یک رمز گذار خودکار است که برای یادگیری یک نمایش (رمزگذاری) برای مجموعه ای از داده ها، حذف نوفه خودرمزگذار معمولا یک نوع خودکارسازهایی که نادیده گرفته شده اند 'نویز' را در نمونه های ورودی فاسد آموزش ببینند. "

آیا نتایج آزمایش آنها نشان داده است که ایده آنها ارزش تعقیب دارد؟ "روش ما از نظر سطح قابل فهم سطح کلمه 99.84٪ و TOS 2.68 و TER 11.7٪ PER برای ASR [تشخیص خودکار گفتار] در مجموعه داده LJSpeech ، با اعمال تنها 200 داده گفتاری و متن زوجی (حدود 20 دقیقه صوتی) ، همراه با داده های گفتاری و متنی اضافی غیرمجاز. "

چرا این مهم است: این گزارش ممکن است متن را به گفتار در دسترس تر کند.

بیشتر بخوانید: پمپ های وکیوم

لانگ گفت: "محققان به طور مستمر در تلاشند تا سیستم را بهبود بخشند و امیدوارند كه در آینده حتی تولید یك گفتمان مادام العمر حتی كار كمتری نیز انجام دهد."

ویگگر گفت: این مقاله در کنفرانس بین المللی یادگیری ماشین ، در لانگ بیچ کالیفرنیا در اواخر سال جاری ارائه می شود و تیم قصد دارد این کد را در هفته های آینده منتشر کند.

در همین حال ، محققان هنوز در ارائه تحولات با داده های زوجی کمی از کار خود دور نیستند.

وی ادامه داد: "در این کار ، روش تقریباً نظارت نشده ای را برای متن به گفتار و تشخیص خودکار گفتار ارائه داده ایم ، که تنها به معدود داده های گفتاری و متنی زوج و داده های غیر جفت شده اضافی کمک می کند ... برای کار بعدی ، ما به سمت یادگیری بدون نظارت سوق می دهیم با استفاده از روشهای صرفاً اعمال فشار گفتار و متن ، بدون کمک سایر روشهای قبل از آموزش ، "

نظرات این مطلب

تعداد صفحات : 0

درباره ما
موضوعات
آمار سایت
  • کل مطالب : 14
  • کل نظرات : 0
  • افراد آنلاین : 1
  • تعداد اعضا : 0
  • بازدید امروز : 5
  • بازدید کننده امروز : 1
  • باردید دیروز : 4
  • بازدید کننده دیروز : 0
  • گوگل امروز : 0
  • گوگل دیروز : 0
  • بازدید هفته : 12
  • بازدید ماه : 21
  • بازدید سال : 33
  • بازدید کلی : 3629
  • <
    پیوندهای روزانه
    آرشیو
    اطلاعات کاربری
    نام کاربری :
    رمز عبور :
  • فراموشی رمز عبور؟
  • خبر نامه


    معرفی وبلاگ به یک دوست


    ایمیل شما :

    ایمیل دوست شما :



    کدهای اختصاصی