Music Modelsstability-ai

معرفی و مستندات مدل هوش مصنوعی stable-audio

مستندات مدل تولید صوت stable-audio از stability-ai، ارائه شده توسط ای آی کار (AI-KAR)

معرفی و بررسی فنی

⚡ وضعیت پشتیبانی از زبان فارسی

این مدل از زبان فارسی به صورت ضعیف پشتیبانی می‌کند. برای دریافت بهترین نتیجه، استفاده از prompt های انگلیسی توصیه می‌شود.

مدل stable-audio یک مدل پیشرفته تولید صدا است که توسط Stability AI توسعه داده شده است. این مدل با هدف تولید قطعات صوتی با کیفیت بالا از طریق دریافت متن (prompt) طراحی شده است. به عبارت دیگر، شما می‌توانید با ارائه یک متن توصیفی، از این مدل بخواهید تا یک قطعه صوتی متناسب با آن متن تولید کند. این مدل می‌تواند برای تولید موسیقی، جلوه‌های صوتی، صداگذاری فیلم‌ها و بازی‌ها، و بسیاری کاربردهای دیگر مورد استفاده قرار گیرد. stable-audio با بهره‌گیری از تکنیک‌های پیشرفته یادگیری عمیق، قادر است صداهایی با جزئیات بالا و تنوع فراوان تولید کند. یکی از ویژگی‌های برجسته این مدل، توانایی کنترل دقیق بر روی پارامترهای مختلف صدا است. شما می‌توانید طول قطعه صوتی، سبک موسیقی، سازهای مورد استفاده، و بسیاری از جنبه‌های دیگر صدا را تعیین کنید. این امکان به شما اجازه می‌دهد تا صداهایی کاملاً سفارشی و متناسب با نیازهای خود تولید کنید. مدل stable-audio به طور مداوم در حال توسعه و بهبود است. Stability AI به طور منظم نسخه‌های جدیدی از این مدل را با قابلیت‌های بیشتر و کیفیت بالاتر منتشر می‌کند. این مدل به عنوان یک ابزار قدرتمند برای تولیدکنندگان محتوا، هنرمندان، و توسعه‌دهندگان بازی‌ها شناخته می‌شود. با استفاده از stable-audio، شما می‌توانید به سرعت و به آسانی صداهایی با کیفیت حرفه‌ای تولید کنید و ایده‌های خلاقانه خود را به واقعیت تبدیل کنید. این مدل از طریق API قابل دسترسی است و می‌توانید آن را در برنامه‌ها و پروژه‌های خود ادغام کنید. ای آی کار (AI-KAR) نیز امکانات و مستندات لازم برای استفاده از این مدل را فراهم کرده است.

مشخصات فنی (API References)

پارامتر	نوع	توضیحات و مقادیر
model	stringRequired	مدل مورد استفاده برای تولید صدا. مقدار ثابت stable-audio را بپذیرید. مقادیر مجاز (کلیک برای کپی):
prompt	stringRequired	متن ورودی (prompt) برای تولید صدا. این متن باید توصیف دقیقی از صدای مورد نظر ارائه دهد.
seconds_start	integer	نقطه شروع کلیپ صوتی برای تولید، بر حسب ثانیه. حداقل مقدار 1 و حداکثر مقدار 47 است.
seconds_total	integer	مدت زمان کلیپ صوتی برای تولید، بر حسب ثانیه. حداقل مقدار 1 و حداکثر مقدار 47 است. مقدار پیش‌فرض 30 است.
steps	integer	تعداد مراحل برای حذف نویز از صدا. حداقل مقدار 1 و حداکثر مقدار 1000 است. مقدار پیش‌فرض 100 است.

نمونه کدهای درخواست

نکته مهم برای توسعه‌دهندگان:

برای احراز هویت، حتما کلید API خود را جایگزین YOUR_API_KEY کنید. هدر Authorization الزامی است.

import requests

url = "https://api.ai-kar.com/v1/v2/generate/audio"

payload = {
    "model": "stable-audio",
    "prompt": "A relaxing piano melody"
}
headers = {
    "Authorization": "Bearer YOUR_API_KEY",
    "Content-Type": "application/json"
}

response = requests.post(url, json=payload, headers=headers)

print(response.json())

نمونه پاسخ موفق (JSON)

RESPONSE (200 OK)

{
  "id": "text",
  "status": "queued"
}