Voice/Speech ModelsmicrosoftText-to-Speech

معرفی و مستندات مدل هوش مصنوعی vibevoice-7b

مستندات مدل تولید صدای vibevoice-7b از Microsoft، ارائه شده توسط ای آی کار (AI-KAR).

معرفی و بررسی فنی

⚡ وضعیت پشتیبانی از زبان فارسی

این مدل از زبان فارسی به صورت متوسط پشتیبانی می‌کند. برای دریافت بهترین نتیجه، توصیه می‌شود از متن انگلیسی استفاده کنید.

مدل vibevoice-7b از Microsoft یک مدل هوش مصنوعی پیشرفته برای تولید صدا از متن است. این مدل با داشتن 7 میلیارد پارامتر، قادر است مکالمات چند گوینده‌ای غنی و طبیعی را از متن تولید کند. این ویژگی آن را برای تولید پادکست‌ها، کتاب‌های صوتی، محتوای آموزشی و سایر محتواهای صوتی طولانی بسیار مناسب می‌سازد. مدل vibevoice-7b با استفاده از تکنیک‌های پیشرفته یادگیری عمیق، قادر است لحن، آهنگ و احساسات مختلف را در صدا شبیه‌سازی کند و تجربه‌ای شنیداری جذاب و واقع‌گرایانه را برای مخاطبان فراهم آورد. این مدل می‌تواند سناریوهای مختلفی را پوشش دهد، از جمله مکالمات دوستانه، مصاحبه‌ها، داستان‌گویی و حتی تولید صدا برای شخصیت‌های مجازی. یکی از ویژگی‌های برجسته این مدل، قابلیت کنترل دقیق بر روی صدای تولید شده است. کاربران می‌توانند با تنظیم پارامترهای مختلف، ویژگی‌های صدا مانند سرعت، زیر و بم، و حجم را تغییر دهند و صدایی مطابق با نیازهای خود تولید کنند. همچنین، این مدل از فرمت‌های مختلف صوتی پشتیبانی می‌کند و امکان ذخیره و به اشتراک‌گذاری آسان فایل‌های صوتی تولید شده را فراهم می‌سازد. با استفاده از مدل vibevoice-7b، تولیدکنندگان محتوا می‌توانند به راحتی و با هزینه کم، محتوای صوتی با کیفیت بالا تولید کنند و مخاطبان خود را درگیر کنند. این مدل یک ابزار قدرتمند برای خلاقیت و نوآوری در زمینه تولید محتوای صوتی است و می‌تواند به طور گسترده در صنایع مختلف مورد استفاده قرار گیرد. این مدل توسط شرکت Microsoft توسعه داده شده و به عنوان یک راهکار پیشرفته در زمینه تولید صدای مصنوعی شناخته می‌شود. با توجه به قابلیت‌های گسترده و کیفیت بالای صدای تولید شده، مدل vibevoice-7b یک انتخاب عالی برای تولیدکنندگان محتوا، توسعه‌دهندگان نرم‌افزار و سایر افرادی است که به دنبال یک راهکار قدرتمند و کارآمد برای تولید صدا از متن هستند. این مدل به طور مداوم در حال بهبود و توسعه است و انتظار می‌رود در آینده قابلیت‌های جدیدی به آن اضافه شود.

مشخصات فنی (API References)

پارامترنوعتوضیحات و مقادیر
model
stringRequired
مدل مورد استفاده برای تبدیل متن به گفتار. مقدار ثابت microsoft/vibevoice-7b را بپذیرید.
مقادیر مجاز (کلیک برای کپی):
script
stringRequired
متنی که باید به گفتار تبدیل شود. می‌تواند با پیشوندهای "Speaker X:" برای دیالوگ‌های چند گوینده‌ای قالب‌بندی شود. حداقل طول: 1 کاراکتر، حداکثر طول: 5000 کاراکتر.
speakers
object[]
لیستی از گویندگان برای استفاده در متن. اگر ارائه نشود، از متن یا نمونه‌های صدا استنباط می‌شود. حداقل 1 و حداکثر 4 گوینده.
seed
integer
اگر مشخص شود، سیستم ما تمام تلاش خود را می‌کند تا به طور قطعی نمونه‌برداری کند، به طوری که درخواست‌های مکرر با همان seed و پارامترها باید نتیجه یکسانی را برگردانند. قطعیت تضمین نمی‌شود.
cfg_scale
number
مقیاس CFG (Classifier Free Guidance) معیاری است از اینکه چقدر می‌خواهید مدل به درخواست شما پایبند باشد. حداقل: 0.1، حداکثر: 2. مقدار پیش‌فرض: 1.3

نمونه کدهای درخواست

نکته مهم برای توسعه‌دهندگان:

برای احراز هویت، حتما کلید API خود را جایگزین YOUR_API_KEY کنید. هدر Authorization الزامی است.

import os
import requests

def main():
    url = "https://api.ai-kar.com/v1/tts"
    headers = {
        "Authorization": "Bearer <YOUR_AI-KARAPI_KEY>",
    }
    payload = {
        "model": "microsoft/vibevoice-7b",
        "script": "Speaker 1: Wow, whats happening, Alice? \nSpeaker 2: Oh, just the usual… a full-blown AI revolution. Nothing to worry about",
        "speakers": [
            {
                "preset": "Frank [EN]"
            },
            {
                "preset": "Alice [EN]"
            }
        ]
    }
    try:
        response = requests.post(url, headers=headers, json=payload)
        response.raise_for_status()
        response_data = response.json()
        audio_url = response_data["audio"]["url"]
        file_name = response_data["audio"]["file_name"]
        audio_response = requests.get(audio_url, stream=True)
        audio_response.raise_for_status()
        # Save with the original file extension from the API
        # dist = os.path.join(os.path.dirname(__file__), file_name)  # if you run this code as a .py file
        dist = "audio.wav"  # if you run this code in Jupyter Notebook
        with open(dist, "wb") as write_stream:
            for chunk in audio_response.iter_content(chunk_size=8192):
                if chunk:
                    write_stream.write(chunk)
        print("Audio saved to:", dist)
        print(f"Duration: {response_data['duration']} seconds")
        print(f"Sample rate: {response_data['sample_rate']} Hz")
    except requests.exceptions.RequestException as e:
        print(f"Error making request: {e}")
    except Exception as e:
        print(f"Error: {e}")


if __name__ == "__main__":
    main()

نمونه پاسخ موفق (JSON)

RESPONSE (200 OK)
{
  "metadata": {
    "transaction_key": "text",
    "request_id": "text",
    "sha256": "text",
    "created": "2025-11-24T16:38:56.484Z",
    "duration": 1,
    "channels": 1,
    "models": [
      "text"
    ],
    "model_info": {
      "ANY_ADDITIONAL_PROPERTY": {
        "name": "text",
        "version": "text",
        "arch": "text"
      }
    }
  }
}