Voice/Speech ModelsmicrosoftText-to-Speech

معرفی و مستندات مدل هوش مصنوعی vibevoice-1.5b

مستندات مدل تولید صدای vibevoice-1.5b از Microsoft، ارائه شده توسط ای آی کار (AI-KAR).

معرفی و بررسی فنی

⚡ وضعیت پشتیبانی از زبان فارسی

این مدل از زبان فارسی به صورت متوسط پشتیبانی می‌کند. برای دریافت بهترین نتیجه، توصیه می‌شود از متون انگلیسی استفاده کنید.

مدل vibevoice-1.5b از Microsoft، یک مدل پیشرفته تولید صدا است که برای تولید مکالمات غنی و چند گوینده‌ای از متن طراحی شده است. این مدل برای تولید پادکست‌ها و سایر محتواهای صوتی طولانی مناسب است. با استفاده از این مدل، می‌توانید متن خود را به گفتاری طبیعی و جذاب تبدیل کنید. این مدل قابلیت پشتیبانی از چندین گوینده را دارد و می‌تواند مکالمات واقعی و پویا را شبیه‌سازی کند. این مدل با استفاده از تکنیک‌های پیشرفته یادگیری عمیق آموزش داده شده است و قادر است صداهایی با کیفیت بالا و طبیعی تولید کند. همچنین، این مدل قابلیت تنظیم پارامترهای مختلف صدا را دارد، به طوری که می‌توانید صدا را بر اساس نیازهای خود سفارشی کنید. برای مثال، می‌توانید سرعت، زیر و بم، و حجم صدا را تنظیم کنید. این مدل به خوبی برای تولید محتوای آموزشی، تبلیغاتی، و سرگرمی مناسب است. با استفاده از این مدل، می‌توانید محتوای صوتی جذاب و حرفه‌ای تولید کنید که مخاطبان شما را جذب کند. این مدل از طریق API قابل دسترسی است و می‌توانید آن را به راحتی در برنامه‌های خود ادغام کنید. برای شروع کار با این مدل، کافی است یک کلید API دریافت کنید و سپس از طریق API به مدل دسترسی پیدا کنید. این مدل به طور مداوم در حال بهبود است و ما به طور منظم ویژگی‌های جدیدی را به آن اضافه می‌کنیم. هدف ما این است که این مدل را به بهترین ابزار تولید صدا در جهان تبدیل کنیم. این مدل می‌تواند برای تولید کتاب‌های صوتی، مقالات صوتی، و سایر محتواهای صوتی استفاده شود. همچنین، این مدل می‌تواند برای تولید صداهای سفارشی برای بازی‌ها و برنامه‌های کاربردی استفاده شود. با استفاده از این مدل، می‌توانید صداهایی با کیفیت بالا و طبیعی تولید کنید که تجربه کاربری را بهبود بخشد. این مدل از تکنولوژی‌های پیشرفته پردازش زبان طبیعی (NLP) بهره می‌برد تا متن را به طور دقیق تحلیل کند و صداهایی با کیفیت بالا تولید کند. این مدل قادر است لهجه‌ها و سبک‌های مختلف گفتاری را شبیه‌سازی کند و صداهایی با تنوع بالا تولید کند.

مشخصات فنی (API References)

پارامتر	نوع	توضیحات و مقادیر
model	stringRequired	مدلی که برای تبدیل متن به گفتار استفاده می‌شود. مقادیر مجاز (کلیک برای کپی):
script	stringRequired	متنی که باید به گفتار تبدیل شود. می‌تواند با پیشوندهای "Speaker X:" برای مکالمات چند گوینده‌ای قالب‌بندی شود. حداقل طول: 1 کاراکتر، حداکثر طول: 5000 کاراکتر.
speakers	object[]	لیستی از گویندگان برای استفاده در متن. اگر ارائه نشود، از متن یا نمونه‌های صوتی استنباط می‌شود. حداقل: 1، حداکثر: 4.
seed	integer	اگر مشخص شود، سیستم ما تمام تلاش خود را می‌کند تا به طور قطعی نمونه‌برداری کند، به طوری که درخواست‌های مکرر با همان seed و پارامترها باید نتیجه یکسانی را برگردانند. قطعیت تضمین نمی‌شود.
cfg_scale	number	مقیاس CFG (Classifier Free Guidance) معیاری است از اینکه چقدر می‌خواهید مدل به درخواست شما پایبند باشد. حداقل: 0.1، حداکثر: 2. مقدار پیش‌فرض: 1.3.

نمونه کدهای درخواست

نکته مهم برای توسعه‌دهندگان:

برای احراز هویت، حتما کلید API خود را جایگزین YOUR_API_KEY کنید. هدر Authorization الزامی است.

import os
import requests

def main():
    url = "https://api.ai-kar.com/v1/tts"
    headers = {
        "Authorization": "Bearer <YOUR_AI-KARAPI_KEY>",
    }
    payload = {
        "model": "microsoft/vibevoice-1.5b",
        "script": "Speaker 1: Wow, whats happening, Alice? \nSpeaker 2: Oh, just the usual… a full-blown AI revolution. Nothing to worry about",
        "speakers": [
            {
                "preset": "Frank [EN]"
            },
            {
                "preset": "Alice [EN]"
            }
        ]
    }
    try:
        response = requests.post(url, headers=headers, json=payload)
        response.raise_for_status()
        response_data = response.json()
        audio_url = response_data["audio"]["url"]
        file_name = response_data["audio"]["file_name"]
        audio_response = requests.get(audio_url, stream=True)
        audio_response.raise_for_status()
        # Save with the original file extension from the API
        # dist = os.path.join(os.path.dirname(__file__), file_name)  # if you run this code as a .py file
        dist = "audio.wav"  # if you run this code in Jupyter Notebook
        with open(dist, "wb") as write_stream:
            for chunk in audio_response.iter_content(chunk_size=8192):
                if chunk:
                    write_stream.write(chunk)
        print("Audio saved to:", dist)
        print(f"Duration: {response_data['duration']} seconds")
        print(f"Sample rate: {response_data['sample_rate']} Hz")
    except requests.exceptions.RequestException as e:
        print(f"Error making request: {e}")
    except Exception as e:
        print(f"Error: {e}")


if __name__ == "__main__":
    main()

نمونه پاسخ موفق (JSON)

RESPONSE (200 OK)

{
  "metadata": {
    "transaction_key": "text",
    "request_id": "text",
    "sha256": "text",
    "created": "2025-11-24T16:42:22.099Z",
    "duration": 1,
    "channels": 1,
    "models": [
      "text"
    ],
    "model_info": {
      "ANY_ADDITIONAL_PROPERTY": {
        "name": "text",
        "version": "text",
        "arch": "text"
      }
    }
  }
}