Voice/Speech ModelsmicrosoftText-to-Speech
معرفی و مستندات مدل هوش مصنوعی vibevoice-7b
مستندات مدل تولید صدای vibevoice-7b از Microsoft، ارائه شده توسط ای آی کار (AI-KAR).
معرفی و بررسی فنی
⚡ وضعیت پشتیبانی از زبان فارسی
این مدل از زبان فارسی به صورت متوسط پشتیبانی میکند. برای دریافت بهترین نتیجه، توصیه میشود از متن انگلیسی استفاده کنید.
مدل vibevoice-7b از Microsoft یک مدل هوش مصنوعی پیشرفته برای تولید صدا از متن است. این مدل با داشتن 7 میلیارد پارامتر، قادر است مکالمات چند گویندهای غنی و طبیعی را از متن تولید کند. این ویژگی آن را برای تولید پادکستها، کتابهای صوتی، محتوای آموزشی و سایر محتواهای صوتی طولانی بسیار مناسب میسازد. مدل vibevoice-7b با استفاده از تکنیکهای پیشرفته یادگیری عمیق، قادر است لحن، آهنگ و احساسات مختلف را در صدا شبیهسازی کند و تجربهای شنیداری جذاب و واقعگرایانه را برای مخاطبان فراهم آورد. این مدل میتواند سناریوهای مختلفی را پوشش دهد، از جمله مکالمات دوستانه، مصاحبهها، داستانگویی و حتی تولید صدا برای شخصیتهای مجازی. یکی از ویژگیهای برجسته این مدل، قابلیت کنترل دقیق بر روی صدای تولید شده است. کاربران میتوانند با تنظیم پارامترهای مختلف، ویژگیهای صدا مانند سرعت، زیر و بم، و حجم را تغییر دهند و صدایی مطابق با نیازهای خود تولید کنند. همچنین، این مدل از فرمتهای مختلف صوتی پشتیبانی میکند و امکان ذخیره و به اشتراکگذاری آسان فایلهای صوتی تولید شده را فراهم میسازد. با استفاده از مدل vibevoice-7b، تولیدکنندگان محتوا میتوانند به راحتی و با هزینه کم، محتوای صوتی با کیفیت بالا تولید کنند و مخاطبان خود را درگیر کنند. این مدل یک ابزار قدرتمند برای خلاقیت و نوآوری در زمینه تولید محتوای صوتی است و میتواند به طور گسترده در صنایع مختلف مورد استفاده قرار گیرد. این مدل توسط شرکت Microsoft توسعه داده شده و به عنوان یک راهکار پیشرفته در زمینه تولید صدای مصنوعی شناخته میشود. با توجه به قابلیتهای گسترده و کیفیت بالای صدای تولید شده، مدل vibevoice-7b یک انتخاب عالی برای تولیدکنندگان محتوا، توسعهدهندگان نرمافزار و سایر افرادی است که به دنبال یک راهکار قدرتمند و کارآمد برای تولید صدا از متن هستند. این مدل به طور مداوم در حال بهبود و توسعه است و انتظار میرود در آینده قابلیتهای جدیدی به آن اضافه شود.
مشخصات فنی (API References)
| پارامتر | نوع | توضیحات و مقادیر |
|---|---|---|
model | stringRequired | مدل مورد استفاده برای تبدیل متن به گفتار. مقدار ثابت microsoft/vibevoice-7b را بپذیرید. مقادیر مجاز (کلیک برای کپی): |
script | stringRequired | متنی که باید به گفتار تبدیل شود. میتواند با پیشوندهای "Speaker X:" برای دیالوگهای چند گویندهای قالببندی شود. حداقل طول: 1 کاراکتر، حداکثر طول: 5000 کاراکتر. |
speakers | object[] | لیستی از گویندگان برای استفاده در متن. اگر ارائه نشود، از متن یا نمونههای صدا استنباط میشود. حداقل 1 و حداکثر 4 گوینده. |
seed | integer | اگر مشخص شود، سیستم ما تمام تلاش خود را میکند تا به طور قطعی نمونهبرداری کند، به طوری که درخواستهای مکرر با همان seed و پارامترها باید نتیجه یکسانی را برگردانند. قطعیت تضمین نمیشود. |
cfg_scale | number | مقیاس CFG (Classifier Free Guidance) معیاری است از اینکه چقدر میخواهید مدل به درخواست شما پایبند باشد. حداقل: 0.1، حداکثر: 2. مقدار پیشفرض: 1.3 |
نمونه کدهای درخواست
نکته مهم برای توسعهدهندگان:
برای احراز هویت، حتما کلید API خود را جایگزین YOUR_API_KEY کنید. هدر Authorization الزامی است.
import os
import requests
def main():
url = "https://api.ai-kar.com/v1/tts"
headers = {
"Authorization": "Bearer <YOUR_AI-KARAPI_KEY>",
}
payload = {
"model": "microsoft/vibevoice-7b",
"script": "Speaker 1: Wow, whats happening, Alice? \nSpeaker 2: Oh, just the usual… a full-blown AI revolution. Nothing to worry about",
"speakers": [
{
"preset": "Frank [EN]"
},
{
"preset": "Alice [EN]"
}
]
}
try:
response = requests.post(url, headers=headers, json=payload)
response.raise_for_status()
response_data = response.json()
audio_url = response_data["audio"]["url"]
file_name = response_data["audio"]["file_name"]
audio_response = requests.get(audio_url, stream=True)
audio_response.raise_for_status()
# Save with the original file extension from the API
# dist = os.path.join(os.path.dirname(__file__), file_name) # if you run this code as a .py file
dist = "audio.wav" # if you run this code in Jupyter Notebook
with open(dist, "wb") as write_stream:
for chunk in audio_response.iter_content(chunk_size=8192):
if chunk:
write_stream.write(chunk)
print("Audio saved to:", dist)
print(f"Duration: {response_data['duration']} seconds")
print(f"Sample rate: {response_data['sample_rate']} Hz")
except requests.exceptions.RequestException as e:
print(f"Error making request: {e}")
except Exception as e:
print(f"Error: {e}")
if __name__ == "__main__":
main()نمونه پاسخ موفق (JSON)
RESPONSE (200 OK)
{
"metadata": {
"transaction_key": "text",
"request_id": "text",
"sha256": "text",
"created": "2025-11-24T16:38:56.484Z",
"duration": 1,
"channels": 1,
"models": [
"text"
],
"model_info": {
"ANY_ADDITIONAL_PROPERTY": {
"name": "text",
"version": "text",
"arch": "text"
}
}
}
}