Voice/Speech ModelsmicrosoftText-to-Speech
معرفی و مستندات مدل هوش مصنوعی vibevoice-1.5b
مستندات مدل تولید صدای vibevoice-1.5b از Microsoft، ارائه شده توسط ای آی کار (AI-KAR).
معرفی و بررسی فنی
⚡ وضعیت پشتیبانی از زبان فارسی
این مدل از زبان فارسی به صورت متوسط پشتیبانی میکند. برای دریافت بهترین نتیجه، توصیه میشود از متون انگلیسی استفاده کنید.
مدل vibevoice-1.5b از Microsoft، یک مدل پیشرفته تولید صدا است که برای تولید مکالمات غنی و چند گویندهای از متن طراحی شده است. این مدل برای تولید پادکستها و سایر محتواهای صوتی طولانی مناسب است. با استفاده از این مدل، میتوانید متن خود را به گفتاری طبیعی و جذاب تبدیل کنید. این مدل قابلیت پشتیبانی از چندین گوینده را دارد و میتواند مکالمات واقعی و پویا را شبیهسازی کند. این مدل با استفاده از تکنیکهای پیشرفته یادگیری عمیق آموزش داده شده است و قادر است صداهایی با کیفیت بالا و طبیعی تولید کند. همچنین، این مدل قابلیت تنظیم پارامترهای مختلف صدا را دارد، به طوری که میتوانید صدا را بر اساس نیازهای خود سفارشی کنید. برای مثال، میتوانید سرعت، زیر و بم، و حجم صدا را تنظیم کنید. این مدل به خوبی برای تولید محتوای آموزشی، تبلیغاتی، و سرگرمی مناسب است. با استفاده از این مدل، میتوانید محتوای صوتی جذاب و حرفهای تولید کنید که مخاطبان شما را جذب کند. این مدل از طریق API قابل دسترسی است و میتوانید آن را به راحتی در برنامههای خود ادغام کنید. برای شروع کار با این مدل، کافی است یک کلید API دریافت کنید و سپس از طریق API به مدل دسترسی پیدا کنید. این مدل به طور مداوم در حال بهبود است و ما به طور منظم ویژگیهای جدیدی را به آن اضافه میکنیم. هدف ما این است که این مدل را به بهترین ابزار تولید صدا در جهان تبدیل کنیم. این مدل میتواند برای تولید کتابهای صوتی، مقالات صوتی، و سایر محتواهای صوتی استفاده شود. همچنین، این مدل میتواند برای تولید صداهای سفارشی برای بازیها و برنامههای کاربردی استفاده شود. با استفاده از این مدل، میتوانید صداهایی با کیفیت بالا و طبیعی تولید کنید که تجربه کاربری را بهبود بخشد. این مدل از تکنولوژیهای پیشرفته پردازش زبان طبیعی (NLP) بهره میبرد تا متن را به طور دقیق تحلیل کند و صداهایی با کیفیت بالا تولید کند. این مدل قادر است لهجهها و سبکهای مختلف گفتاری را شبیهسازی کند و صداهایی با تنوع بالا تولید کند.
مشخصات فنی (API References)
| پارامتر | نوع | توضیحات و مقادیر |
|---|---|---|
model | stringRequired | مدلی که برای تبدیل متن به گفتار استفاده میشود. مقادیر مجاز (کلیک برای کپی): |
script | stringRequired | متنی که باید به گفتار تبدیل شود. میتواند با پیشوندهای "Speaker X:" برای مکالمات چند گویندهای قالببندی شود. حداقل طول: 1 کاراکتر، حداکثر طول: 5000 کاراکتر. |
speakers | object[] | لیستی از گویندگان برای استفاده در متن. اگر ارائه نشود، از متن یا نمونههای صوتی استنباط میشود. حداقل: 1، حداکثر: 4. |
seed | integer | اگر مشخص شود، سیستم ما تمام تلاش خود را میکند تا به طور قطعی نمونهبرداری کند، به طوری که درخواستهای مکرر با همان seed و پارامترها باید نتیجه یکسانی را برگردانند. قطعیت تضمین نمیشود. |
cfg_scale | number | مقیاس CFG (Classifier Free Guidance) معیاری است از اینکه چقدر میخواهید مدل به درخواست شما پایبند باشد. حداقل: 0.1، حداکثر: 2. مقدار پیشفرض: 1.3. |
نمونه کدهای درخواست
نکته مهم برای توسعهدهندگان:
برای احراز هویت، حتما کلید API خود را جایگزین YOUR_API_KEY کنید. هدر Authorization الزامی است.
import os
import requests
def main():
url = "https://api.ai-kar.com/v1/tts"
headers = {
"Authorization": "Bearer <YOUR_AI-KARAPI_KEY>",
}
payload = {
"model": "microsoft/vibevoice-1.5b",
"script": "Speaker 1: Wow, whats happening, Alice? \nSpeaker 2: Oh, just the usual… a full-blown AI revolution. Nothing to worry about",
"speakers": [
{
"preset": "Frank [EN]"
},
{
"preset": "Alice [EN]"
}
]
}
try:
response = requests.post(url, headers=headers, json=payload)
response.raise_for_status()
response_data = response.json()
audio_url = response_data["audio"]["url"]
file_name = response_data["audio"]["file_name"]
audio_response = requests.get(audio_url, stream=True)
audio_response.raise_for_status()
# Save with the original file extension from the API
# dist = os.path.join(os.path.dirname(__file__), file_name) # if you run this code as a .py file
dist = "audio.wav" # if you run this code in Jupyter Notebook
with open(dist, "wb") as write_stream:
for chunk in audio_response.iter_content(chunk_size=8192):
if chunk:
write_stream.write(chunk)
print("Audio saved to:", dist)
print(f"Duration: {response_data['duration']} seconds")
print(f"Sample rate: {response_data['sample_rate']} Hz")
except requests.exceptions.RequestException as e:
print(f"Error making request: {e}")
except Exception as e:
print(f"Error: {e}")
if __name__ == "__main__":
main()نمونه پاسخ موفق (JSON)
RESPONSE (200 OK)
{
"metadata": {
"transaction_key": "text",
"request_id": "text",
"sha256": "text",
"created": "2025-11-24T16:42:22.099Z",
"duration": 1,
"channels": 1,
"models": [
"text"
],
"model_info": {
"ANY_ADDITIONAL_PROPERTY": {
"name": "text",
"version": "text",
"arch": "text"
}
}
}
}