Text Models (LLM)openai
معرفی و مستندات مدل هوش مصنوعی gpt-4o-audio-preview
مستندات مدل gpt-4o-audio-preview از ای آی کار (AI-KAR)
معرفی و بررسی فنی
⚡ وضعیت پشتیبانی از زبان فارسی
این مدل از زبان فارسی به صورت متوسط پشتیبانی میکند. درک متون فارسی در سطح قابل قبولی است، اما ممکن است در تولید پاسخهای صوتی به زبان فارسی با مشکلاتی مواجه شود.
مدل gpt-4o-audio-preview یک مدل متنی است که از ورودیهای صوتی پشتیبانی میکند و قادر به تولید پاسخهای صوتی است. این توسعه، پتانسیل برنامههای کاربردی هوش مصنوعی را در تعاملات متنی و صوتی و تحلیل صدا افزایش میدهد. شما میتوانید از طیف گستردهای از فرمتهای صوتی برای خروجی انتخاب کنید و صدایی که مدل برای پاسخهای صوتی استفاده میکند را مشخص کنید.
این مدل امکانات جدیدی را در اختیار توسعهدهندگان قرار میدهد تا بتوانند برنامههایی با قابلیتهای صوتی پیشرفته ایجاد کنند. به عنوان مثال، میتوان از این مدل برای تولید پادکستها، پاسخگویی به سوالات کاربران با استفاده از صدا، و یا تحلیل محتوای صوتی استفاده کرد.
یکی از ویژگیهای برجسته این مدل، امکان تعیین صدای مورد استفاده برای پاسخهای صوتی است. این امکان به توسعهدهندگان اجازه میدهد تا صدای مناسب با نوع برنامه و مخاطبان خود را انتخاب کنند. همچنین، پشتیبانی از فرمتهای مختلف صوتی، انعطافپذیری بیشتری را در استفاده از این مدل فراهم میکند.
برای استفاده از این مدل، ابتدا باید یک کلید API از ای آی کار (AI-KAR) دریافت کنید. سپس میتوانید با استفاده از API، درخواستهای خود را به مدل ارسال کنید و پاسخهای متنی یا صوتی دریافت کنید. در درخواستهای خود، میتوانید پارامترهای مختلفی را تنظیم کنید، از جمله فرمت صوتی خروجی، صدای مورد استفاده، و حداکثر تعداد توکنهای تولید شده.
مدل gpt-4o-audio-preview یک ابزار قدرتمند برای توسعه برنامههای کاربردی هوش مصنوعی با قابلیتهای صوتی است. با استفاده از این مدل، میتوانید تجربههای کاربری جذاب و نوآورانهای را ایجاد کنید. این مدل به ویژه برای برنامههایی که نیاز به تعامل صوتی با کاربران دارند، بسیار مناسب است. به عنوان مثال، میتوان از این مدل در برنامههای آموزش زبان، دستیارهای صوتی، و یا سیستمهای پاسخگویی خودکار استفاده کرد.
این مدل نه تنها قادر به تولید پاسخهای صوتی است، بلکه میتواند ورودیهای صوتی را نیز پردازش کند. این امکان به توسعهدهندگان اجازه میدهد تا برنامههایی ایجاد کنند که میتوانند دستورات صوتی کاربران را درک کرده و به آنها پاسخ دهند. این ویژگی به ویژه برای برنامههایی که در محیطهای پر سر و صدا استفاده میشوند، بسیار مفید است.
در نهایت، مدل gpt-4o-audio-preview یک گام بزرگ در جهت توسعه هوش مصنوعی صوتی است. این مدل امکانات جدیدی را در اختیار توسعهدهندگان قرار میدهد و پتانسیل برنامههای کاربردی هوش مصنوعی را در این زمینه افزایش میدهد.
این مدل امکانات جدیدی را در اختیار توسعهدهندگان قرار میدهد تا بتوانند برنامههایی با قابلیتهای صوتی پیشرفته ایجاد کنند. به عنوان مثال، میتوان از این مدل برای تولید پادکستها، پاسخگویی به سوالات کاربران با استفاده از صدا، و یا تحلیل محتوای صوتی استفاده کرد.
یکی از ویژگیهای برجسته این مدل، امکان تعیین صدای مورد استفاده برای پاسخهای صوتی است. این امکان به توسعهدهندگان اجازه میدهد تا صدای مناسب با نوع برنامه و مخاطبان خود را انتخاب کنند. همچنین، پشتیبانی از فرمتهای مختلف صوتی، انعطافپذیری بیشتری را در استفاده از این مدل فراهم میکند.
برای استفاده از این مدل، ابتدا باید یک کلید API از ای آی کار (AI-KAR) دریافت کنید. سپس میتوانید با استفاده از API، درخواستهای خود را به مدل ارسال کنید و پاسخهای متنی یا صوتی دریافت کنید. در درخواستهای خود، میتوانید پارامترهای مختلفی را تنظیم کنید، از جمله فرمت صوتی خروجی، صدای مورد استفاده، و حداکثر تعداد توکنهای تولید شده.
مدل gpt-4o-audio-preview یک ابزار قدرتمند برای توسعه برنامههای کاربردی هوش مصنوعی با قابلیتهای صوتی است. با استفاده از این مدل، میتوانید تجربههای کاربری جذاب و نوآورانهای را ایجاد کنید. این مدل به ویژه برای برنامههایی که نیاز به تعامل صوتی با کاربران دارند، بسیار مناسب است. به عنوان مثال، میتوان از این مدل در برنامههای آموزش زبان، دستیارهای صوتی، و یا سیستمهای پاسخگویی خودکار استفاده کرد.
این مدل نه تنها قادر به تولید پاسخهای صوتی است، بلکه میتواند ورودیهای صوتی را نیز پردازش کند. این امکان به توسعهدهندگان اجازه میدهد تا برنامههایی ایجاد کنند که میتوانند دستورات صوتی کاربران را درک کرده و به آنها پاسخ دهند. این ویژگی به ویژه برای برنامههایی که در محیطهای پر سر و صدا استفاده میشوند، بسیار مفید است.
در نهایت، مدل gpt-4o-audio-preview یک گام بزرگ در جهت توسعه هوش مصنوعی صوتی است. این مدل امکانات جدیدی را در اختیار توسعهدهندگان قرار میدهد و پتانسیل برنامههای کاربردی هوش مصنوعی را در این زمینه افزایش میدهد.
مشخصات فنی (API References)
| پارامتر | نوع | توضیحات و مقادیر |
|---|---|---|
model | stringRequired | مدل مورد استفاده. باید `gpt-4o-audio-preview` باشد. مقادیر مجاز (کلیک برای کپی): |
messages | one of[]Required | لیستی از پیامها که مکالمه را تا کنون تشکیل میدهند. بسته به مدلی که استفاده میکنید، انواع مختلف پیام ( modalities ) مانند متن، اسناد (txt, pdf)، تصاویر و صدا پشتیبانی میشوند. |
max_completion_tokens | integer | حد بالایی برای تعداد توکنهایی که میتوان برای تکمیل تولید کرد، از جمله توکنهای خروجی قابل مشاهده و توکنهای استدلال. حداقل مقدار: 1 |
max_tokens | number | حداکثر تعداد توکنهایی که میتوان در تکمیل چت تولید کرد. این مقدار میتواند برای کنترل هزینههای متن تولید شده از طریق API استفاده شود. حداقل مقدار: 1 |
stream | boolean | اگر روی True تنظیم شود، دادههای پاسخ مدل به صورت جریانی با استفاده از رویدادهای ارسال شده توسط سرور به کلاینت ارسال میشوند. مقدار پیشفرض: false |
stream_options | object | تنظیمات مربوط به جریان داده. |
tools | object[] | لیستی از ابزارهایی که مدل ممکن است فراخوانی کند. در حال حاضر، فقط توابع به عنوان ابزار پشتیبانی میشوند. از این برای ارائه لیستی از توابعی استفاده کنید که مدل ممکن است ورودیهای JSON را برای آنها تولید کند. حداکثر 128 تابع پشتیبانی میشود. |
tool_choice | any of | کنترل میکند که کدام ابزار (در صورت وجود) توسط مدل فراخوانی شود. `none` به این معنی است که مدل هیچ ابزاری را فراخوانی نمیکند و در عوض یک پیام تولید میکند. `auto` به این معنی است که مدل میتواند بین تولید یک پیام یا فراخوانی یک یا چند ابزار انتخاب کند. `required` به این معنی است که مدل باید یک یا چند ابزار را فراخوانی کند. تعیین یک ابزار خاص از طریق `{"type": "function", "function": {"name": "my_function"}}` مدل را مجبور میکند تا آن ابزار را فراخوانی کند. `none` مقدار پیشفرض است زمانی که هیچ ابزاری وجود نداشته باشد. `auto` مقدار پیشفرض است اگر ابزارها وجود داشته باشند. مقادیر مجاز (کلیک برای کپی): |
parallel_tool_calls | boolean | فعال کردن فراخوانی موازی توابع در هنگام استفاده از ابزار. |
n | integer | nullable | تعداد انتخابهای تکمیل چت که برای هر پیام ورودی باید تولید شود. توجه داشته باشید که هزینه بر اساس تعداد توکنهای تولید شده در تمام انتخابها محاسبه میشود. `n` را روی 1 نگه دارید تا هزینهها به حداقل برسد. |
logit_bias | object | nullable | احتمال ظاهر شدن توکنهای مشخص شده در تکمیل را تغییر میدهد. یک شی JSON را میپذیرد که توکنها (مشخص شده توسط شناسه توکن آنها در توکنساز) را به یک مقدار بایاس مرتبط از -100 تا 100 نگاشت میکند. از نظر ریاضی، بایاس به logits تولید شده توسط مدل قبل از نمونهبرداری اضافه میشود. اثر دقیق برای هر مدل متفاوت خواهد بود، اما مقادیر بین -1 و 1 باید احتمال انتخاب را کاهش یا افزایش دهند. مقادیری مانند -100 یا 100 باید منجر به ممنوعیت یا انتخاب انحصاری توکن مربوطه شوند. |
frequency_penalty | number | nullable | عدد بین -2.0 و 2.0. مقادیر مثبت، توکنهای جدید را بر اساس فراوانی موجود آنها در متن تا کنون جریمه میکنند و احتمال تکرار عین به عین همان خط توسط مدل را کاهش میدهند. |
presence_penalty | number | nullable | مقادیر مثبت، توکنهای جدید را بر اساس اینکه آیا در متن تا کنون ظاهر شدهاند جریمه میکنند و احتمال صحبت کردن مدل در مورد موضوعات جدید را افزایش میدهند. |
seed | integer | این ویژگی در حالت بتا است. اگر مشخص شود، سیستم ما تمام تلاش خود را میکند تا به صورت قطعی نمونهبرداری کند، به طوری که درخواستهای مکرر با همان seed و پارامترها باید نتیجه یکسانی را برگردانند. حداقل مقدار: 1 |
temperature | number | از چه دمای نمونهبرداری استفاده شود. مقادیر بالاتر مانند 0.8 خروجی را تصادفیتر میکنند، در حالی که مقادیر پایینتر مانند 0.2 آن را متمرکزتر و قطعیتر میکنند. ما به طور کلی توصیه میکنیم این یا top_p را تغییر دهید، اما نه هر دو را. |
top_p | number | جایگزینی برای نمونهبرداری با دما، به نام نمونهبرداری هستهای، که در آن مدل نتایج توکنها را با جرم احتمال top_p در نظر میگیرد. بنابراین 0.1 به این معنی است که فقط توکنهایی که شامل 10٪ جرم احتمال برتر هستند در نظر گرفته میشوند. ما به طور کلی توصیه میکنیم این یا دما را تغییر دهید، اما نه هر دو را. حداقل مقدار: 0.01، حداکثر مقدار: 1 |
audio | object | nullable | پارامترها برای خروجی صوتی. هنگامی که خروجی صوتی با modalities: ["audio"] درخواست میشود، الزامی است. |
modalities | string · enum[] | nullable | انواع خروجی که میخواهید مدل تولید کند. اکثر مدلها قادر به تولید متن هستند، که مقدار پیشفرض است: ["text"] مدل gpt-4o-audio-preview همچنین میتواند برای تولید صدا استفاده شود. برای درخواست اینکه این مدل هم پاسخهای متنی و هم صوتی تولید کند، میتوانید از این استفاده کنید: ["text", "audio"] مقادیر مجاز (کلیک برای کپی): |
نمونه کدهای درخواست
نکته مهم برای توسعهدهندگان:
برای احراز هویت، حتما کلید API خود را جایگزین YOUR_API_KEY کنید. هدر Authorization الزامی است.
from openai import OpenAI
import base64
import os
client = OpenAI(
base_url = "https://api.ai-kar.com",
# Insert your ای آی کار (AI-KAR) key instead of <YOUR_AI-KARAPI_KEY>:
api_key = "<YOUR_AI-KARAPI_KEY>"
)
def main():
response = client.chat.completions.create(
model="gpt-4o-audio-preview",
modalities=["text", "audio"],
audio={"voice": "alloy", "format": "wav"},
messages=[
{
"role": "system",
"content": "Speak english" # Your instructions for the model
},
{
"role": "user",
"content": "Hello" # Your question (insert it istead of Hello)
}
],
max_tokens=6000,
)
wav_bytes = base64.b64decode(response.choices[0].message.audio.data)
with open("audio.wav", "wb") as f:
f.write(wav_bytes)
dist = os.path.abspath("audio.wav")
print("Audio saved to:", dist)
if __name__ == "__main__":
main()نمونه پاسخ موفق (JSON)
RESPONSE (200 OK)
{
"id": "text",
"object": "text",
"created": 1,
"choices": [
{
"index": 1,
"message": {
"role": "text",
"content": "text",
"refusal": null,
"annotations": [
{
"type": "text",
"url_citation": {
"end_index": 1,
"start_index": 1,
"title": "text",
"url": "text"
}
}
],
"audio": {
"id": "text",
"data": "text",
"transcript": "text",
"expires_at": 1
},
"tool_calls": [
{
"id": "text",
"type": "text",
"function": {
"arguments": "text",
"name": "text"
}
}
]
},
"finish_reason": "stop",
"logprobs": {
"content": [
{
"bytes": [
1
],
"logprob": 1,
"token": "text",
"top_logprobs": [
{
"bytes": [
1
],
"logprob": 1,
"token": "text"
}
]
}
],
"refusal": []
}
}
],
"model": "text",
"usage": {
"prompt_tokens": 1,
"completion_tokens": 1,
"total_tokens": 1,
"completion_tokens_details": {
"accepted_prediction_tokens": 1,
"audio_tokens": 1,
"reasoning_tokens": 1,
"rejected_prediction_tokens": 1
},
"prompt_tokens_details": {
"audio_tokens": 1,
"cached_tokens": 1
}
}
}