معرفی و مستندات مدل هوش مصنوعی gpt-4o-mini-audio-preview
مستندات مدل gpt-4o-mini-audio-preview ارائه شده توسط ای آی کار (AI-KAR)
معرفی و بررسی فنی
⚡ وضعیت پشتیبانی از زبان فارسی
این مدل از زبان فارسی به صورت متوسط پشتیبانی میکند. برای دریافت بهترین نتیجه، توصیه میشود از دستورالعملها و عبارات واضح و دقیق استفاده کنید.
معرفی مدل gpt-4o-mini-audio-preview
مدل gpt-4o-mini-audio-preview یک نسخه پیشنمایش از مدل کوچکتر GPT-4o Audio است. این مدل از طریق REST API هم صوت و هم متن را به عنوان ورودی و خروجی پشتیبانی میکند. شما میتوانید از طیف گستردهای از فرمتهای صوتی برای خروجی انتخاب کنید و صدایی که مدل برای پاسخهای صوتی استفاده میکند را مشخص کنید.
قابلیتها و کاربردها
مدل gpt-4o-mini-audio-preview با هدف ارائه یک راهکار سریع و کارآمد برای پردازش و تولید محتوای صوتی و متنی توسعه یافته است. این مدل میتواند در زمینههای مختلفی مورد استفاده قرار گیرد، از جمله:
- خلاصه سازی صوتی: تبدیل فایلهای صوتی طولانی به خلاصههای متنی کوتاه و مفید.
- ترجمه صوتی: ترجمه همزمان گفتار از یک زبان به زبان دیگر.
- تولید محتوای صوتی: تولید پادکستها، کتابهای صوتی و سایر محتواهای صوتی با استفاده از متن.
- پاسخگویی صوتی: ایجاد سیستمهای پاسخگویی خودکار صوتی برای مراکز تماس و پشتیبانی مشتریان.
- دستیارهای صوتی: توسعه دستیارهای صوتی هوشمند که میتوانند دستورات صوتی را درک کرده و به آنها پاسخ دهند.
مزایای استفاده از gpt-4o-mini-audio-preview
این مدل دارای مزایای متعددی است که آن را به یک انتخاب مناسب برای توسعه دهندگان و کسب و کارها تبدیل میکند:
- سرعت و کارایی: به دلیل حجم کوچکتر، این مدل نسبت به مدلهای بزرگتر GPT-4o سریعتر و کارآمدتر است.
- پشتیبانی از فرمتهای صوتی متنوع: امکان انتخاب از بین فرمتهای صوتی مختلف برای خروجی.
- قابلیت تنظیم صدا: امکان تعیین صدای مورد نظر برای پاسخهای صوتی.
- ادغام آسان: ادغام آسان با سایر سیستمها و برنامهها از طریق REST API.
نحوه شروع کار
برای شروع کار با مدل gpt-4o-mini-audio-preview، ابتدا باید یک کلید API از ای آی کار (AI-KAR) دریافت کنید. سپس میتوانید از طریق REST API به مدل دسترسی پیدا کرده و درخواستهای خود را ارسال کنید. برای اطلاعات بیشتر در مورد نحوه دریافت کلید API و استفاده از API، به مستندات مربوطه مراجعه کنید.
نکات مهم
- هنگام استفاده از مدل، به محدودیتهای مربوط به تعداد توکنها و حجم دادهها توجه داشته باشید.
- برای بهبود کیفیت پاسخها، سعی کنید دستورالعملهای واضح و دقیقی به مدل ارائه دهید.
- در صورت بروز هرگونه مشکل یا سوال، با تیم پشتیبانی ای آی کار (AI-KAR) تماس بگیرید.
این مدل یک ابزار قدرتمند برای پردازش و تولید محتوای صوتی و متنی است که میتواند به شما در حل بسیاری از چالشهای موجود در این زمینه کمک کند. با استفاده از gpt-4o-mini-audio-preview، میتوانید برنامهها و سیستمهای هوشمندی را ایجاد کنید که قادر به درک و پاسخگویی به نیازهای کاربران به صورت صوتی و متنی باشند.
مشخصات فنی (API References)
| پارامتر | نوع | توضیحات و مقادیر |
|---|---|---|
model | stringRequired | مدل مورد استفاده برای تکمیل گفتگو. مقدار این پارامتر باید 'gpt-4o-mini-audio-preview' باشد. مقادیر مجاز (کلیک برای کپی): |
messages | one of[]Required | لیستی از پیامها که مکالمه را تا به اینجا تشکیل میدهند. بسته به مدلی که استفاده میکنید، انواع مختلف پیام (modalities) مانند متن، اسناد (txt, pdf)، تصاویر و صدا پشتیبانی میشوند. |
max_completion_tokens | integer | حد بالایی برای تعداد توکنهایی که میتوانند برای یک تکمیل تولید شوند، از جمله توکنهای خروجی قابل مشاهده و توکنهای استدلال. حداقل مقدار: 1 |
max_tokens | number | حداکثر تعداد توکنهایی که میتوانند در تکمیل چت تولید شوند. این مقدار میتواند برای کنترل هزینههای متن تولید شده از طریق API استفاده شود. حداقل مقدار: 1 |
stream | boolean | اگر روی True تنظیم شود، دادههای پاسخ مدل به صورت جریانی (stream) با استفاده از رویدادهای ارسال شده از سرور (server-sent events) به کلاینت ارسال میشوند. مقدار پیشفرض: false |
stream_options | object | تنظیمات مربوط به استریم کردن پاسخ. |
tools | object[] | لیستی از ابزارهایی که مدل ممکن است فراخوانی کند. در حال حاضر، فقط توابع به عنوان ابزار پشتیبانی میشوند. از این برای ارائه لیستی از توابعی که مدل ممکن است ورودیهای JSON را برای آنها تولید کند، استفاده کنید. حداکثر 128 تابع پشتیبانی میشود. |
tool_choice | any of | کنترل میکند که کدام ابزار (در صورت وجود) توسط مدل فراخوانی شود. none به این معنی است که مدل هیچ ابزاری را فراخوانی نمیکند و در عوض یک پیام تولید میکند. auto به این معنی است که مدل میتواند بین تولید یک پیام یا فراخوانی یک یا چند ابزار انتخاب کند. required به این معنی است که مدل باید یک یا چند ابزار را فراخوانی کند. تعیین یک ابزار خاص از طریق {"type": "function", "function": {"name": "my_function"}} مدل را مجبور میکند که آن ابزار را فراخوانی کند.
none مقدار پیشفرض است وقتی هیچ ابزاری وجود نداشته باشد. auto مقدار پیشفرض است اگر ابزارها وجود داشته باشند. مقادیر مجاز (کلیک برای کپی): |
parallel_tool_calls | boolean | اینکه آیا فراخوانی موازی تابع در طول استفاده از ابزار فعال شود یا خیر. |
n | integer | nullable | تعداد انتخابهای تکمیل چت که برای هر پیام ورودی باید تولید شود. توجه داشته باشید که هزینه بر اساس تعداد توکنهای تولید شده در تمام انتخابها محاسبه میشود. مقدار n را 1 نگه دارید تا هزینهها به حداقل برسد. |
logit_bias | object | nullable | احتمال ظاهر شدن توکنهای مشخص شده در تکمیل را تغییر میدهد. یک شی JSON را میپذیرد که توکنها (مشخص شده توسط ID توکن آنها در توکنساز) را به یک مقدار بایاس مرتبط از -100 تا 100 نگاشت میکند. از نظر ریاضی، بایاس به logits تولید شده توسط مدل قبل از نمونهبرداری اضافه میشود. اثر دقیق برای هر مدل متفاوت خواهد بود، اما مقادیر بین -1 و 1 باید احتمال انتخاب را کاهش یا افزایش دهند. مقادیری مانند -100 یا 100 باید منجر به ممنوعیت یا انتخاب انحصاری توکن مربوطه شوند. |
frequency_penalty | number | nullable | عددی بین -2.0 و 2.0. مقادیر مثبت، توکنهای جدید را بر اساس فراوانی موجود آنها در متن تا به امروز جریمه میکنند، و احتمال تکرار عین به عین همان خط توسط مدل را کاهش میدهند. |
presence_penalty | number | nullable | مقادیر مثبت، توکنهای جدید را بر اساس اینکه آیا در متن تا به امروز ظاهر شدهاند یا خیر، جریمه میکنند، و احتمال صحبت کردن مدل در مورد موضوعات جدید را افزایش میدهند. |
seed | integer | این ویژگی در حالت بتا است. اگر مشخص شود، سیستم ما تمام تلاش خود را میکند تا به صورت قطعی نمونهبرداری کند، به طوری که درخواستهای مکرر با همان seed و پارامترها باید نتیجه یکسانی را برگردانند. حداقل مقدار: 1 |
temperature | number | از چه دمای نمونهبرداری استفاده شود. مقادیر بالاتر مانند 0.8 خروجی را تصادفیتر میکنند، در حالی که مقادیر پایینتر مانند 0.2 آن را متمرکزتر و قطعیتر میکنند. ما به طور کلی توصیه میکنیم این یا top_p را تغییر دهید، اما نه هر دو را. |
top_p | number | جایگزینی برای نمونهبرداری با دما، به نام نمونهبرداری هستهای، که در آن مدل نتایج توکنها را با جرم احتمال top_p در نظر میگیرد. بنابراین 0.1 به این معنی است که فقط توکنهایی که 10٪ جرم احتمال برتر را تشکیل میدهند در نظر گرفته میشوند.
ما به طور کلی توصیه میکنیم این یا دما را تغییر دهید، اما نه هر دو را. |
audio | object | nullable | پارامترها برای خروجی صدا. هنگامی که خروجی صدا با modalities: ["audio"] درخواست میشود، مورد نیاز است. |
modalities | string · enum[] | nullable | انواع خروجی که میخواهید مدل تولید کند. اکثر مدلها قادر به تولید متن هستند، که مقدار پیشفرض است:
["text"]
مدل gpt-4o-audio-preview همچنین میتواند برای تولید صدا استفاده شود. برای درخواست اینکه این مدل هم پاسخهای متنی و هم صوتی تولید کند، میتوانید از این استفاده کنید:
["text", "audio"] مقادیر مجاز (کلیک برای کپی): |
نمونه کدهای درخواست
نکته مهم برای توسعهدهندگان:
برای احراز هویت، حتما کلید API خود را جایگزین YOUR_API_KEY کنید. هدر Authorization الزامی است.
from openai import OpenAI
import base64
import os
client = OpenAI(
base_url = "https://api.ai-kar.com/v1",
# Insert your ای آی کار (AI-KAR) key instead of <YOUR_AI-KARAPI_KEY>:
api_key = "<YOUR_AI-KARAPI_KEY>"
)
def main():
response = client.chat.completions.create(
model="gpt-4o-mini-audio-preview",
modalities=["text", "audio"],
audio={"voice": "alloy", "format": "wav"},
messages=[
{
"role": "system",
"content": "Speak english" # Your instructions for the model
},
{
"role": "user",
"content": "Hello" # Your question (insert it istead of Hello)
}
],
max_tokens=6000,
)
wav_bytes = base64.b64decode(response.choices[0].message.audio.data)
with open("audio.wav", "wb") as f:
f.write(wav_bytes)
dist = os.path.abspath("audio.wav")
print("Audio saved to:", dist)
if __name__ == "__main__":
main()نمونه پاسخ موفق (JSON)
{
"id": "text",
"object": "text",
"created": 1,
"choices": [
{
"index": 1,
"message": {
"role": "text",
"content": "text",
"refusal": null,
"annotations": [
{
"type": "text",
"url_citation": {
"end_index": 1,
"start_index": 1,
"title": "text",
"url": "text"
}
}
],
"audio": {
"id": "text",
"data": "text",
"transcript": "text",
"expires_at": 1
},
"tool_calls": [
{
"id": "text",
"type": "text",
"function": {
"arguments": "text",
"name": "text"
}
}
]
},
"finish_reason": "stop",
"logprobs": {
"content": [
{
"bytes": [
1
],
"logprob": 1,
"token": "text",
"top_logprobs": [
{
"bytes": [
1
],
"logprob": 1,
"token": "text"
}
]
}
],
"refusal": []
}
}
],
"model": "text",
"usage": {
"prompt_tokens": 1,
"completion_tokens": 1,
"total_tokens": 1,
"completion_tokens_details": {
"accepted_prediction_tokens": 1,
"audio_tokens": 1,
"reasoning_tokens": 1,
"rejected_prediction_tokens": 1
},
"prompt_tokens_details": {
"audio_tokens": 1,
"cached_tokens": 1
}
}
}