Text Models (LLM)alibaba-cloud

معرفی و مستندات مدل هوش مصنوعی qwen2.5-72b-instruct-turbo

مستندات مدل qwen2.5-72b-instruct-turbo ارائه شده توسط ای آی کار (AI-KAR)

معرفی و بررسی فنی

⚡ وضعیت پشتیبانی از زبان فارسی

این مدل از زبان فارسی به صورت متوسط پشتیبانی می‌کند و برای استفاده بهینه، ممکن است نیاز به تنظیمات و راهنمایی‌های تکمیلی داشته باشد.

مدل qwen2.5-72b-instruct-turbo یک مدل زبانی بزرگ (LLM) پیشرفته است که توسط Alibaba Cloud توسعه داده شده است. این مدل برای انجام طیف گسترده‌ای از وظایف پردازش زبان طبیعی (NLP) طراحی شده است، از جمله دنبال کردن دستورالعمل‌ها، کمک به کدنویسی و حل مسائل ریاضی. مدل qwen2.5-72b-instruct-turbo با استفاده از معماری ترانسفورمر آموزش داده شده است و دارای 72 میلیارد پارامتر است که آن را به یکی از بزرگترین و قدرتمندترین مدل‌های زبانی موجود تبدیل کرده است. این مدل قادر است متون طولانی و پیچیده را درک کند و پاسخ‌های دقیق و مرتبط تولید کند. از جمله کاربردهای کلیدی این مدل می‌توان به موارد زیر اشاره کرد:

تولید متن: این مدل می‌تواند انواع مختلفی از متون را تولید کند، از جمله مقالات، داستان‌ها، ایمیل‌ها و کد.
ترجمه زبان: این مدل می‌تواند متن را از یک زبان به زبان دیگر ترجمه کند.
خلاصه سازی متن: این مدل می‌تواند متون طولانی را خلاصه کند.
پاسخ به سوالات: این مدل می‌تواند به سوالات بر اساس اطلاعات موجود در یک متن پاسخ دهد.
تولید کد: این مدل می‌تواند کد را به زبان‌های مختلف برنامه نویسی تولید کند.
حل مسائل ریاضی: این مدل می‌تواند مسائل ریاضی را حل کند.

مدل qwen2.5-72b-instruct-turbo به طور خاص برای درک و پیروی از دستورالعمل‌ها بهینه شده است. این بدان معناست که می‌تواند دستورالعمل‌های پیچیده را درک کند و پاسخ‌هایی تولید کند که به طور دقیق با دستورالعمل‌ها مطابقت داشته باشند. این قابلیت، مدل را برای استفاده در برنامه‌هایی مانند دستیارهای مجازی، ربات‌های گفتگو و سیستم‌های اتوماسیون ایده آل می‌کند. علاوه بر این، این مدل از قابلیت‌های کدنویسی پیشرفته‌ای برخوردار است و می‌تواند به توسعه دهندگان در تولید کد با کیفیت بالا کمک کند. این مدل می‌تواند کد را به زبان‌های مختلف برنامه نویسی تولید کند، اشکالات را شناسایی کند و پیشنهادات بهبودی ارائه دهد. در نهایت، مدل qwen2.5-72b-instruct-turbo قادر به حل مسائل ریاضی پیچیده است. این مدل می‌تواند مسائل را در زمینه‌های مختلف ریاضی، از جمله جبر، حساب دیفرانسیل و انتگرال و هندسه حل کند. این قابلیت، مدل را برای استفاده در برنامه‌هایی مانند آموزش آنلاین، تحقیقات علمی و مهندسی ایده آل می‌کند. به طور خلاصه، مدل qwen2.5-72b-instruct-turbo یک مدل زبانی بزرگ قدرتمند و همه کاره است که می‌تواند برای طیف گسترده‌ای از وظایف NLP مورد استفاده قرار گیرد. قابلیت‌های پیشرفته این مدل، آن را به یک ابزار ارزشمند برای توسعه دهندگان، محققان و مشاغلی تبدیل می‌کند که به دنبال بهبود کارایی و دقت خود هستند.

مشخصات فنی (API References)

پارامتر	نوع	توضیحات و مقادیر
model	stringRequired	نام مدلی که می‌خواهید استفاده کنید. مقادیر مجاز (کلیک برای کپی):
messages	one of[]Required	لیستی از پیام‌ها که مکالمه را تا این لحظه تشکیل می‌دهند. بسته به مدلی که استفاده می‌کنید، انواع مختلفی از پیام‌ها (modalities) مانند متن، اسناد (txt, pdf)، تصاویر و صدا پشتیبانی می‌شوند.
max_tokens	number	حداکثر تعداد توکن‌هایی که می‌توانند در تکمیل چت تولید شوند. این مقدار می‌تواند برای کنترل هزینه‌های متن تولید شده از طریق API استفاده شود.
stream	boolean	اگر روی True تنظیم شود، داده‌های پاسخ مدل به صورت جریانی (streamed) به کلاینت ارسال می‌شوند، به این صورت که با استفاده از رویدادهای ارسال شده از سرور (server-sent events) تولید می‌شوند.
stream_options	object	گزینه‌های مربوط به استریم کردن پاسخ.
tools	object[]	لیستی از ابزارهایی که مدل ممکن است فراخوانی کند. در حال حاضر، فقط توابع به عنوان ابزار پشتیبانی می‌شوند. از این برای ارائه لیستی از توابعی استفاده کنید که مدل ممکن است ورودی‌های JSON را برای آن‌ها تولید کند. حداکثر 128 تابع پشتیبانی می‌شود.
tool_choice	any of	کنترل می‌کند که کدام ابزار (در صورت وجود) توسط مدل فراخوانی شود. none به این معنی است که مدل هیچ ابزاری را فراخوانی نمی‌کند و در عوض یک پیام تولید می‌کند. auto به این معنی است که مدل می‌تواند بین تولید یک پیام یا فراخوانی یک یا چند ابزار انتخاب کند. required به این معنی است که مدل باید یک یا چند ابزار را فراخوانی کند. تعیین یک ابزار خاص از طریق {"type": "function", "function": {"name": "my_function"}} مدل را مجبور می‌کند که آن ابزار را فراخوانی کند. مقادیر مجاز (کلیک برای کپی):
parallel_tool_calls	boolean	تعیین اینکه آیا فراخوانی موازی توابع در هنگام استفاده از ابزار فعال شود یا خیر.
response_format	one of	شیئی که فرمتی را مشخص می‌کند که مدل باید خروجی دهد.
echo	boolean	اگر True باشد، پاسخ شامل prompt خواهد بود. می‌تواند با logprobs برای برگرداندن prompt logprobs استفاده شود.
temperature	number	از چه دمای نمونه‌برداری استفاده شود. مقادیر بالاتر مانند 0.8 خروجی را تصادفی‌تر می‌کنند، در حالی که مقادیر پایین‌تر مانند 0.2 آن را متمرکزتر و قطعی‌تر می‌کنند. ما عموماً توصیه می‌کنیم این مقدار یا top_p را تغییر دهید، اما نه هر دو را.
top_p	number	جایگزینی برای نمونه‌برداری با دما، به نام نمونه‌برداری هسته‌ای، که در آن مدل نتایج توکن‌ها را با جرم احتمال top_p در نظر می‌گیرد. بنابراین 0.1 به این معنی است که فقط توکن‌هایی که شامل 10٪ جرم احتمال برتر هستند در نظر گرفته می‌شوند.
n	integer	چند انتخاب تکمیل چت برای هر پیام ورودی تولید شود. توجه داشته باشید که بر اساس تعداد توکن‌های تولید شده در تمام انتخاب‌ها، هزینه دریافت خواهید کرد. n را به عنوان 1 نگه دارید تا هزینه‌ها به حداقل برسد.
stop	any of	حداکثر 4 دنباله که API تولید توکن‌های بیشتر را متوقف می‌کند. متن برگشتی شامل دنباله توقف نخواهد بود.
logprobs	boolean	اینکه آیا احتمالات لگاریتمی توکن‌های خروجی برگردانده شوند یا خیر. اگر True باشد، احتمالات لگاریتمی هر توکن خروجی که در محتوای پیام برگردانده شده است را برمی‌گرداند.
top_logprobs	number	یک عدد صحیح بین 0 و 20 که تعداد محتمل‌ترین توکن‌ها را برای بازگشت در هر موقعیت توکن مشخص می‌کند، هر کدام با یک احتمال لگاریتمی مرتبط. اگر این پارامتر استفاده شود، logprobs باید روی True تنظیم شود.
logit_bias	object	احتمال ظاهر شدن توکن‌های مشخص شده در تکمیل را تغییر دهید. یک شی JSON را می‌پذیرد که توکن‌ها (مشخص شده توسط شناسه توکن آن‌ها در توکنایزر) را به یک مقدار بایاس مرتبط از -100 تا 100 نگاشت می‌کند. از نظر ریاضی، بایاس به logits تولید شده توسط مدل قبل از نمونه‌برداری اضافه می‌شود. اثر دقیق در هر مدل متفاوت خواهد بود، اما مقادیر بین -1 و 1 باید احتمال انتخاب را کاهش یا افزایش دهند. مقادیری مانند -100 یا 100 باید منجر به ممنوعیت یا انتخاب انحصاری توکن مربوطه شوند.
frequency_penalty	number	عدد بین -2.0 و 2.0. مقادیر مثبت، توکن‌های جدید را بر اساس فراوانی موجود آن‌ها در متن تا کنون جریمه می‌کنند، و احتمال تکرار عین به عین همان خط توسط مدل را کاهش می‌دهند.
prediction	object	پیکربندی برای یک خروجی پیش‌بینی‌شده، که می‌تواند زمان‌های پاسخ را در زمانی که بخش‌های بزرگی از پاسخ مدل از قبل شناخته شده‌اند، بسیار بهبود بخشد.
presence_penalty	number	مقادیر مثبت، توکن‌های جدید را بر اساس اینکه آیا در متن تا کنون ظاهر شده‌اند جریمه می‌کنند، و احتمال صحبت کردن مدل در مورد موضوعات جدید را افزایش می‌دهند.
seed	integer	این ویژگی در نسخه بتا است. اگر مشخص شود، سیستم ما تمام تلاش خود را می‌کند تا به صورت قطعی نمونه‌برداری کند، به طوری که درخواست‌های مکرر با همان seed و پارامترها باید نتیجه یکسانی را برگردانند.
min_p	number	عددی بین 0.001 و 0.999 که می‌تواند به عنوان جایگزینی برای top_p و top_k استفاده شود.
top_k	number	فقط از K گزینه برتر برای هر توکن بعدی نمونه‌برداری کنید. برای حذف پاسخ‌های با احتمال کم "دنباله بلند" استفاده می‌شود. فقط برای موارد استفاده پیشرفته توصیه می‌شود. معمولاً فقط باید از دما استفاده کنید.
repetition_penalty	number	عددی که تنوع متن تولید شده را با کاهش احتمال تکرار دنباله‌های تکراری کنترل می‌کند. مقادیر بالاتر تکرار را کاهش می‌دهند.

نمونه کدهای درخواست

نکته مهم برای توسعه‌دهندگان:

برای احراز هویت، حتما کلید API خود را جایگزین YOUR_API_KEY کنید. هدر Authorization الزامی است.

import requests
import json  # for getting a structured output with indentation
response = requests.post(
    "https://api.ai-kar.com/v1/chat/completions",
    headers={
        # Insert your AI-KAR API Key instead of <YOUR_AI-KARAPI_KEY>:
        "Authorization":"Bearer <YOUR_AI-KARAPI_KEY>",
        "Content-Type":"application/json"
    },
    json={
        "model":"Qwen/Qwen2.5-72B-Instruct-Turbo",
        "messages":[
            {
                "role":"user",
                "content":"Hello"  # insert your prompt here, instead of Hello
            }
        ]
    }
)
data = response.json()
print(json.dumps(data, indent=4))

نمونه پاسخ موفق (JSON)

RESPONSE (200 OK)

{
  "id": "text",
  "object": "text",
  "created": 1,
  "choices": [
    {
      "index": 1,
      "message": {
        "role": "text",
        "content": "text",
        "refusal": null,
        "annotations": [
          {
            "type": "text",
            "url_citation": {
              "end_index": 1,
              "start_index": 1,
              "title": "text",
              "url": "text"
            }
          }
        ],
        "audio": {
          "id": "text",
          "data": "text",
          "transcript": "text",
          "expires_at": 1
        },
        "tool_calls": [
          {
            "id": "text",
            "type": "text",
            "function": {
              "arguments": "text",
              "name": "text"
            }
          }
        ]
      },
      "finish_reason": "stop",
      "logprobs": {
        "content": [
          {
            "bytes": [
              1
            ],
            "logprob": 1,
            "token": "text",
            "top_logprobs": [
              {
                "bytes": [
                  1
                ],
                "logprob": 1,
                "token": "text"
              }
            ]
          }
        ],
        "refusal": []
      }
    }
  ],
  "model": "text",
  "usage": {
    "prompt_tokens": 1,
    "completion_tokens": 1,
    "total_tokens": 1,
    "completion_tokens_details": {
      "accepted_prediction_tokens": 1,
      "audio_tokens": 1,
      "reasoning_tokens": 1,
      "rejected_prediction_tokens": 1
    },
    "prompt_tokens_details": {
      "audio_tokens": 1,
      "cached_tokens": 1
    }
  }
}