Текстовые эмбеддинги OpenAI измеряют взаимосвязь текстовых строк. Эмбеддинги обычно используются для:

  • Поиска (где результаты ранжируются по релевантности к поисковому запросу)
  • Кластеризации (где текстовые строки группируются по схожести)
  • Рекомендаций (где рекомендуются элементы со связанными текстовыми строками)
  • Обнаружения аномалий (где выявляются выбросы с малой связанностью)
  • Измерения разнообразия (где анализируются распределения схожести)
  • Классификации (где текстовые строки классифицируются по наиболее похожей метке)

Эмбеддинг — это вектор (список) чисел с плавающей запятой. Расстояние между двумя векторами измеряет их взаимосвязь. Малые расстояния означают высокую схожесть, а большие расстояния — низкую схожесть.

OpenAI предлагает два мощных эмбеддинг-модели третьего поколения (обозначенных как -3 в идентификаторе модели):

  • text-embedding-3-small - новейшая и наиболее производительная модель с оптимальным соотношением цена/качество
  • text-embedding-3-large - самая мощная модель с высочайшей точностью
  • text-embedding-ada-002 - предыдущее поколение, все еще доступна для совместимости

text-embedding-3-small и text-embedding-3-large — новейшие и наиболее производительные модели эмбеддингов. Они отличаются:

  • Более низкой стоимостью
  • Более высокой многоязычной производительностью
  • Новыми параметрами для контроля общего размера

По умолчанию длина векторов эмбеддингов составляет 1536 для text-embedding-3-small или 3072 для text-embedding-3-large.

Чтобы уменьшить размерность эмбеддингов без потери их концептуальных свойств, используйте параметр dimensions. Это позволяет:

  • Снизить затраты на хранение и вычисления
  • Адаптироваться к ограничениям векторных баз данных
  • Балансировать между производительностью и размером

curl https://api.proxyapi.ru/openai/v1/embeddings \
  -H "Content-Type: application/json" \
  -H "Authorization: Bearer <КЛЮЧ>" \
  -d '{
    "input": "Your text string goes here",
    "model": "text-embedding-3-small"
  }'

Для быстрого поиска по множеству векторов рекомендуется использовать векторные базы данных, такие как:

  • Pinecone
  • Weaviate
  • Qdrant
  • Chroma
  • FAISS
ProxyAPI Logo

Доступ к последним разработкам мировых лидеров в области AI для вашего проекта или бизнеса в России. Без VPN и блокировок. Оплата в рублях.

Accepted payment methods