Passer au contenu principal
POST
/
documents
Ingestion de documents (fichiers ou URLs)
import requests

url = "https://app.ubik-agent.com/api/v1/documents"

files = { "files.0.items": ("example-file", open("example-file", "rb")) }
payload = {
    "files": "<string>",
    "urls": "<string>",
    "workspace_ids": "<string>",
    "scraping_mode": "Simple Scraping",
    "crawl_depth": "2",
    "same_domain_only": "true",
    "limit": "10",
    "delay": "1",
    "youtube_download_format": "audio"
}
headers = {"X-API-KEY": "<api-key>"}

response = requests.post(url, data=payload, files=files, headers=headers)

print(response.text)
[
  {
    "id": "3c90c3cc-0d44-4b50-8888-8dd25736052a",
    "name": "<string>",
    "status": "<string>",
    "created_at": "2023-11-07T05:31:56Z",
    "updated_at": "2023-11-07T05:31:56Z",
    "file_type": "<string>",
    "processing_pipeline": "<string>",
    "error_message": "<string>",
    "file_name": "<string>",
    "markdown_content": "<string>"
  }
]

Authorizations

X-API-KEY
string
header
required

Body

multipart/form-data
files
file[] | null

Une liste de fichiers à importer.

urls
string | null

Une liste d'URLs à scraper, séparées par des virgules.

workspace_ids
string | null

Une liste d'IDs d'espaces de travail où ajouter les documents, séparées par des virgules.

scraping_mode
string
default:Simple Scraping

Mode de scraping ('Simple Scraping' ou 'Crawling').

crawl_depth
integer
default:2

La profondeur maximale pour le crawling des liens.

same_domain_only
boolean
default:true

Indique s'il faut uniquement crawler les liens du même domaine.

limit
integer
default:10

Le nombre maximum de pages à crawler.

delay
number
default:1

Le délai en secondes entre les requêtes.

youtube_download_format
string
default:audio

Le format de téléchargement pour les vidéos YouTube ('audio' ou 'video').

Response

Successful Response

id
string<uuid>
required

L'identifiant unique du document.

name
string
required

Le nom d'affichage du document.

status
string
required

Le statut de traitement actuel du document.

created_at
string<date-time>
required

L'horodatage de la création du document.

updated_at
string<date-time>
required

L'horodatage de la dernière mise à jour du document.

file_type
string | null

Le type MIME du fichier du document.

processing_pipeline
string | null

Le nom du pipeline de traitement utilisé pour ce document.

error_message
string | null

Si le traitement a échoué, ce champ contiendra le message d'erreur.

file_name
string | null

Le nom de fichier original du document.

markdown_content
string | null

Le contenu complet du document converti au format Markdown.