11 月 28 日消息,微軟于 11 月 26 日發布博文,宣布在其 LlamaParse 中集成 Azure OpenAI 端點,利用 GPT-4o 系列模型,增強提取非結構化數據和解析多模態文檔,并無縫銜接 Azure AI Search 向量數據庫,構建完整的檢索增強生成(RAG)工作流程。
LlamaParse 簡介
微軟 LlamaParse 是一個專為生成式人工智能(GenAI)設計的文檔解析器,其主要目標是解析和清理各種文檔數據,在傳遞給下游大型語言模型 (LLM) 之前,確保數據質量。
新增 Azure OpenAI 端點(endpoints)
微軟 LlamaParse 在本次集成后,可以讓用戶調用 Azure OpenAI 的 GPT-4o 系列模型,提取非結構化數據和文檔轉換。此次集成充分發揮了雙方優勢,LlamaParse 負責高效解析,Azure OpenAI 則提供強大的語言模型能力,最終實現更精準、更智能的文檔處理。
IT之家援引該媒體報道,附上本次更新內容如下:
直接連接到 Azure OpenAI 的 GPT-4o 和 GPT-4o-mini 等模型
LlamaParse 中的多模態文檔解析,通過 Azure OpenAI 的多模態支持
LLM 優化的輸出,用于增強檢索和語義搜索
通過 LlamaIndex 無縫攝取到 Azure AI Search 的向量存儲庫中
企業級安全性和合規性,適用于敏感工作負載
用戶可以利用 LlamaCloud、Azure AI Search 和 Azure OpenAI 構建一個完整的 RAG 工作流程,具體步驟包括:
解析與豐富: 使用 LlamaParse Premium 和 Azure OpenAI 進行高級文檔提取,生成 Markdown、LaTeX 和 Mermaid 圖表等多種格式的 LLM 優化輸出。
分塊和嵌入: 使用 Azure AI Search 作為向量存儲,并利用 Azure AI 模型目錄中的嵌入模型,對解析后的內容進行分塊、嵌入和索引。
搜索與生成: 利用 Azure AI Search 的查詢重寫和語義重新排序功能,提升檢索質量。最終,通過 Llamaindex 編排 Azure AI Search 和 Azure OpenAI,構建生成式 AI 應用。