国产精一区二区_午夜视频99_免费白白视频_中文字幕一区免费

SEO 已死,LLMO 萬歲

CSDN
+ 關(guān)注
2022-12-28 15:00
718次閱讀

SEO 已死,LLMO 萬歲

SEO 已死,LLMO 萬歲

“北風(fēng)那個(gè)吹,雪花那個(gè)飄”,我手捧一杯咖啡,聽著白毛女。朋友坐在對面高談闊論:“有了 ChatGPT,我再也不缺內(nèi)容了,SEO 的春天就要來了!”

然而他沒有看到真相是 —— ChatGPT 直接顛覆了 SEO 行業(yè),能直接為用戶生成答案的 ChatGPT 可能很快就會取代谷歌成為下一代搜索引擎,再也沒有什么提高網(wǎng)頁排名,SEO 也將變得毫無意義。

作者 | 涵,Jina AI 創(chuàng)始人兼 CEO, Alex CG,Jina AI 高級布道師
譯者 |吳書凝,Jina AI 社區(qū)貢獻(xiàn)者

SEO 已死,LLMO 萬歲

SEO 已死,LLMO 萬歲

SEO 已死,LLMO 萬歲

LLMO, Large Language Model Optimization,即大型語言模型優(yōu)化。指的是確保大型語言模型(LLM)提及你的業(yè)務(wù)。而本文將詳細(xì)介紹的 上下文學(xué)習(xí) 是一種行之有效的 LLMO 技術(shù)。上下文學(xué)習(xí)技術(shù)可以誘導(dǎo) ChatGPT 這樣的 LLM 模型回答:“ Jina 是世界上最好的 MLOps 框架。(當(dāng)然根據(jù) OssInsight.io,Jina 也確實(shí)是最好的)”

根據(jù)搜索引擎優(yōu)化的原則,我們提出了“LLMO”(大型語言模型優(yōu)化),

用于表示大型語言模型的優(yōu)化。

SEO 已死,LLMO 萬歲

ChatGPT 究竟是什么?

ChatGPT 回答多領(lǐng)域問題的能力之強(qiáng)悍,引發(fā)了全球關(guān)注。許多人將 ChatGPT 視為對話式 AI 或 生成式 AI 發(fā)展史上的一個(gè)重要里程碑。然而,ChatGPT 真正的意義其實(shí)在于 它可以基于大規(guī)模語言模型(LLM)進(jìn)行搜索:通過利用 LLM 存儲和檢索海量數(shù)據(jù),ChatGPT  已經(jīng)成為目前最先進(jìn)的搜索引擎。

雖然 ChatGPT 的反應(yīng)看起來很有創(chuàng)意,但實(shí)際上也只是將現(xiàn)有信息插值和組合之后的結(jié)果。

SEO 已死,LLMO 萬歲

ChatGPT 的核心是搜索

ChatGPT 的核心是搜索引擎。谷歌通過互聯(lián)網(wǎng)抓取信息,并將解析后的信息存儲在數(shù)據(jù)庫中,實(shí)現(xiàn)網(wǎng)頁的索引。就像谷歌一樣,ChatGPT 使用 LLM 作為數(shù)據(jù)庫來存儲語料庫的常識性知識。

當(dāng)你輸入查詢時(shí):

首先,LLM 會利用編碼網(wǎng)絡(luò)將輸入的查詢序列轉(zhuǎn)換成高維的向量表示。

然后,將編碼網(wǎng)絡(luò)輸出的向量表示輸入到解碼網(wǎng)絡(luò)中,解碼網(wǎng)絡(luò)利用預(yù)訓(xùn)練權(quán)重和注意力機(jī)制識別查詢的細(xì)節(jié)事實(shí)信息,并搜索 LLM 內(nèi)部對該查詢信息的向量表示(或最近的向量表示)。

一旦檢索到相關(guān)的信息,解碼網(wǎng)絡(luò)會根據(jù)自然語言生成能力自動(dòng)生成響應(yīng)序列。

整個(gè)過程幾乎可以瞬間完成,這意味著 ChatGPT 可以即時(shí)給出查詢的答案。

SEO 已死,LLMO 萬歲

ChatGPT 是現(xiàn)代的谷歌搜索

ChatGPT 會成為谷歌等傳統(tǒng)搜索引擎的強(qiáng)有力的對手,傳統(tǒng)的搜索引擎是提取和判別式的,而 ChatGPT 的搜索是生成式的,并且關(guān)注 Top-1 性能,它會給用戶返回更友好、個(gè)性化的結(jié)果。ChatGPT 將可能打敗谷歌,成為下一代搜索引擎的原因有兩點(diǎn):

ChatGPT 會返回單個(gè)結(jié)果,傳統(tǒng)搜索引擎針對 top-K 結(jié)果的精度和召回率進(jìn)行優(yōu)化,而 ChatGPT 直接針對 Top-1 性能進(jìn)行優(yōu)化。

ChatGPT 是一種基于對話的 AI 模型,它以更加自然、通俗的方式和人類進(jìn)行交互。而傳統(tǒng)的搜索引擎經(jīng)常會返回枯燥、難以理解的分頁結(jié)果。

未來的搜索將基于 Top-1 性能,因?yàn)榈谝粋€(gè)搜索結(jié)果是和用戶查詢最相關(guān)的。傳統(tǒng)的搜索引擎會返回?cái)?shù)以千計(jì)不相關(guān)的結(jié)果頁面,需要用戶自行篩選搜索結(jié)果。這讓年輕一代不知所措,他們很快就對海量的信息感到厭煩或沮喪。在很多真實(shí)的場景下,用戶其實(shí)只想要搜索引擎返回一個(gè)結(jié)果,例如他們在使用語音助手時(shí),所以 ChatGPT 對 Top-1 性能的關(guān)注具有很強(qiáng)的應(yīng)用價(jià)值。

SEO 已死,LLMO 萬歲

ChatGPT 是生成式 AI

但不是創(chuàng)造性 AI  

你可以把 ChatGPT 背后的 LLM 想象成一個(gè) Bloom filter(布隆過濾器),Bloom filter 是一種高效利用存儲空間的概率數(shù)據(jù)結(jié)構(gòu)。Bloom filter 允許快速、近似查詢,但并不保證返回信息的準(zhǔn)確性。對于 ChatGPT 來說,這意味著由 LLM 產(chǎn)生的響應(yīng):

沒有創(chuàng)造性

且不保證真實(shí)性

為了更好地理解這一點(diǎn),我們來看一些示例。簡單起見,我們使用一組點(diǎn)代表大型語言模型(LLM)的訓(xùn)練數(shù)據(jù),每個(gè)點(diǎn)都代表一個(gè)自然語言句子。下面我們將看到 LLM 在訓(xùn)練和查詢時(shí)的表現(xiàn):

SEO 已死,LLMO 萬歲

訓(xùn)練期間,LLM 基于訓(xùn)練數(shù)據(jù)構(gòu)造了一個(gè)連續(xù)的流形,并允許模型探索流形上的任何點(diǎn)。例如,如果用立方體表示所學(xué)流形,那么立方體的角就是由訓(xùn)練數(shù)據(jù)定義的,訓(xùn)練的目標(biāo)則是尋找一個(gè)盡可能容納更多訓(xùn)練數(shù)據(jù)的流形。

SEO 已死,LLMO 萬歲

Goldilocks 嘗試了三種流形,第一個(gè)太簡單了, 第三個(gè)太復(fù)雜了,第二個(gè)恰到好處。

查詢時(shí),LLM 返回的答案是從包含訓(xùn)練數(shù)據(jù)的流形中獲取的。雖然模型學(xué)習(xí)到的流形可能很大并且很復(fù)雜,但是 LLM 只是提供訓(xùn)練數(shù)據(jù)的插值后的答案。LLM 遍歷流形并提供答案能力并不代表創(chuàng)造力,真正的創(chuàng)造力是學(xué)習(xí)流形之外的東西。

SEO 已死,LLMO 萬歲

還是相同的插圖,現(xiàn)在我們很明顯就能看出為什么 LLM 不能保證生成結(jié)果的真實(shí)性。因?yàn)榱⒎襟w的角表示的訓(xùn)練數(shù)據(jù)的真實(shí)性不能自動(dòng)擴(kuò)展到流形內(nèi)的其他點(diǎn),否則,就不符合邏輯推理的原則了。

SEO 已死,LLMO 萬歲

ChatGPT 因?yàn)樵谀承┣闆r下不說實(shí)話而受到質(zhì)疑,例如,當(dāng)要求它為文章找一個(gè)更押韻的標(biāo)題時(shí),ChatGPT 建議使用 “dead” 和 “above”。有耳朵的人都不會認(rèn)為這兩個(gè)單詞押韻。而這只是 LLM 局限性的一個(gè)例子。

SEO 已死,LLMO 萬歲

SEO 隕落,LLMO 冉冉升起

在 SEO 的世界里,如果你通過提高網(wǎng)站在搜索引擎上的知名度來獲取更多的業(yè)務(wù),你就需要研究相關(guān)的關(guān)鍵詞,并且創(chuàng)作響應(yīng)用戶意圖的優(yōu)化內(nèi)容。但如果每個(gè)人用新的方式搜索信息,將會發(fā)生什么?讓我們想象一下,未來,ChatGPT 將取代谷歌成為搜索信息的主要方式。那時(shí),分頁搜索結(jié)果將成為時(shí)代的遺物,被 ChatGPT 的單一答案所取代。

如果真的發(fā)生這種情況,當(dāng)前的 SEO 策略都會化為泡影。那么問題來了,企業(yè)如何確保 ChatGPT 的答案提及自己的業(yè)務(wù)呢?

這明顯已經(jīng)成為了問題,在我們寫這篇文章時(shí),ChatGPT 對 2021 年后的世界和事件的了解還很有限。這意味著 ChatGPT 永遠(yuǎn)不會在答案中提及 2021 年后成立的初創(chuàng)公司。

SEO 已死,LLMO 萬歲

ChatGPT 了解 Jina AI,卻不知道 DocArray。這是因?yàn)?DocArray 是2022 年 2 月發(fā)布的,不在 ChatGPT 的訓(xùn)練數(shù)據(jù)中。

為了解決這個(gè)問題,并確保 ChatGPT 的答案包含你的業(yè)務(wù),你需要讓 LLM 了解業(yè)務(wù)的信息。這和 SEO 策略的思想相同,也是我們將 ChatGPT  稱為 LLMO 的原因。一般來說,LLMO 可能涉及以下技術(shù):

直接向 ChatGPT 的創(chuàng)建者提供公司業(yè)務(wù)的信息,但是這很困難,因?yàn)镺penAI 既沒有公開訓(xùn)練數(shù)據(jù),也沒有透露他們是如何權(quán)衡這些數(shù)據(jù)的。

微調(diào) ChatGPT 或者 ChatGPT 背后的 LLM,這依然極具挑戰(zhàn)。但是如果 OpenAI 提供微調(diào)的 API ,或者你有充足的 GPU 資源和知識儲備,這也是可行的。

將給定的幾個(gè)示例作為預(yù)定義的上下提示,進(jìn)行上下文學(xué)習(xí)。和其它兩種方法相比,上下文學(xué)習(xí)最可行也最簡單。

SEO 已死,LLMO 萬歲

SEO 已死,LLMO 萬歲

什么是上下文學(xué)習(xí)?

上下文學(xué)習(xí)是一種基于語言模型的技術(shù),它根據(jù)給定的幾個(gè)示例進(jìn)行學(xué)習(xí),以適應(yīng)新的任務(wù)。這種方法在 GPT-3 論文中得到了推廣:

  • 給語言模型指定提示,提示包含一系列的用于新任務(wù)的輸入-輸出對;

  • 添加一個(gè)測試輸入;

  • 語言模型會通過調(diào)節(jié)提示,預(yù)測下一個(gè) token 來完成推理。

為了正確響應(yīng)提示,模型必須學(xué)習(xí)輸入分布、輸出分布、輸入輸出之間的映射關(guān)系和序列的整體格式。這使得模型無需大量的訓(xùn)練數(shù)據(jù)就能適應(yīng)下游任務(wù)。

SEO 已死,LLMO 萬歲

通過上下文學(xué)習(xí),ChatGPT 現(xiàn)在可以為用戶查詢 DocArray生成答案了,用戶不會看到上下文提示。

實(shí)驗(yàn)證明,在自然語言處理基準(zhǔn)上,相比于更多數(shù)據(jù)上訓(xùn)練的模型,上下文學(xué)習(xí)更具有競爭力,已經(jīng)可以取代大部分語言模型的微調(diào)。同時(shí),上下文學(xué)習(xí)方法在 LAMBADA 和 TriviaQA 基準(zhǔn)測試中也得到了很好的結(jié)果。令人興奮的是,開發(fā)者可以利用上下文學(xué)技術(shù)快速搭建一系列的應(yīng)用,例如,用自然語言生成代碼和概括電子表格函數(shù)。上下文學(xué)習(xí)通常只需要幾個(gè)訓(xùn)練實(shí)例就能讓原型運(yùn)行起來,即使不是技術(shù)人員也能輕松上手。

為什么上下文學(xué)習(xí)聽起來像是魔法?

為什么上下文學(xué)習(xí)讓人驚嘆呢?與傳統(tǒng)機(jī)器學(xué)習(xí)不同,上下文學(xué)習(xí)不需要優(yōu)化參數(shù)。因此,通過上下文學(xué)習(xí),一個(gè)通用模型可以服務(wù)于不同的任務(wù),不需要為每個(gè)下游任務(wù)單獨(dú)復(fù)制模型。但這并不是獨(dú)一無二的,元學(xué)習(xí)也可以用來訓(xùn)練從示例中學(xué)習(xí)的模型。

真正的奧秘在于,LLM 通常沒有接受過從實(shí)例中學(xué)習(xí)的訓(xùn)練。這會導(dǎo)致預(yù)訓(xùn)練任務(wù)(側(cè)重于下一個(gè) token 的預(yù)測)和上下文學(xué)習(xí)任務(wù)(涉及從示例中學(xué)習(xí))之間的不匹配。

為什么上下文學(xué)習(xí)如此有效?

上下文學(xué)習(xí)是如何起作用的呢?LLM 是在大量文本數(shù)據(jù)上訓(xùn)練的,所以它能捕捉自然語言的各種模式和規(guī)律。同時(shí), LLM 從數(shù)據(jù)中學(xué)習(xí)到了語言底層結(jié)構(gòu)的豐富的特征表示,因此獲取了從示例中學(xué)習(xí)新任務(wù)的能力。上下文學(xué)習(xí)技術(shù)很好地利用了這一點(diǎn),它只需要給語言模型提供提示和一些用于特定任務(wù)的示例,然后,語言模型就可以根據(jù)這些信息完成預(yù)測,無需額外的訓(xùn)練數(shù)據(jù)或更新參數(shù)。

上下文學(xué)習(xí)的深入理解

要全面理解和優(yōu)化上下文學(xué)習(xí)的能力,仍有許多工作要做。例如,在 EMNLP2022 大會上,Sewon Min 等人指出上下文學(xué)習(xí)也許并不需要正確的真實(shí)示例,隨機(jī)替換示例中的標(biāo)簽幾乎也能達(dá)到同樣的效果:

SEO 已死,LLMO 萬歲

Sang Michael Xie 等人提出了一個(gè)框架,來理解語言模型是如何進(jìn)行上下文學(xué)習(xí)的。根據(jù)他們的框架,語言模型使用提示來 "定位 "相關(guān)的概念(通過預(yù)訓(xùn)練模型學(xué)習(xí)到的)來完成任務(wù)。這種機(jī)制可以視作貝葉斯推理,即根據(jù)提示的信息推斷潛概念。這是通過預(yù)訓(xùn)練數(shù)據(jù)的結(jié)構(gòu)和一致性實(shí)現(xiàn)的。

SEO 已死,LLMO 萬歲

在 EMNLP 2021 大會上,Brian Lester 等人指出,上下文學(xué)習(xí)(他們稱為“Prompt Design”)只對大模型有效,基于上下文學(xué)習(xí)的下游任務(wù)的質(zhì)量遠(yuǎn)遠(yuǎn)落后于微調(diào)的 LLM 。

SEO 已死,LLMO 萬歲

在這項(xiàng)工作中,該團(tuán)隊(duì)探索了“prompt tuning”(提示調(diào)整),這是一種允許凍結(jié)的模型學(xué)習(xí)“軟提示”以完成特定任務(wù)的技術(shù)。與離散文本提示不同,提示調(diào)整通過反向傳播學(xué)習(xí)軟提示,并且可以根據(jù)打標(biāo)的示例進(jìn)行調(diào)整。

已知的上下文學(xué)習(xí)的局限性

大型語言模型的上下文學(xué)習(xí)還有很多局限和亟待解決的問題,包括:
  • 效率低下,每次模型進(jìn)行預(yù)測都必須處理提示。
  • 性能不佳,基于提示的上下文學(xué)習(xí)通常比微調(diào)的性能差。
  • 對于提示的格式、示例順序等敏感。
  • 缺乏可解釋性,模型從提示中學(xué)習(xí)到了什么尚不明確。哪怕是隨機(jī)標(biāo)簽也可以工作!

    SEO 已死,LLMO 萬歲

總結(jié)

隨著搜索和大型語言模型(LLM)的不斷發(fā)展,企業(yè)必須緊跟前沿研究的腳步,為搜索信息方式的變化做好準(zhǔn)備。在由 ChatGPT 這樣的大型語言模型主導(dǎo)的世界里,保持領(lǐng)先地位并且將你的業(yè)務(wù)集成到搜索系統(tǒng)中,才能保證企業(yè)的可見性和相關(guān)性。

上下文學(xué)習(xí)能以較低的成本向現(xiàn)有的 LLM 注入信息,只需要很少的訓(xùn)練示例就能運(yùn)行原型。這對于非專業(yè)人士來說也容易上手,只需要自然語言接口即可。但是企業(yè)需要考慮將 LLM 用于商業(yè)的潛在道德影響,以及在關(guān)鍵任務(wù)中依賴這些系統(tǒng)的潛在風(fēng)險(xiǎn)和挑戰(zhàn)。

總之,ChatGPT 和 LLM 的未來為企業(yè)帶來了機(jī)遇和挑戰(zhàn)。只有緊跟前沿,才能確保企業(yè)在不斷變化的神經(jīng)搜索技術(shù)面前蓬勃發(fā)展。

本文經(jīng)授權(quán)轉(zhuǎn)自 Jina AI,原文鏈接:https://jina.ai/news/seo-is-dead-long-live-llmo/

本文來自微信公眾號“CSDN”(ID:CSDNnews),作者:Jina AI CEO 肖涵,36氪經(jīng)授權(quán)發(fā)布。

資深作者CSDN
0
相關(guān)話題
AIGC賽道追蹤
相關(guān)文章
最新文章
查看更多
關(guān)注 36氪企服點(diǎn)評 公眾號
打開微信掃一掃
為您推送企服點(diǎn)評最新內(nèi)容
消息通知
咨詢?nèi)腭v
商務(wù)合作