Bez reklamy OpenAI nedávno pridal podrobnosti o svojom webovom prehľadávači, GPTBotna webovú stránku dokumentácie online. GPTBot je názov používateľského agenta, ktorý spoločnosť používa na získavanie webových stránok na trénovanie modelov umelej inteligencie za ChatGPT, ako je GPT-4. Začiatkom tohto týždňa, niektoré stránky Rýchlo oznámili svoj zámer Zabrániť GPTBot v prístupe k jeho obsahu.
V novej dokumentácii OpenAI hovorí, že webové stránky prehľadávané pomocou GPTBot „budú pravdepodobne použité na zlepšenie budúcich modelov“ a že umožnenie prístupu GPTBot na vašu stránku „môže pomôcť modelom AI stať sa presnejšími a zlepšiť ich celkové možnosti a bezpečnosť“.
OpenAI tvrdí, že má implementované filtre, ktoré zaisťujú, že GPTBot nebude mať prístup k zdrojom, ktoré sú za platenými stenami, ktoré zhromažďujú osobne identifikovateľné informácie alebo akýkoľvek obsah, ktorý porušuje pravidlá OpenAI.
Správy o možnosti blokovať tréningy OpenAI (ak ich rešpektujete) prichádzajú príliš neskoro na to, aby ovplyvnili existujúce tréningové údaje pre ChatGPT alebo GPT-4, ktoré boli pred rokmi bez oznámenia zrušené. OpenAI zbierala údaje ku koncu septembra 2021, čo je súčasná „kognitívna“ hranica pre jazykové modely OpenAI.
Je pozoruhodné, že nové pokyny Možno nie Zabráňte verziám na prehliadanie webu ChatGPT alebo zásuvných modulov ChatGPT v prístupe k existujúcim webovým stránkam na prenos aktualizovaných informácií používateľovi. Tento bod nie je vysvetlený v dokumentácii a kontaktovali sme OpenAI kvôli objasneniu.
Odpoveď sa nachádza v súbore robots.txt
Podľa OpenAI dokumentáciuGPTBot bude rozpoznaný tokenom používateľského agenta „GPTBot“, pričom jeho celý reťazec bude „Mozilla/5.0 AppleWebKit/537.36 (KHTML, rovnako ako Gecko; kompatibilné; GPTBot/1.0; + https://openai.com/gptbot) „.
Dokumenty OpenAI tiež poskytujú návod, ako zabrániť GPTBot prehľadávať webové stránky pomocou priemyselných štandardov súbor robots.txt súbor, čo je textový súbor umiestnený v koreňovom adresári webovej lokality, ktorý dáva pokyn webovým prehľadávačom (napríklad tým, ktoré používajú vyhľadávacie nástroje), aby web neindexovali.
Je to také jednoduché, ako pridať tieto dva riadky do súboru robots.txt vašej lokality:
User-agent: GPTBot Disallow: /
OpenAI tiež hovorí, že správcovia môžu obmedziť prístup GPTBot na určité časti webu v súbore robots.txt s rôznymi kódmi:
User-agent: GPTBot Allow: /directory-1/ Disallow: /directory-2/
Okrem toho OpenAI predstavilo Konkrétne bloky IP adries z ktorého sa bude spúšťať GPTBot a ktoré môžu byť blokované aj firewallmi.
Napriek tejto možnosti zablokovanie GPTBot nezabezpečí, že údaje o polohe neskončia tréningom všetkých budúcich modelov AI. Okrem problémov so scrapermi, ktoré ignorujú súbory robots.txt, existujú aj ďalšie veľké súbory údajov skopírovaných webov (ako napr. hromada) nie je pridružený k OpenAI. Tieto súbory údajov sa bežne používajú na školenie LLM s otvoreným zdrojom (alebo open source), ako je Meta’s Llama 2.
Niektoré webové stránky reagujú rýchlo
Zatiaľ čo ChatGPT bol obrovský úspech z technického hľadiska, bol tiež kontroverzný v tom, ako bez povolenia zoškraboval údaje chránené autorskými právami a sústredil túto hodnotu do komerčného produktu, ktorý obchádza model publikovania online. OpenAI bol obvinený (a zažalovaný za) z plagiátorstva v tomto zmysle.
Preto nie je prekvapujúce, že niektorí ľudia reagujú na správy o možnosti blokovať ich obsah v budúcich formulároch GPT určitým spôsobom počúvam. Napríklad v utorok VentureBeat Muž že okrajSubstack Writer Casey NewtonA Neil Clark Z Clarkesworld všetci povedali, že zablokujú GPTBot krátko po tom, čo sa objavili správy o robotovi.
No pre prevádzkovateľov veľkých webov nie je možnosť blokovať LLM prehľadávače také jednoduché, ako by sa mohlo zdať. Tým, že niektoré LLM budú ignorovať údaje z určitých webových stránok, zanechá medzery v znalostiach, ktoré môžu niektorým stránkam veľmi dobre slúžiť (napríklad stránky, ktoré nechcú prísť o návštevníkov, ak im ChatGPT poskytne ich informácie), ale mohlo by to poškodiť aj ostatných. Napríklad blokovanie obsahu z budúcich modelov AI by mohlo znížiť kultúrnu stopu stránky alebo značky, ak sa inteligentné chatboty v budúcnosti stanú primárnym používateľským rozhraním. Ako myšlienkový experiment si predstavte online spoločnosť, ktorá oznámila, že si neželá, aby jej web indexoval Google v roku 2002 – sebadeštruktívny krok, keď to bol najpopulárnejší spôsob vyhľadávania informácií online.
V generatívnej hre AI je stále veľmi skoro a bez ohľadu na to, akým smerom sa technológia uberá – alebo sa jednotlivé stránky pokúšajú odhlásiť sa z tréningu modelov AI – aspoň OpenAI ponúka túto možnosť.
„Bacon ninja. Alkoholický guru. Hrdý prieskumník. Vášnivý nadšenec popkultúry.“