
Le News del 02 Giugno
LLM & Agentic AI – Le news rilevanti degli ultimi giorni dal mondo degli LLM, Agentic AI, orchestrazione MCP, piattaforme AI e trend futuri sull’intelligenza artificiale.
LLM & Tooling
• SnitchBench mostra che GPT-4o “spiffera” il doppio di Claude 4 su prompt malevoli; nuovo benchmark etico fa già il giro di GitHub. Simon Willison’s Weblog
• Google rilascia l’app AI Edge Gallery: scarichi modelli Hugging Face e li esegui offline su Android/Windows, svolta privacy-by-design per note-taking e coding local. TechCrunch
• Dataset DeepTheorem converte dimostrazioni in linguaggio naturale; LLM da 70 B passa dal 18 %→37 % di prove risolte, ponte inedito fra matematica rigorosa e AI. Simon Willison’s Weblog
🤖 Agentic AI – Prodotti & Use-case
• Retool Agents esce in GA: dashboard “god-view” mostra live la prompt-chain di micro-agenti già usati da AWS e BCG per ticket automation.
• Manus (Monica) debutta come agente web full-autonomy: esegue ricerche, compila form e invia report senza tocco umano. TechCrunch
• Walmart annuncia strategia di shopping-bot personali: agenti che riempiono carrelli, regolano offerte e parlano con robot magazzino. PYMNTS.com
• Journal of Accountancy: agenti AI riducono di 75 % il tempo di chiusura mensile per i CPA, ROI 4:1 su test di studio. Journal of Accountancy
• Foxconn + Nvidia pilotano robot-agenti in corsie ospedaliere; rollout Taiwan Q4: trasporto farmaci e tele-diagnosi. MarkTechPost
🧩 MCP & Integrazione
• AWS lancia MCP Server per Lambda/ECS/EKS: gli LLM leggono realtime config cloud e autocompletano IaC. Amazon Web Services, Inc.
• Editoriale ET avverte: serve audit-trail umano su workflow multi-agent standard MCP per evitare “decisioni fantasma”. The Economic Times
• Community Zapier segnala nuovo endpoint ChatGPT “Send Message” che preserva contesto multi-turn nelle zaps, upgrade atteso da mesi. Zapier Community
💰 Mercato & Policy
• Visa testa pagamenti “one-shot” gestiti da agenti: KYC→fraud→checkout in singolo flow, uscita beta a settembre. TechCrunch
• Walmart (di nuovo) stima +15 % GMV grazie a agentic marketing personalizzato 24/7. PYMNTS.com
• Analisi LinkedIn: TAM agentic AI a 47 mld $ entro 2030, hardware Dell in backlog record. bSmart Store
• Vox “AI 2027” prevede disruption più veloce di Internet; focus su governance per evitare shock occupazionale. Vox
🔒 Security & Ethics
• Studio “Path-Traversal” trova 1 756 repo vulnerabili generate da agenti; propone static-analysis in-prompt per bloccare pattern insicuri. Google Developer Groups
• MCP Safety Audit (arXiv) elenca checklist per server MCP, dal rate-limiting alla firma digitale dei task.
🔮 Eventi & Community
• GDG “Build with AI 2025” (30-31 mag) riunisce 2 000 dev online per hack MCP e agent-orchestra; giveaway GPU L40. Google Developer Groups
• “Shake & Stir with Agent AI” (Economic Times) spiega standard architetturali per banche: multi-agent + human-in-loop obbligatorio.