axtrur
@axtrur
Followers
3K
Following
2K
Media
216
Statuses
1K
fullstack engineer,web3 and AI buildler
Joined September 2020
【2025年浏览器自动化年终总结】 今年浏览器自动化的实践太多了,不管是chromium based AI浏览器comet, atlas,还是infra的browserbase, steel, browser-use,或者各个coding agent配套的chrome extension和无数sdk&mcp,这两天把今年研究过的自动化产品跟路径梳理一遍,汇总一个大图,欢迎交流
manus的browser use有两种,一种是一开始的cloud browser,应该是基于e2b做的云端浏览器沙箱,可以接管,另一种是local browser,路径是manus web 到 manus server 然后server跟本地chrome extension维护websocket下发指令,通过扩展操作本机浏览器
3
27
131
很棒的开源项目:用skill的方式实现browser-use自动化 可以替代playwright-mcp,这样一定程度上按需加载skill,可以减少mcp tool的上下文,从而减少token费用, 同时这个项目支持extension浏览器扩展模式,类似claude extension或者manus的my browser https://t.co/oCLa3olK4A
github.com
A Claude Skill to give your agent the ability to use a web browser - SawyerHood/dev-browser
10
68
356
Agent概念扫盲【Protocol】 终于讲到Protocol协议层了,整体分2部分 1. Agentic Protocol比如MCP、A2A、AG-UI、ACP、ANP等 2. Generative UI Spec Protocol比如MCP-UI、A2UI、以及基于MCP-UI的openai sdk protocol等一些UI协议规范 协议也很容易混淆,比如ACP跟Zed的ACP不是一个东西,AGUI不是UI协议
Agent概念扫盲【Streaming】 Streaming是流式传输或者流式渲染的基础,一般包括 1. model provider streaming 2. agent framework streaming (包括agent之间的streaming) 3. json streaming (跟stream json容易混淆) 4. markdown streaming
0
14
91
Agent概念扫盲【Streaming】 Streaming是流式传输或者流式渲染的基础,一般包括 1. model provider streaming 2. agent framework streaming (包括agent之间的streaming) 3. json streaming (跟stream json容易混淆) 4. markdown streaming
Agent概念扫盲【Tool】 Tool As Action是Agent Design最重要的一部分 它本身除了用来做模型行动的能力之外,有时候会用来做上下文隔离、引导、增强工具,进一步左右Long Run Agent行为
2
10
115
Agent概念扫盲【Tool】 Tool As Action是Agent Design最重要的一部分 它本身除了用来做模型行动的能力之外,有时候会用来做上下文隔离、引导、增强工具,进一步左右Long Run Agent行为
Agent概念扫盲【structured output】 今天看到gemini3支持了combine tool and structured output特性,刚好之前概念写了这个,补充了gemini3的特性发出来给大家看下。在我看来provider层的structured output能力是tool call跟约束输出的基础,可以用来做agentic workflow或者后续的JSON streaming
1
12
82
学习到一个新概念 MemAct【Memory As Action】 在这之前有: 【Text As Action】 【Tool As Action】 【Code As Action】 https://t.co/uVqSSBrq5s
0
7
36
之前我设想的2个viber coding产品崭新的交互能力,cursor已经实现了第一个了,这两个设想的功能分别是 (1)modify as design:像设计软件一样可视化拖拽来修改代码,它不仅仅是简单select(比如 https://t.co/HSikMLWsIR),他可以像画布编排一样自由 (2)copy plaste as code:不同形态数据 copy
github.com
Select context for coding agents directly from your website - aidenybai/react-grab
You can now design directly in your codebase. Select elements, modify them visually, and Cursor writes the code.
0
0
2
推荐大家看下并且开始研究skill + code-act,它是Anthropic试图构建通用Agent但却无法满足所有人需求的背景下的产物
Next up! Claude skills are under-appreciated! @barry_zyj and @MaheshMurag from @AnthropicAI are back at AIE stage this year, to tell us about telling Claude about new skills via simple markdown and code files!
2
17
83
OpenAI的Pulse主动式研究助理功能,感觉真的越来越有用了,特别是当我某一段时间集中在做某个事情的时候,不管是记忆还是第二天的Pulse推荐,都有一种心流的感觉,而且因为OpenAI模型本身的严谨(很少出现错误的知识点),他们的记忆是我唯一会开启的
1
0
7
总结agent开发的3个核心: 1. 它是从确定性工程转变为概率性工程的底层心智重构 2.不要去思考你能给到agent的工具的编排顺序,而是去思考你能给agent的环境是什么? 3. text is everything,多去思考如何在无序的text世界里构建有序的行动空间
4
3
69
Agent概念扫盲【structured output】 今天看到gemini3支持了combine tool and structured output特性,刚好之前概念写了这个,补充了gemini3的特性发出来给大家看下。在我看来provider层的structured output能力是tool call跟约束输出的基础,可以用来做agentic workflow或者后续的JSON streaming
Agent概念扫盲【Message】 Message是Agent开发最为重要的一个部分,基本涵盖了后续如何基于这个Message结构进行Context Engineering 上下文的改写、压缩、注入、加载、卸载等生命周期管理, 另一方面不管对接的模型是什么,对接的框架是Langchain还是AIsdk还是Claude Agent SDK,理解UIMessage 跟
2
8
54