axtrur Profile Banner
axtrur Profile
axtrur

@axtrur

Followers
3K
Following
2K
Media
216
Statuses
1K

fullstack engineer,web3 and AI buildler

Joined September 2020
Don't wanna be here? Send us removal request.
@axtrur
axtrur
7 days
【2025年浏览器自动化年终总结】 今年浏览器自动化的实践太多了,不管是chromium based AI浏览器comet, atlas,还是infra的browserbase, steel, browser-use,或者各个coding agent配套的chrome extension和无数sdk&mcp,这两天把今年研究过的自动化产品跟路径梳理一遍,汇总一个大图,欢迎交流
@axtrur
axtrur
7 days
manus的browser use有两种,一种是一开始的cloud browser,应该是基于e2b做的云端浏览器沙箱,可以接管,另一种是local browser,路径是manus web 到 manus server 然后server跟本地chrome extension维护websocket下发指令,通过扩展操作本机浏览器
3
27
131
@axtrur
axtrur
2 days
很棒的开源项目:用skill的方式实现browser-use自动化 可以替代playwright-mcp,这样一定程度上按需加载skill,可以减少mcp tool的上下文,从而减少token费用, 同时这个项目支持extension浏览器扩展模式,类似claude extension或者manus的my browser https://t.co/oCLa3olK4A
Tweet card summary image
github.com
A Claude Skill to give your agent the ability to use a web browser - SawyerHood/dev-browser
10
68
356
@axtrur
axtrur
4 days
很棒的说法,skill可以让模型不用变得特别厚,因为从根本上,filesystem toolset是模型最擅长的,除此之外只要模型有足够的code能力,足以胜任绝大部分领域
@yetone
yetone
5 days
Skill 解决了 prompt engineering 的一大痛点 —— 「prompt 不是幂等的」,就是相同的 prompt 在相同的 model 下每一次的生成结果都可能是不同的。 Skill 就是把 prompt 中能幂等的部分单独拆出来抽象成 script/binary,这种把非幂等逻辑和幂等逻辑相互隔离的分治法类似于 Rust 一直在做的把 unsafe
0
0
5
@axtrur
axtrur
7 days
manus的browser use有两种,一种是一开始的cloud browser,应该是基于e2b做的云端浏览器沙箱,可以接管,另一种是local browser,路径是manus web 到 manus server 然后server跟本地chrome extension维护websocket下发指令,通过扩展操作本机浏览器
@Jiaxi_Cui
Panda
7 days
Stagehand + Steel Browser的速度远超Skyvern的方案,不过挺好奇manus的browser use是怎么实现的
3
1
10
@axtrur
axtrur
11 days
Agent概念扫盲【Protocol】 终于讲到Protocol协议层了,整体分2部分 1. Agentic Protocol比如MCP、A2A、AG-UI、ACP、ANP等 2. Generative UI Spec Protocol比如MCP-UI、A2UI、以及基于MCP-UI的openai sdk protocol等一些UI协议规范 协议也很容易混淆,比如ACP跟Zed的ACP不是一个东西,AGUI不是UI协议
@axtrur
axtrur
12 days
Agent概念扫盲【Streaming】 Streaming是流式传输或者流式渲染的基础,一般包括 1. model provider streaming 2. agent framework streaming (包括agent之间的streaming) 3. json streaming (跟stream json容易混淆) 4. markdown streaming
0
14
91
@axtrur
axtrur
12 days
Agent概念扫盲【Streaming】 Streaming是流式传输或者流式渲染的基础,一般包括 1. model provider streaming 2. agent framework streaming (包括agent之间的streaming) 3. json streaming (跟stream json容易混淆) 4. markdown streaming
@axtrur
axtrur
14 days
Agent概念扫盲【Tool】 Tool As Action是Agent Design最重要的一部分 它本身除了用来做模型行动的能力之外,有时候会用来做上下文隔离、引导、增强工具,进一步左右Long Run Agent行为
2
10
115
@axtrur
axtrur
13 days
读了Andrej Karpathy大佬的2025 大模型年度回顾,有几点比较感同身受: https://t.co/b9HtyYCXH4
0
0
6
@axtrur
axtrur
14 days
Agent概念扫盲【Tool】 Tool As Action是Agent Design最重要的一部分 它本身除了用来做模型行动的能力之外,有时候会用来做上下文隔离、引导、增强工具,进一步左右Long Run Agent行为
@axtrur
axtrur
1 month
Agent概念扫盲【structured output】 今天看到gemini3支持了combine tool and structured output特性,刚好之前概念写了这个,补充了gemini3的特性发出来给大家看下。在我看来provider层的structured output能力是tool call跟约束输出的基础,可以用来做agentic workflow或者后续的JSON streaming
1
12
82
@axtrur
axtrur
14 days
很好,openai codex跟我之前想到一块去了,plan本质上是一种skill,最近codex的skills里支持了plan skill
@axtrur
axtrur
1 month
Agent概念扫盲【SKILL】 Skill不是一个“协议”,而是一个“思维方式”,是在一个环境(Sandbox)中对“Experience”编排的一种很好的表达方式
0
10
93
@axtrur
axtrur
14 days
发现vibercoding一个前端UI自动化调整理论上最佳的组合,要是gemini-cli也支持
@trq212
Thariq
15 days
Claude Code can now control your browser for testing, getting data, etc. using our chrome extension!
0
0
4
@axtrur
axtrur
15 days
浅复刻一下anthropic的skills,效果还不错,额外支持4种skill driver
@axtrur
axtrur
1 month
Agent概念扫盲【SKILL】 Skill不是一个“协议”,而是一个“思维方式”,是在一个环境(Sandbox)中对“Experience”编排的一种很好的表达方式
3
15
83
@axtrur
axtrur
17 days
学习到一个新概念 MemAct【Memory As Action】 在这之前有: 【Text As Action】 【Tool As Action】 【Code As Action】 https://t.co/uVqSSBrq5s
0
7
36
@axtrur
axtrur
22 days
之前我设想的2个viber coding产品崭新的交互能力,cursor已经实现了第一个了,这两个设想的功能分别是 (1)modify as design:像设计软件一样可视化拖拽来修改代码,它不仅仅是简单select(比如 https://t.co/HSikMLWsIR),他可以像画布编排一样自由 (2)copy plaste as code:不同形态数据 copy
Tweet card summary image
github.com
Select context for coding agents directly from your website - aidenybai/react-grab
@cursor_ai
Cursor
22 days
You can now design directly in your codebase. Select elements, modify them visually, and Cursor writes the code.
0
0
2
@axtrur
axtrur
22 days
推荐大家看下并且开始研究skill + code-act,它是Anthropic试图构建通用Agent但却无法满足所有人需求的背景下的产物
@aiDotEngineer
AI Engineer
1 month
Next up! Claude skills are under-appreciated! @barry_zyj and @MaheshMurag from @AnthropicAI are back at AIE stage this year, to tell us about telling Claude about new skills via simple markdown and code files!
2
17
83
@axtrur
axtrur
1 month
OpenAI的Pulse主动式研究助理功能,感觉真的越来越有用了,特别是当我某一段时间集中在做某个事情的时候,不管是记忆还是第二天的Pulse推荐,都有一种心流的感觉,而且因为OpenAI模型本身的严谨(很少出现错误的知识点),他们的记忆是我唯一会开启的
1
0
7
@axtrur
axtrur
1 month
总结agent开发的3个核心: 1. 它是从确定性工程转变为概率性工程的底层心智重构 2.不要去思考你能给到agent的工具的编排顺序,而是去思考你能给agent的环境是什么? 3. text is everything,多去思考如何在无序的text世界里构建有序的行动空间
4
3
69
@axtrur
axtrur
1 month
Agent概念扫盲【structured output】 今天看到gemini3支持了combine tool and structured output特性,刚好之前概念写了这个,补充了gemini3的特性发出来给大家看下。在我看来provider层的structured output能力是tool call跟约束输出的基础,可以用来做agentic workflow或者后续的JSON streaming
@axtrur
axtrur
1 month
Agent概念扫盲【Message】 Message是Agent开发最为重要的一个部分,基本涵盖了后续如何基于这个Message结构进行Context Engineering 上下文的改写、压缩、注入、加载、卸载等生命周期管理, 另一方面不管对接的模型是什么,对接的框架是Langchain还是AIsdk还是Claude Agent SDK,理解UIMessage 跟
2
8
54
@axtrur
axtrur
1 month
上周末在星巴克刚跟老哥认识,看他在搞这个mac移植,个人觉得这个mac本地离线跑qwen3 omni还是有意义的
@Yangyixxxx
Yangyi
1 month
这位朋友刚出炉了一个Mac 端 MLX 本地推理项目。 把 Qwen3-omni-30b-a3b 搬到了 Mac 上,实现了完全离线的 End-to-End 语音交互。这应该是目前社区里第一个做出来的 MLX 适配版本。 Qwen3-omni用的是Thinker-Talker 双模块架构、MoE混合专家结构,移植到 MLX
1
0
7