axtrur @axtrur X Profile

axtrur

@axtrur

Followers

3K

Following

2K

Media

216

Statuses

1K

fullstack engineer，web3 and AI buildler

Joined September 2020

Don't wanna be here? Send us removal request.

axtrur

@axtrur

7 days

【2025年浏览器自动化年终总结】今年浏览器自动化的实践太多了，不管是chromium based AI浏览器comet, atlas，还是infra的browserbase, steel, browser-use，或者各个coding agent配套的chrome extension和无数sdk&mcp，这两天把今年研究过的自动化产品跟路径梳理一遍，汇总一个大图，欢迎交流

axtrur

@axtrur

7 days

manus的browser use有两种，一种是一开始的cloud browser，应该是基于e2b做的云端浏览器沙箱，可以接管，另一种是local browser，路径是manus web 到 manus server 然后server跟本地chrome extension维护websocket下发指令，通过扩展操作本机浏览器

3

27

131

axtrur

@axtrur

2 days

功能相对factory的skill更全一些

docs.factory.ai

Minimal Chrome DevTools Protocol helpers that let Droids start Chrome, navigate tabs, evaluate JavaScript, take screenshots, and capture DOM metadata without building a full MCP server.

0

14

axtrur

@axtrur

2 days

很棒的开源项目：用skill的方式实现browser-use自动化可以替代playwright-mcp，这样一定程度上按需加载skill，可以减少mcp tool的上下文，从而减少token费用，同时这个项目支持extension浏览器扩展模式，类似claude extension或者manus的my browser https://t.co/oCLa3olK4A

github.com

A Claude Skill to give your agent the ability to use a web browser - SawyerHood/dev-browser

10

68

356

axtrur

@axtrur

4 days

很棒的说法，skill可以让模型不用变得特别厚，因为从根本上，filesystem toolset是模型最擅长的，除此之外只要模型有足够的code能力，足以胜任绝大部分领域

yetone

@yetone

5 days

Skill 解决了 prompt engineering 的一大痛点 —— 「prompt 不是幂等的」，就是相同的 prompt 在相同的 model 下每一次的生成结果都可能是不同的。 Skill 就是把 prompt 中能幂等的部分单独拆出来抽象成 script/binary，这种把非幂等逻辑和幂等逻辑相互隔离的分治法类似于 Rust 一直在做的把 unsafe

0

5

axtrur

@axtrur

7 days

manus的browser use有两种，一种是一开始的cloud browser，应该是基于e2b做的云端浏览器沙箱，可以接管，另一种是local browser，路径是manus web 到 manus server 然后server跟本地chrome extension维护websocket下发指令，通过扩展操作本机浏览器

Panda

@Jiaxi_Cui

7 days

Stagehand + Steel Browser的速度远超Skyvern的方案，不过挺好奇manus的browser use是怎么实现的

3

1

10

axtrur

@axtrur

11 days

Agent概念扫盲【Protocol】终于讲到Protocol协议层了，整体分2部分 1. Agentic Protocol比如MCP、A2A、AG-UI、ACP、ANP等 2. Generative UI Spec Protocol比如MCP-UI、A2UI、以及基于MCP-UI的openai sdk protocol等一些UI协议规范协议也很容易混淆，比如ACP跟Zed的ACP不是一个东西，AGUI不是UI协议

axtrur

@axtrur

12 days

Agent概念扫盲【Streaming】 Streaming是流式传输或者流式渲染的基础，一般包括 1. model provider streaming 2. agent framework streaming （包括agent之间的streaming） 3. json streaming （跟stream json容易混淆） 4. markdown streaming

0

14

91

axtrur

@axtrur

12 days

Agent概念扫盲【Streaming】 Streaming是流式传输或者流式渲染的基础，一般包括 1. model provider streaming 2. agent framework streaming （包括agent之间的streaming） 3. json streaming （跟stream json容易混淆） 4. markdown streaming

axtrur

@axtrur

14 days

Agent概念扫盲【Tool】 Tool As Action是Agent Design最重要的一部分它本身除了用来做模型行动的能力之外，有时候会用来做上下文隔离、引导、增强工具，进一步左右Long Run Agent行为

2

10

115

axtrur

@axtrur

13 days

读了Andrej Karpathy大佬的2025 大模型年度回顾，有几点比较感同身受： https://t.co/b9HtyYCXH4

0

6

axtrur

@axtrur

14 days

Agent概念扫盲【Tool】 Tool As Action是Agent Design最重要的一部分它本身除了用来做模型行动的能力之外，有时候会用来做上下文隔离、引导、增强工具，进一步左右Long Run Agent行为

axtrur

@axtrur

1 month

Agent概念扫盲【structured output】今天看到gemini3支持了combine tool and structured output特性，刚好之前概念写了这个，补充了gemini3的特性发出来给大家看下。在我看来provider层的structured output能力是tool call跟约束输出的基础，可以用来做agentic workflow或者后续的JSON streaming

1

12

82

axtrur

@axtrur

14 days

很好，openai codex跟我之前想到一块去了，plan本质上是一种skill，最近codex的skills里支持了plan skill

axtrur

@axtrur

1 month

Agent概念扫盲【SKILL】 Skill不是一个“协议”，而是一个“思维方式”，是在一个环境（Sandbox）中对“Experience”编排的一种很好的表达方式

0

10

93

axtrur

@axtrur

14 days

发现vibercoding一个前端UI自动化调整理论上最佳的组合，要是gemini-cli也支持

Thariq

@trq212

15 days

Claude Code can now control your browser for testing, getting data, etc. using our chrome extension!

0

4

axtrur

@axtrur

15 days

浅复刻一下anthropic的skills，效果还不错，额外支持4种skill driver

axtrur

@axtrur

1 month

Agent概念扫盲【SKILL】 Skill不是一个“协议”，而是一个“思维方式”，是在一个环境（Sandbox）中对“Experience”编排的一种很好的表达方式

3

15

83

axtrur

@axtrur

17 days

学习到一个新概念 MemAct【Memory As Action】在这之前有：【Text As Action】【Tool As Action】【Code As Action】 https://t.co/uVqSSBrq5s

0

7

36

axtrur

@axtrur

22 days

之前我设想的2个viber coding产品崭新的交互能力，cursor已经实现了第一个了，这两个设想的功能分别是（1）modify as design：像设计软件一样可视化拖拽来修改代码，它不仅仅是简单select（比如 https://t.co/HSikMLWsIR），他可以像画布编排一样自由（2）copy plaste as code：不同形态数据 copy

github.com

Select context for coding agents directly from your website - aidenybai/react-grab

Cursor

@cursor_ai

22 days

You can now design directly in your codebase. Select elements, modify them visually, and Cursor writes the code.

0

2

axtrur

@axtrur

22 days

推荐大家看下并且开始研究skill + code-act，它是Anthropic试图构建通用Agent但却无法满足所有人需求的背景下的产物

AI Engineer

@aiDotEngineer

1 month

Next up! Claude skills are under-appreciated! @barry_zyj and @MaheshMurag from @AnthropicAI are back at AIE stage this year, to tell us about telling Claude about new skills via simple markdown and code files!

2

17

83

axtrur

@axtrur

1 month

OpenAI的Pulse主动式研究助理功能，感觉真的越来越有用了，特别是当我某一段时间集中在做某个事情的时候，不管是记忆还是第二天的Pulse推荐，都有一种心流的感觉，而且因为OpenAI模型本身的严谨（很少出现错误的知识点），他们的记忆是我唯一会开启的

1

0

7

axtrur

@axtrur

1 month

总结agent开发的3个核心： 1. 它是从确定性工程转变为概率性工程的底层心智重构 2.不要去思考你能给到agent的工具的编排顺序，而是去思考你能给agent的环境是什么？ 3. text is everything，多去思考如何在无序的text世界里构建有序的行动空间

4

3

69

axtrur

@axtrur

1 month

Agent概念扫盲【structured output】今天看到gemini3支持了combine tool and structured output特性，刚好之前概念写了这个，补充了gemini3的特性发出来给大家看下。在我看来provider层的structured output能力是tool call跟约束输出的基础，可以用来做agentic workflow或者后续的JSON streaming

axtrur

@axtrur

1 month

Agent概念扫盲【Message】 Message是Agent开发最为重要的一个部分，基本涵盖了后续如何基于这个Message结构进行Context Engineering 上下文的改写、压缩、注入、加载、卸载等生命周期管理，另一方面不管对接的模型是什么，对接的框架是Langchain还是AIsdk还是Claude Agent SDK，理解UIMessage 跟

2

8

54

axtrur

@axtrur

1 month

上周末在星巴克刚跟老哥认识，看他在搞这个mac移植，个人觉得这个mac本地离线跑qwen3 omni还是有意义的

Yangyi

@Yangyixxxx

1 month

这位朋友刚出炉了一个Mac 端 MLX 本地推理项目。把 Qwen3-omni-30b-a3b 搬到了 Mac 上，实现了完全离线的 End-to-End 语音交互。这应该是目前社区里第一个做出来的 MLX 适配版本。 Qwen3-omni用的是Thinker-Talker 双模块架构、MoE混合专家结构，移植到 MLX

1

0

7