Flipbook推出实时生成式视觉浏览器重构互联网信息呈现方式- DoNews

Flipbook是一个可无限延展的视觉浏览器，所有内容均按需、实时生成。其核心机制摒弃传统HTML、DOM结构与超链接体系，将用户所见全部内容——包括文字、图标、界面元素——统一渲染为图像帧，而非叠加文本或结构化组件。用户点击图像任意位置，系统即刻生成下一张关联图像，实现逐层深入的信息探索，整个过程无网页跳转、无输入框、无传统导航。

在旅行规划演示中，左侧显示Notion风格的文本列表界面，右侧则呈现等轴测插画风格的巴黎地标图，包含埃菲尔铁塔、卢浮宫、圣母院等。点击任一地标，即生成整合门票购买、开放时间、无障碍设施、着装要求等信息的详情页；再次点击可展开建筑内部结构及具体价格表、预约建议与‘立即预约’按钮。信息来源由大语言模型知识与具备行动能力的搜索系统协同提供，事实准确性接近ChatGPT、Gemini或Claude等主流模型水平，偶有偏差但多基于真实在线数据。

测试显示，上传《百年孤独》人物关系图后，点击奥雷里亚诺·布恩迪亚上校区域，约20秒生成其家族关系与生平逻辑图；进一步点击摊开书本图标，可得梅尔基亚德斯预言图解。该交互式可视化方式有助于厘清多代同名、叙事非线性、关系交错的复杂文本结构，建立阅读参考系。Flipbook当前因访问量激增处于排队访问状态。

用户实践案例涵盖多个领域：Gemini后训练软件工程师Xiao Ma用其学习葡萄酒知识；另有用户构建叶绿体光合作用图解，验证其教育适用性。Flipbook适用于需建立整体认知、理清逻辑关系、激发联想的场景，如科学原理阐释、历史事件演进、跨学科启发式探索。其优势在于以连续视觉空间压缩复杂信息，使理解过程具备连贯性与空间感。但不适用于高频、精确、流程明确任务，如快速查证单一数据、多源信息比对或标准化操作流程，因其存在生成延迟、文字不可复制、信息稳定性波动等固有局限。

技术实现层面，团队采用四项关键工程优化：激活缓存复用扩散模型中间计算结果，显著减少重复推理；量化将16位浮点参数映射为8位整数，降低显存占用并提升硬件执行效率；torch.compile对PyTorch计算图进行整体编译优化，消除Python解释开销；内存快照（如CUDA Graph）固化GPU操作序列，规避CPU调度延迟。四者协同，在有限算力下大幅压缩单次图像生成延迟并提升并发处理能力。

视觉风格历经上百次迭代，最终选定编辑插画感等距视角风格——斜俯视、具立体感但结构简洁，兼顾信息可读性与概念表达力。该选择反映团队核心理念：突破HTML框架对信息表达的刚性约束，让计算结果直接以最适配内容形态的视觉形式即时生成。当前屏幕本质是规则驱动的静态图像输出，而Flipbook则依据语义动态生成多样化视觉表达，可能是一句话、一幅插图或高拟真画面。

Flipbook目前为实验性项目，聚焦开放式探索与学习。未来随多模态模型演进，有望接入实时数据流、增强交互深度、支持原生操作执行（如预订、保存、调用API），逐步实现跨应用功能闭环。其终极构想是构建一个以视觉为核心、工具如现实世界般丰富直观的计算环境。尽管尚处早期，Flipbook已展现出打破信息组织范式的能力：每一次点击都在实时重组信息的呈现逻辑，进而可能重塑人类理解复杂世界的方式。

免责声明：本文内容由开放的智能模型自动生成，仅供参考。