在电商领域,用户的购物流程通常涉及寻找商品、挑选满足需求的产品、与商家进行询盘,以及完成付款和履约等步骤。这一流程构成了从用户视角出发的标准交互形态。在这一过程中,AI 技术的应用已经深入到导购、营销、询盘、商家工具和销售后台等多个环节,极大地提升了电商平台的运营效率。本文的重点在于如何将这些 AI 应用整合为一个整体,实现数据与决策的交互。具体而言,通过精准捕捉用户需求画像,满足其多样化的需求类型,进而实现智能决策。这一整体概念旨在将现有的搜索推荐模式转变为未来用户深度交互的导购模式,使电商平台能够扮演智能导购的角色,引导用户更好地进行采购,并促进复购场景的形成。这是电商在 AIAgent 领域实现突破的重要前提。
3. 1688 的 AIAgent 探索
以 1688 为例,平台展现出了强烈的 B 类用户导向。B 类用户,如经营轻奢连衣裙的中年妇女品牌商家,在采购时,会面临很多条件性因素的考量,比如寻找一款热销且价格在一定范围内,商家评价又高的商品。这些长尾化和离散的数据在传统搜索方式下难以一次性满足其需求。传统的做法是通过不断尝试 query 词或基于 item to item、user to item 的推荐逻辑,但整个交互过程仍然依赖于数据统计决策。我们的目标是将数据决策过程转化为基于逻辑推导的过程。这意味着,在用户明确需求后,通过预先设定的逻辑框架来精确匹配用户需求,而不是仅仅依赖于数据推荐。这一转变将深刻影响搜索引擎和推荐算法的交互方式,使得机器能够更深入地理解并满足 B 类用户的复杂需求。在现实中,B 类用户的需求往往包含大量非结构化和差异化的元素,这使得简单的搜索或推荐方式难以实现深度匹配。我们理想中的解决方案是,平台能够像线下批发市场一样,充分了解并满足买家的各种需求,包括商品和服务的多样化要求。这一目标的实现,将极大地提升 B 类用户在电商平台的采购体验,并推动电商行业向更加个性化、智能化的方向发展。02
Agent 解决方案
1. 基于 LLM 的应用模式
大模型在电商领域的应用展现出了其强大的潜力和广泛的标准定义。从在人做事的过程中融入大模型的生成能力,到能够在助手体系中实现人机深度交互,进而通过 Agent 执行体实现有效任务级的代理。这一概念不仅深化了我们对 Agent及 AI 交互的理解,也为我们提供了综合运用的模式。具体而言,这种模式允许我们在 Agent 内部结合多种算法,或在 copilot 中实现多任务并行处理。在电商领域,大模型的应用首先解决了成本和规模问题,展现了其确定性和平台的投入价值。其次,大模型还能解决传统方法无法处理的问题,实现新的深度能力,进一步推动了电商领域的发展。与传统的大模型泛化应用不同,大模型在电商领域的应用更加专注于解决特定领域的深度问题,根据需求对模型进行训练和微调。展望未来,我们期待大模型与电商场景实现深度融合,打造 AI native 的深度交互场景,为用户带来更加自然、智能的购物体验。
2. LLM 应用的研发方式
模型应用的过程可以分为三个阶段。首先,当模型需要预训练时,其迭代周期与训练要求均属高标准,这一阶段依赖于基础设施和长期的研发积累。进入第二阶段,若涉及监督微调和业务评估模型,如 reward model 等体系,并辅以少量的强化学习(尽管该领域目前尚未成熟),则算法的深度介入变得至关重要。最后,当模型应用进入 prompt 的调试和整体数据效果优化阶段时,算法与工程均可灵活切入,共同推动模型性能的提升。这三个阶段在投入量与产出效果上各有差异。我们期望模型能根据不同场景和问题类型进行适配。对于解题型任务,我们希望模型能更深入、更实用,因此会加大中间环节的投入。而若希望模型应用场景广泛,则更需依赖 prompt 的构造和基础模型的能力。这些经验来源于我们在模型开发过程中的实践与思考。
实现高效的交互循环,首先需要一个完备的知识库作为支撑。知识库融合了众多异构数据源,包括内部和外部数据,确保模型在静态之外也能获取到最新信息。为了处理这些具有时效性的数据,我们引入了外部引擎,如通过 API 调用夸克等服务。内部数据则通过不断提取、文档化、检索和应用的过程,实现知识的有效管理。考虑到数据的复杂性和多样性,我们采取了离线预处理的方法,确保数据在接入时就已经经过了清洗和整合。同时,我们关注在线数据的实时性和有效性,通过两级缓存策略优化检索链路和合并性能。首先,在应用层实现 KV 缓存,提供快速的数据访问;其次,在平台层面实现向量召回,确保复杂查询的高效处理。整体而言,这一知识库链路的构建,不仅为交互循环提供了坚实的基础,也确保了数据的高效处理和应用,从而支持了复杂交互场景的实现。
在实际应用中,我们经常会遇到这样的情况:在比较两个商品时,模型将某个商品置于首位,可能会增加该商品获得好评的概率。这种现象要求我们具备强大的模型边界定义能力,以准确判断哪些情况是错误的。为了达到这一目的,测试质量在后期起着关键作用,它能够帮助我们确定模型的用例和质量评分。测试构造的过程通常从创建测试语料开始,这涉及使用 AI 工具和远程数据模型进行对比分析。同时,人工评测的重要性不容忽视,尽管我们期望减少人工干预以提高规模化和应用的稳定性,但在当前阶段,基于模型的客观与人工对比打分仍然是必要的步骤。这一过程将持续进行,直到我们能够得出可靠的质量报告,为模型的优化和归因提供有力支持。04
AI 创新范式
1. 产品驱动模式
随着 AI 技术的不断发展,其创新的边界正在被重新定义,对产品驱动模式、研发流程以及技术趋势产生了深远影响。传统的电商业务目标通常基于运营策略构建产品方案,随后通过算法进行决策和运筹,再到工程层面进行数据交互和渲染。然而,在大模型时代,这一流程发生了显著变化。首先,模型能力成为决定产品方案的关键因素。懂得模型能力边界和应用模型的人员不再局限在传统产品团队,而可能来自技术团队或技术产品背景。他们可基于不断验证模型或应用效果来构建产品设想,并评估模型应用能否实现可规模化。这一过程对于创新产品方案的迭代至关重要。其次,智能化定义的边界变得模糊化。为了提供更好的用户体验,如帮助用户找到更好的产品,不再仅仅依赖于现有产品体系的迭代和研发团队的跟进。相反,需要跳出传统框架,探索新的模型带来的产品交互变化。另外,工程能力也需要进行补全。随着算法调试和模型调整成为主要工作,数据处理能力变得尤为重要。工程师需要具备更强的算法应用能力,以确保后续研究和研发工作的顺利进行。同时,工程团队还需要完成基础设施建设,以降低模型调整的成本,并缩短上线验证的周期。总体来看,AI 技术的发展带来了研发模式的变革。模型能力、新产品边界和工程能力成为影响产品开发和应用的关键因素。为适应这一变化,团队构造和研发流程需要相应调整,以更好地利用 AI 技术的潜力。
2. 研发流程 SOP
在 AI 研发中,研发的流程正经历着显著的变化。新的研发模式强调运维态的平台化能力,利用开源或面向大规模服务的平台,实现模型的调度和应用配置的简化,减少开发运维投入。同时,开发态和观察态的反复迭代成为常态,通过不断补充数据和微调模型,以追求更好的应用效果。这种从开发态到观察态的持续切换,体现了敏捷迭代的重要性。为了支持这一过程,整个平台需要同时考虑纵向的敏捷迭代和横向的基础建设。这意味着需要一支专注于基础建设的团队,解决工程应用问题,同时需要懂业务和数据工程的团队来推动上层应用的优化。通过这种不断迭代的方式,可以持续提高 Agent 的应用场景效果,并基于用户反馈和使用率的数据,不断提升系统的整体性能。
在未来的规划中,我们将探索 AI 在消费电商和产业化领域的广泛应用。首先,关注视频技术和数字人讲解等应用场景,这些技术不仅需要强大的模型能力,还消耗大量显卡资源。然而,若能实现泛化应用,它们将极大地提升供给侧的构建效率,为电商带来大量用户交互体验的改善。我们期待这些技术能与电商的搜索和推荐系统相结合,打造全新的用户产品平台。在供应链方面,我们致力于将平台上的非结构化信息转化为结构化数据,以实现更高效的商品定制和供应链管理。例如,通过文本描述,用户可以轻松定制商品,而商家则能更便捷地提供个性化服务。此外,我们还计划通过 AI 技术提高供应链的渗透能力,实现与 ERP 系统的高效对接,减少信息转化和集成的时间及人力成本。更进一步,我们将探索如何通过 AI 技术编排供应链的任务流和上下流,构建一个集成生态系统,连接平台与业务,以及工业品等源头产业链。这一规划不仅将提升供应链的效率,还将为整个电商生态带来更大的想象空间。
2. 一些感悟
在 AI 向产业渗透的过程中,电商作为一个典型的赛道,其技术发展遵循着特定的生命周期。在这一赛道中,技术的推进往往遭遇挑战与瓶颈,投入与产出的比例时常波动。对于 AIAgent 的应用,其核心在于 LM 的泛化应用,旨在解决非结构化到结构化匹配之间的连接问题。然而,其输出结果具有自带的偶然性和随机性,这要求我们在推广时不仅要展示成功案例,更要关注其普遍适用性和稳定性。目前,业界对于电商领域 AIAgent 的探索和应用正不断深入,如京东的豆包、淘宝的问问等,均致力于提升用户满意度和交互体验。这些努力的目标,是希望从现有的搜推模式,进化到更为智能、更为用户友好的交互方式,从而推动电商行业的进一步发展。06
问答环节
Q1:怎么理解 Agent 的概念,它和 RPA 在业务上的差别在哪里?A1:在探讨 AIAgent 的功能时,其最终理想表现为能够自动解析并执行各类任务。以订票为例,当用户提出需求时,Agent 通过内置的模型迅速理解其意图,并自动将需求转化为具体的任务流,如查询航班、选择座位、支付购票等。这一过程无需人工干预,完全由 Agent 自主完成,实现了从任务接收到任务完成的自动化流程,即所谓的 Auto Agent 模式。这种模式的实现,不仅极大提升了工作效率,也为用户带来了更加便捷、智能的体验。RPA 是一种基于任务流编排的自动化流程。这种编排允许用户设定一系列的操作或功能,形成固定的流程。然而,当面对如法律文件分析这类需要高度准确性和专业性的任务时,固定的流程可能显得不够灵活。这种 Auto Agent 模式,虽然流程被精心设计和编排,但在面对变化或错误时,其修正能力有限。我们团队近期研究了一种新的解决方案,该方案能够动态地分析商品和人群特征,并基于后台模型进行自动判断和分支决策。这一方法展现了 Auto Agent 的潜力,能够自适应地应对不同场景。然而,我们也认识到,在复杂的决策链中,一旦某个环节出现错误,修正的难度将显著增加。因此,如何确保系统的准确性和鲁棒性,仍是我们需要深入探索的问题。Q2:在微调大模型的时候,这怎么避免在自己的垂直领域的数据集上过拟合?A2:在探讨微调模型时,我们首先经历了一个 SFT 过程,并随后运用 reward model 进行修正。然而,值得注意的是,尽管国内文献中普遍提及重新进行强化学习,但在实际社区中,强化学习的线上应用效果并不理想。这提示我们,在采用此类方法时需谨慎评估其适用性。此外,当考虑通过 SFT 方法提升模型效果时,存在一个显著的问题:一旦模型底座的尺寸发生变化,之前的微调可能失效,甚至需要全部重调。为了避免这种资源的浪费,建议在进行微调时尽量考虑全尺寸调整,并充分投入资源。仅通过降低维度进行微调虽然可能部分满足需求,但长期来看,这种策略在数据集或模型尺寸发生变化时,其效果将大打折扣。基于我们的经验,将模型降低维度以进行过拟合的策略,在实际应用中效果并不理想。这种方法往往只能在非常狭窄的范围内取得较好的效果,且推理速度虽快,但泛化能力有限。因此,在进行模型调整时,我们需要更加全面和谨慎地考虑各种因素,以确保调整的有效性和可持续性。Q3:搜推场景下,使用大模型的性能如何,有没有考虑用小点的模型?A3:在搜推场景中,传统的倒排索引结构以其高效性而著称,其推荐和搜索的响应速度通常在几十毫秒内完成,远超过大模型推理的实时性。为了克服这一挑战,我们提出了结合传统搜推技术与大模型推理的方案。具体而言,我们首先利用大模型推理出推荐逻辑,然后利用这些逻辑在搜索结果中进行召回,并在召回后进行大模型推理的重排。然而,这种方法在实时性要求极高的一级入口场景中并不适用,因为尽管它能提供更精准的推荐逻辑,但性能上的限制使其难以满足实时需求。此外,用户对于搜推场景的期望和习惯也是我们需要考虑的重要因素。用户往往更习惯于传统的搜推方式,其高效性和直观性深受用户喜爱。因此,尽管交互式场景可以作为一种补充,但完全替代传统搜推方式并不现实。然而,在某些特定场景下,如用户需要深入了解某类产品或服务时,大模型推理可以发挥其优势,通过改写搜索词、重构用户长尾需求等方式,提供更精准的搜索结果。结合传统搜推技术与大模型推理是一种可行的方案,但需要根据具体场景和用户需求进行权衡和选择。在追求精准性的同时,我们也应充分考虑实时性和用户体验,以提供更为优质的搜索和推荐服务。