在这篇文章中,我将向你介绍 Google 推出的一款新模型家族,名为 Data Gemma。
Data Gemma 是世界上第一个设计来解决幻觉问题的开源模型,旨在通过 Google 的 Data Commons 中庞大的真实世界统计数据,为大规模语言模型提供依据。
我们将讨论这些术语的含义,并在本地系统上安装 Data Gemma 进行测试。
昨天 Google 发布了两个模型,一个是 Data Gemma RAG 27B,另一个是 Data Gemma RIG 27B。
我会分别在两篇文章中讨论它们。在这篇文章中,我将介绍 Data Gemma RAG 27B。对于这两个模型,我们将分析它们的架构,了解其中发生的具体情况,然后在本地系统上安装并测试。
那么,什么是 Data Gemma 呢?正如我所提到的,它专门解决大型语言模型中的幻觉问题,并使用 Google 的 Data Commons 中的统计数据。
当我们提到幻觉时,意思是说,当你使用 RAG(即检索增强生成)技术时,向大型语言模型提供自己数据的上下文,有时模型在无法找到答案时,会虚构一个答案,提供误导性或错误的信息,甚至直接撒谎。
这就是所谓的“幻觉”,而这是一个巨大的问题。我在很多封闭源和开源模型中都看到过这个问题,尤其是在测试成百上千个模型时。
Data Gemma 试图解决这个问题。RAG 使语言模型能够结合其训练数据以外的相关信息,吸收更多上下文,产生更全面、信息更丰富的输出。而 Data Gemma 通过 Gemini 1.5 Pro 的长上下文窗口,能够在生成响应前从 Data Commons 检索相关的上下文信息。这是关键,它减少了幻觉的风险,并提高了响应的准确性。
Data Commons 是一个包含超过 2400 亿个数据点的公共知识图谱,涵盖成千上万的统计变量。它的数据来源于联合国、世界卫生组织、疾病控制中心、人口普查局等值得信赖的组织。
这为政策制定者、研究人员和寻求准确见解的机构提供了帮助。你可以将 Data Commons 看作一个庞大且不断扩展的数据库,充满了可靠的公共数据,Data Gemma 就是基于这些数据进行训练的。
模型card中提供了许多关于训练的详细信息,我会在文末提供链接以供参考。现在,需要确保你已登录 Hugging Face,这是一个免费的平台。登录后,向下滚动页面,接受该模型的条款和条件,因为这是一个 GED 模型,所以必须接受这些条款。
现在我们创建一个 Conda 虚拟环境,我强烈建议你这么做。如果你不熟悉 Conda,可以在我的频道找到相关文章。现在我们来创建这个 Conda 环境,名为 DG(Data Gemma),这个过程非常快。
接下来,我们安装所需的库,包括 Torch、Transformers 和 Hugging Face Hub,
因为我们需要登录 Hugging Face Hub 以下载模型。登录 Hugging Face 后,获取你的读取密钥。
所有依赖项安装完成后,我们通过 CLI 命令登录 Hugging Face,输入读取密钥并确认,登录成功。
然后我们安装 Jupyter Notebook,这样我们可以在浏览器环境中运行模型。
模型下载完毕后,它会被加载到 GPU 上,整个模型的大小约为 45GB。
现在让我们看看如何使用这个模型进行推理。
我们给模型输入一个文本,要求它生成最多 25 个与查询相关的统计问题。模型将生成这些问题,我们将其转化为可理解的查询,并进行解码和打印。
现在模型已经生成了响应。比如我们的查询是关于 Sunnyville 城市中与性别、年龄、移民、经济状况等相关的趋势。
模型生成了很多自然语言问题,我们可以将这些问题复制到 Data Commons 中的自然语言接口中。
比如,我们输入上面的第1个问题:“Sunnyville 的外籍出生人口数量是多少?”,模型给出了具体的数字,还提供了图表,
▲ https://datacommons.org/
你甚至可以点击查看详细数据,下载图表,或查看人均数据。
总的来说,这个模型非常优秀,Data Commons 的数据集质量非常高,提供了很多准确的答案。
来源:AI进修生