法学硕士可以检索隐藏数据

Unlocking the Potential of Data at Australia Data Forum
Post Reply
rumana777
Posts: 186
Joined: Thu Dec 26, 2024 3:58 am

法学硕士可以检索隐藏数据

Post by rumana777 »

通常,最可靠的数据丰富选项是使用针对您的特定需求进行微调的 LLM,尤其是在处理大数据时。这是一个昂贵的选项,对于资源有限的公司来说并不容易获得。不过,我鼓励您至少尝试使用易于访问的 LLM 解决方案进行测试。

说到使用 LLM 来丰富数据,其主要优势在于能够以通常需要人类或类人智力的方式从数据中提取信息。此类任务需要理解背景并具备得出结论的能力。

有人可能会说,从源数据中提取“免费试用”之类的信息不算丰富,但根据我的经验,这是一项比数据清理或简单地查找关键字更高级别的任务。法学硕士对上下文的理解程度很高,他们可以从数据中提取信息,而无需使用源中提到的确切短语。这会产生宝贵的、难以获得的数据。

LLM 实际应用:公司分析示例
准备好再举一个例子了吗?让我们仔细看看 Coresignal 的多源公司数据。该数据集包含超过 3500 万条公司记录,全面展现了每个行业中全球最杰出的公司。

每个简介都包含所有关键的公司 准确的手机号码列表 特征的列表,例如公司统计数据、投资信息或劳动力趋势。

其中一些领域是在丰富过程中出现的,当时基于 LLM 的算法分析了公司描述,识别了新兴类别,并定义了可用于定义公司的关键词,例如技术图表数据。

使用法学硕士进行充实的局限性
当你的企业需要发展时,法学硕士可能会变得昂贵。但你始终可以使用开源选项。它们不如付费选项好,但仍为企业带来了许多转型机会。

不过,许多开源选项都受到 LLM 可以理解的上下文大小的限制。上下文窗口决定了语言模型在准备提示响应时可以理解的上下文范围。从某个角度来看,复杂用例的上下文范围可以是一整本书。

所需的上下文窗口越大,您需要的模型就越高级。而且模型越大,消耗的资源就越多。例如,分析诸如较长的产品或职位描述之类的数据意味着更广泛的输入,并且可能需要更大的模型。

你可以随时减少输入,但在大多数情况下,输入给 LLM 的信息越少,结果就越差。这是一个很难打破的循环,但像谷歌的 Gemini 1.5 这样的解决方案已经表明 LLM 不必受上下文限制。Gemini 1.5 可以一次性处理 100 万个标记,相当于 70 万个单词的上下文。

因此,在攻读法学硕士期间,您始终会努力尽可能高效地利用它们,努力平衡服务价格(或运行法学硕士)和投入大小。否则,您获得的质量足够好,但运行起来却太难/太昂贵,反之亦然。
Post Reply