Customize Consent Preferences

We use cookies to help you navigate efficiently and perform certain functions. You will find detailed information about all cookies under each consent category below.

The cookies that are categorized as "Necessary" are stored on your browser as they are essential for enabling the basic functionalities of the site. ... 

Always Active

Necessary cookies are required to enable the basic features of this site, such as providing secure log-in or adjusting your consent preferences. These cookies do not store any personally identifiable data.

No cookies to display.

Functional cookies help perform certain functionalities like sharing the content of the website on social media platforms, collecting feedback, and other third-party features.

No cookies to display.

Analytical cookies are used to understand how visitors interact with the website. These cookies help provide information on metrics such as the number of visitors, bounce rate, traffic source, etc.

No cookies to display.

Performance cookies are used to understand and analyze the key performance indexes of the website which helps in delivering a better user experience for the visitors.

No cookies to display.

Advertisement cookies are used to provide visitors with customized advertisements based on the pages you visited previously and to analyze the effectiveness of the ad campaigns.

No cookies to display.

NEWS 新闻NEWS 新闻
0

北京 – 在人工智能领域,数据是驱动模型发展的关键燃料。为了更高效地获取高质量的预训练数据,清华大学和卡内基梅隆大学近日联合开源了一款名为Crawl4LLM的智能爬虫系统。该系统旨在通过智能评估网页对大语言模型(LLM)预训练的价值,从而优先抓取高价值网页,显著提升LLM预训练的效率。

Crawl4LLM的出现,有望解决当前LLM预训练过程中面临的数据获取难题。传统爬虫往往采用广撒网的方式,抓取大量低价值网页,造成资源浪费。而Crawl4LLM则另辟蹊径,通过预训练影响力评分器对网页进行评估,实现智能化网页选择。

Crawl4LLM的核心功能与技术亮点:

  • 智能化网页选择: Crawl4LLM的核心在于其预训练影响力评分器,该评分器基于网页内容的质量、相关性等指标,评估网页对LLM预训练的贡献。这意味着爬虫不再盲目抓取,而是有选择性地获取对模型训练最有价值的数据。
  • 多种爬取模式: 为了适应不同的应用场景,Crawl4LLM提供了三种爬取模式:
    • 智能模式: 基于网页价值评估,优先抓取高价值网页。
    • 随机模式: 随机抓取网页,适用于非精准需求场景。
    • 基于链接数量模式: 根据网页链接数量抓取,适合大规模数据采集。
  • 爬虫状态定期保存: 该功能允许用户定期保存爬虫状态,即使中断也能从中断点继续抓取,有效避免数据丢失。
  • 数据浏览与可视化: Crawl4LLM提供数据浏览工具和可视化界面,方便用户实时监控爬取进度和效果。
  • 与DCLM框架无缝对接: Crawl4LLM能够与DCLM框架无缝对接,使得爬取的数据可以直接用于LLM预训练,提高数据流效率和准确性。

技术原理剖析:

Crawl4LLM的技术核心在于其预训练影响力评分和优先级队列。系统首先使用预训练影响力评分器(如DCLM fastText)对网页进行评分,该评分器基于网页内容的质量、相关性等指标,评估网页对LLM预训练的贡献。随后,系统基于优先级队列对网页进行排序,优先爬取评分最高的网页,替代传统爬虫基于图连通性(如PageRank)的调度机制。

实验结果与应用前景:

在ClueWeb22数据集上的大规模模拟实验表明,Crawl4LLM在不同场景下均表现出高效性。与传统爬虫相比,Crawl4LLM能够以更少的爬取量获取更高质量的预训练数据,效率提升近5倍。

Crawl4LLM的应用场景广泛,包括:

  • LLM预训练数据收集: 高效获取高质量数据,用于大语言模型的预训练。
  • 搜索引擎优化: 提升搜索结果质量,优化用户体验。
  • 数据集构建: 快速筛选和构建高质量语料库,满足研究和商业需求。
  • 网络监测与分析: 监测网络动态,分析热点话题和信息传播。
  • 企业级数据采集: 精准抓取特定领域数据,用于知识管理或市场分析。

开源与可持续发展:

Crawl4LLM的开源不仅加速了LLM领域的技术发展,也促进了更可持续的预训练数据获取方式。通过减少不必要的网页爬取,Crawl4LLM降低了对网站的流量负担,提升了爬取行为的合规性。

项目地址:

Crawl4LLM的开源,无疑为大语言模型的发展注入了新的活力。随着更多研究者和开发者参与到Crawl4LLM的改进和应用中,我们有理由相信,LLM的预训练效率将得到进一步提升,从而推动人工智能技术的更快发展。


>>> Read more <<<

Views: 0

0

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注