Posts tagged with "LLM"

初识大模型 0 - 预训练

323 wordsUpdated: May 11, 2025

# 初识大模型 0 - 预训练 ## Step 1. 从互联网下载数据 从网络上下载的数据需要经过第一步粗加工,比如如果是网站,需要把冗余的标签删掉,留下可读的文本部分;如果是 PDF 或者其他文本格式,都需要提取出纯文本。 然后是剔除敏感数据、非法数据、个人信息等。 通常我们可以可以在 [hugging face](https://huggingface.co/datasets?modal...