初识大模型 0 - 预训练
323 wordsUpdated: May 11, 2025
# 初识大模型 0 - 预训练 ## Step 1. 从互联网下载数据 从网络上下载的数据需要经过第一步粗加工,比如如果是网站,需要把冗余的标签删掉,留下可读的文本部分;如果是 PDF 或者其他文本格式,都需要提取出纯文本。 然后是剔除敏感数据、非法数据、个人信息等。 通常我们可以可以在 [hugging face](https://huggingface.co/datasets?modal...
# 初识大模型 0 - 预训练 ## Step 1. 从互联网下载数据 从网络上下载的数据需要经过第一步粗加工,比如如果是网站,需要把冗余的标签删掉,留下可读的文本部分;如果是 PDF 或者其他文本格式,都需要提取出纯文本。 然后是剔除敏感数据、非法数据、个人信息等。 通常我们可以可以在 [hugging face](https://huggingface.co/datasets?modal...
## 目录结构 [React](https://github.com/facebook/react/tree/main) 用的是 monorepo 的项目管理方式,在尝试源码阅读时,会发现 packages 中有大量的工具库,不清楚哪些是 react 开发中会用到的。所以首先需要从 react 和 react-dom 这两个已知的入口分析哪些 packages 是实际要用的。 我们可以通过 ma...