为您的数据科学项目找到免费数据集的15个地方
如果您曾在个人数据科学项目上工作过,您可能花了很多时间才能为有趣的数据集进行互联网进行分析。
筛选几十个数据集可以很有趣,以找到最合适的,但它也可能令人沮丧,下载和导入多个CSV文件,只发现数据刚刚丢失,不太有趣。幸运的是,有在线存储库保留一组数据和(大多数)删除无趣的数据库。
在本文中,我们将查看不同类型的数据科学项目,包括数据可视化项目,数据清理项目和机器学习项目,并确定为每个数据清理项目和机器学习项目确定正确的位置以查找每个数据集。
无论您是想加强数据科学组合,是否可以通过良好显示数据,或者如果您有几个小时的备用,并且想要练习您的机器学习技能,我们已经覆盖了。
数据可视化项目的数据集
一个典型的数据可视化项目可能是“我想创建一个信息图表如何在美国的不同状态变化。”
在寻找数据可视化项目的好数据集时,有一些注意事项:
- 这不应该是复杂的,因为你不想花很多时间清理你的数据。
- 它必须足够细致,有趣的是制作它的图形。
- 理想情况下,每个列应该很好地解释显示器准确。
- 数据集不应具有太多行或列,因此它易于使用。
- 寻找数据可视化项目的好数据集的好地方是发布自己数据的新闻网站。
他们通常会为您清理数据,并且还有一些您创建的图表,您可以重现或改进。
1. NewsData.io(对于新闻数据集)
newsdata.io. 如果您感兴趣,是一个很棒的平台 历史新闻数据集,因为他们还为突发新闻和历史新闻提供了新闻API。因此,他们每天都会收集新闻数据。在您请求实际的历史新闻数据集之前,它们还提供免费数据样本。
2. fivethirtyeight.
fivethirtyeight. 是一个令人难以置信的流行互动新闻和北方银牌的体育网站。
他们写了有趣的数据驱动的文章,例如“不要责备缺乏生产雇用的技能”和“2016年的NFL预测”。
fivethirtyeight使其在GitHub上的文章中使用的数据集。
3. Buzzfeed.
Buzzfeed 开始作为低质量文章的提供者,但自从进化以来,现在写了调查文章,例如“法院统治世界的法院”和“人间囤积的短暂生活”。
BuzzFeed使数据集在GitHub上提供的文章中使用。
4. Socrata Opendata.
Socrata opendata. 是包含几个自己的数据集的门户,可以在浏览器中查看或下载以便查看。重要的部分数据来自美国政府来源,其中许多人已经过时了。
您可以在不注册的情况下从OpenData浏览和下载数据。您还可以使用视图和导航工具来探索浏览器中的数据。
数据处理项目的数据集
有时你只想用一大一组数据工作。最终结果并不像读取和分析数据的过程那么重要。
您可以使用像Spark或Hadoop这样的工具来分发多个节点的处理。在寻找有关数据处理的好数据集时请记住:
- 更清晰的数据,更好的清洁大型数据集可能需要很长时间。
- 数据集应该是有趣的。
- 数据应该有一个有趣的问题可以回答。
像亚马逊和谷歌这样的云托管提供者是找到大型公共数据集的好地方。它们被激励到主机数据集,因为它们会使用其基础架构进行分析(并且他们为此付费)进行分析。
5. AWS公共数据集
亚马逊 使大型数据集提供 亚马逊网络服务 平台。您可以下载数据并在计算机上使用它,或使用EC2和Hadoop通过EMR分析云中的数据。您可以了解有关该程序如何在此处工作的更多信息。
亚马逊有一个页面,列出了浏览的所有数据集。尽管亚马逊确实为您提供了一个免费的新帐户的访问权限,但您将需要一个AWS帐户,以便您允许您无需浏览数据。
6. Google公共数据集
就像亚马逊一样,谷歌还提供云托管服务,称为 谷歌云平台。使用GCP,您可以使用一个名为BigQuery的工具来探索大型数据。
Google列出了页面上的所有数据集。您需要创建一个GCP帐户,但您所做的第一个1TB请求是免费的。
7.维基百科
维基百科 是免费的,在线,社区编辑的百科全书。维基百科含有惊人的知识,与哈斯斯堡的奥斯曼战争到伦纳德尼莫伊的一切都有页面。
作为维基百科对知识进步的承诺的一部分,它们提供了所有内容,并定期为网站上的所有文章倾倒。此外,维基百科提供了更改和活动的历史,因此您可以随着时间的推移跟踪一个主题的页面的进度,并知道谁是贡献它。
您可以找到不同的方法来下载维基百科网站上的数据。您还将找到以各种方式重新格式化数据的脚本。
用于机器学习项目的数据集
在机器学习项目上工作时,您希望能够从数据集中的其他列中预测列。为此,我们需要确保:
- 数据集不是太复杂 - 如果是,我们将花费所有时间清理数据。
- 有一个有趣的目标专栏进行预测。
- 另一个变量对目标列具有一些解释性。
有机器学习的特定数据集有在线存储库。这些数据集通常早期清理清除,并允许算法非常快速地测试。
8.卡格林
卡格林 是一个托管机器学习竞赛的数据科学社区。在外部提供的网站上有各种有趣的数据集。卡格提供了现场和历史竞赛。
您可以下载两者的数据,但您必须注册一次演货话并同意比赛的使用条款。
您可以通过输入比赛来下载Kaggle数据。每次竞争都有自己的相关数据集。新的Kaggle DataSet提供中还有用户提供的数据集。
9. UCI机器学习存储库
这 UCI机器学习存储库 是网络上最古老的数据集源之一。虽然数据集是用户提供的,因此具有不同级别的文档和清理,但绝大多数都是干净的,准备申请。
在寻找有趣的数据集时,UCI是一个很棒的第一个停止。
您可以直接从UCI机器学习存储库下载数据,而无需注册。这些数据集往往很小,没有很多细微差别,但它们对机器学习非常有用。
10. Quandl.
Quandl. 是经济和财务数据的存储库。其中一些信息是免费的,但有许多需要购买的数据集。 Quandl对于创建模型来预测经济指标或股票价格是有用的。由于可用的大量数据集,可以构建一个复杂的模型,该模型使用许多数据集来预测另一个数据集。
数据清洁项目的数据集
有时它可以非常令人满意地拍摄多个文件分布的数据集,清理它,将其冷凝成一个,然后执行分析。在数据清理项目中,有时需要数小时的研究,以确定每个列包含数据集手段。
有时它可能会发现您正在分析的数据集不适合您想要做的事情,并且您必须重新开始。
查找数据清理项目的好数据集时,您需要:
- 传播跨多个文件。
- 他们有许多细微差别和许多可能的角度。
- 需要一个公平的研究来理解。
- 尽可能“真实”。
这些类型的数据集通常在数据集聚合器上找到。这些聚合器倾向于具有来自多个来源的数据集,而无需微小。太多的护理给了我们过于精确的数据集,很难彻底清洁。
11. data.world.
data.world. 将自己描述为“数据人员的社交网络”,但它可以更正确地被描述为“数据的GitHub”。它是您可以搜索,复制,分析和下载数据集的地方。
此外,您可以将数据上传到data.world并使用它与他人协作。在相对较短的时间内,它已成为数据采集的基准之一,通过用户和奇妙的数据集提供了许多数据集,得益于Data.World与包含大量美国联邦政府数据的各种组织的合作伙伴关系。
Data.World的一个关键型器是他们创建的工具,以更轻松地使用数据:您可以在其界面中编写SQL查询以探索数据并合并多个数据集。它们还具有用于R和Python的SDK,使其更容易捕获和使用您喜欢的工具中的数据。
12. data.gov.
data.gov. 是一个相对较新的网站,是美国开放政府努力的一部分。 Data.gov允许您从几个美国政府机构下载数据。
数据可以从政府预算到学校表现得分。大多数数据需要进一步的研究,有时可能难以理解哪个数据集是“正确”版本。
任何人都可以下载数据,尽管某些数据集需要其他步骤,例如接受许可协议。
您可以直接浏览Data.gov上的数据集,无需注册。您可以按域浏览或搜索特定的数据集。
13.世界银行
世界银行 是一个全球发展组织,为发展中国家提供贷款和建议。世界银行经常在发展中国家进行课程,然后收集数据以跟踪这些方案的成功。
您可以直接浏览世界银行数据集,而无需注册。数据集具有许多缺失值,有时需要多次点击以实际访问数据。
14. / r / datasets
reddit.是一个受欢迎的社区聊天网站,有一个专门用于共享有趣的数据集的部分。这称为supreddit或/ r / dataSet。这些数据集的范围变化很大,因为它们都是用户提交的,但它们往往是非常有趣和细致的。
15.学术种子
学术种子 是一个专注于从科学论文共享数据集的新网站。这是一个较新的网站,所以很难说出更常见的数据集是什么样的。目前,它有很多有趣的数据集缺乏上下文。
您可以直接在网站上浏览数据集。由于这是一个Torrent网站,因此可以立即下载所有数据集,但您需要一个BitTorrent客户端。 Deluge是一个很好的选择。
内容来源网络,如有侵权,联系删除,本文地址:https://www.230890.com/zhan/160391.html