太强大了!零基础小白用GPT-5做可视化数据分析

随着GPT5的上市,ChatGPT持续火爆

根据Similarweb 2025 年最新全球网站流量数据,Chatgpt.com 已跻身全球前五!仅次于谷歌、油管、脸书和instag,高于推特、百度、雅虎一众传统网站,还是唯一进入全球前五的 AI/GPT 相关网站

图片

抛开各种花式玩法,ChatGPT  还有很多实用功能

上次我在《GPT-5 的 25 个隐藏神技,掌握了就超过 90% 的人》提到了数据分析。有朋友试用了之后说,这个功能太巴适了。

用起来就好像吃着火锅,唱着歌,巴适!开通Plus会员,每个月少吃一顿串串,就当请了个全栈程序员+数据分析师!

图片

下面,将用最经典的《泰坦尼克号生存因素分析》数据集,向您介绍,如何用GPT5的完美复刻Kaggle金牌大佬的 Python数据挖掘框架,完成经典数据集泰坦尼克的数据分析+可视化功能。

一、项目背景

泰坦尼克号沉没是历史上有名的沉船事件之一。1912 年 4 月 15 日,在泰坦尼克号的首次航行中,与冰山相撞后沉没,使 2224 名乘客和机组人员中的 1502 人丧生。这一耸人听闻的悲剧震惊了国际社会。

沉船事故导致人员丧生的原因之一是没有足够的救生艇供乘客和船员使用。尽管在下沉中幸存有一定的运气,但某些群体比其他群体更可能生存。

什么决定了他们的存活?

头等舱的所谓上层地位?身强力壮的个体素质?还是尊老爱幼的社会良俗?

kaggle,全球最大的数据科学和机器学习竞赛平台,曾将这个问题纳入比赛选题。

大神 Kernel,凭借分析泰坦尼克号存活因素一举获得 kaggle 金牌。

这个项目涉及到很多数据分析和机器学习的基本步骤,例如数据导入、数据清洗、数据探索、特征工程、模型训练、模型评估等。

大神 Kernel 获得金牌的时候,还没有 ChatGPT,他用的是传统 python 程序分析,他的分析全过程点这里。

现在,ChatGPT4  的出现,让完全不懂技术的人,也可以迅速地完成数据分析,撰写一份图文并茂的分析报告。

不需要懂编程,只需要输入几句自然语言,就可以让 ChatGPT4 为你生成相应的文字分析、可视化图表!

你可以将其用在你工作、生活的各个方面!

下面我就来为你演示这个过程。

10 分钟,只要 10 分钟。

二、登录 ChatGPT

1、进入官网 openai.com

登录 openai 主页面,点击“login in”,输入账户、密码,进入 chat.openai.com

如果你没有 GPT 账号,点这里看如何注册

GPT5基础使用详见《GPT-5,入门到精通!保姆级教程》

目前,想敞开用可视化数据分析功能,需要PLus会员,最近野卡不能使用,可以采用以下方式开通或者续费Plus

三分钟搞定!国内用微信完成ChatGPT Plus 订阅升级续费》

2、新建一个 对话

如果你经常使用数据分析,可以新建一个“数据分析”项目

图片

给这个项目增加一个指令“你是一个世界一流的专业数据分析师,请你按照最专业的方式、方法,使用文字和可视化图表帮用户分析数据和材料”

图片

以后所有这个项目中的对话,都会默认使用这个AI人设

三、数据分析与可视化

1、数据读取与检查

(1)取得数据

你需要准备泰坦尼克的数据集。

所谓数据集就是一个 EXCEL 表或者.CSV 文件,有很多基础信息,比如员工信息表、财务台账、贷款人信息表等。泰坦尼克这个案例就是乘客信息表。

本文提到的所有数据集、字体,公众号回复 “泰坦” 取得

你也可以让 AI 帮你找,我用的乘客信息表数据集下载地址就是 GPT 告诉我的。

提示:您能自行寻找一份原始的泰坦尼克数据集,或者提供一个下载链接吗

图片

(2)上传数据

下载后上传数据文件给GPT

图片

(3)给 GPT 一个角色

你也可以不新建项目,按以下方式给GPT一个人设和人物 AI:

“提示词:我上传了一份文件给你。假设你是一个世界一流的专业数据分析师,请你按照最专业的方式、方法,帮我一步一步分析这份文件。”

注意:“一步一步”这个词很重要

图片

GPT5立刻答复说:我收到了你上传的文件 data_titanic.csv。要不要我先帮你加载并快速浏览一下数据结构(前几行、列名、缺失值情况),然后我们再一步一步做专业的数据分析?

我当然回答:好

2、数据预处理

数据预处理由 GPT-4 自行完成,但是它会将分析过程呈现出来:

(1)先预览数据

接到了你前面的提示词 后,AI 回答:

图片

(2)数据清洗

GPT 提供预览后,大部分时间下,无须你的提示,AI 会自动开展下一步工作。根据不同的缺失值,GPT4采取了不同的处理方式

GPT5 还是按照数据清洗 4c 原则:校正(Correcting)、填充(Completing)、创建(Creating)、转换(Converting)。

对缺失值,用中位值或者平均值代替

图片

(3)探索性数据分析

注意,GPT5比GPT4聪明,有时候会直接给答案。但是也可以要求它先做探索性数据分析

图片

你发现没有?GPT完成上一个指令后,会对它下一步的行动给出建议!这是因为我在系统设置中保留了“在聊天中显示跟进建议”默认项

GPT先做了一个“总体生存率概览图”

问题来了,出现了乱码。因为缺少字体

图片

ChatGPT 默认没有中文字体,这时候你可以上传一个中文字体给GPT4,上传方式和前面上传数据集一样。(不是每种中文字体都能用哈,公众号回复 “泰坦” 取得 泰坦尼克数据集+可用中文字体)

配套提示词如下:

提示:“使用我上传的中文字体显示图表的标题和标签”

图片

图表改为了中文,同时,还可以切换为交互图表、下载、更改颜色

图片

GPT5会继续对下一步行动做出建议:是否需要我接下来用这个字体,继续绘制 单因素分析(例如性别、舱位等级、年龄分布对生存率的影响)?

你也可以这样告诉它:

提示:“分析每个因素对乘客的存活率的影响”

3、可视化图形

收到这条提示后,GPT 开始绘图,画得飞快

先给了几张图

图片

还说:已完成单因素分析并绘制图表,字体统一为你上传的 阿里巴巴普惠体。结果概览:

  1. 性别:女性生存率显著高于男性。

  2. 舱位等级:头等舱 > 二等舱 > 三等舱,等级越高越容易生还。

  3. 年龄:儿童和青年更有优势,老年生存率低。

  4. 家庭规模:过大或独自一人都不利,家庭规模在 2–4 较有利。

  5. 票价:票价高的人生存率更高。

  6. 登船港口:C 港(Cherbourg)生存率高于 S、Q。

所有图形图例都可以让他改,柱状图饼图,上百种可视化图表都支持

单因素分析:

性别:

图片

舱位:

图片

年龄:

图片

多因素交叉分析图:

舱位等级 × 性别 与生存率

图片
舱位等级 × 家庭身份 与生存率
图片
要求:“做 舱位 × 家庭身份 生存率 柱状图,从低至高排序,做简要解读”
图片
提示:“柱状图不区分仓位,完全从低到高排序,颜色还是要保留仓位等级”。

重新让GPT完全按比例排序,得到:
图片

GPT 继续分析说:这些分析结果提供了一些有趣的洞见。例如,票价高可能意味着乘客在船上的社会地位较高,因此在发生灾难时有更多的机会获救。同样,孩子和母亲的生存率高可能是因为在撤离过程中优先照顾了妇女和儿童。

(四)扩展

想让 GP 多展示一些图,我就问

提示词:“能用热图表示存活率么?并做概述”

GPT4 做出了热图,并分析说:

“这是一个热图,展示了船舱等级和家庭身份与存活率的关系。颜色越深的区域代表存活率越高。

我们可以从热图中看出:

在所有的船舱等级与家庭身份组合中,一等舱的母亲和二等舱的母亲有最高的存活率。被认定为 “Father” 的乘客的存活率普遍较低,无论是在哪个船舱等级中。对于被认定为 “Other” 的乘客,一等舱的存活率显著高于二等舱和三等舱。这个热图提供了一个直观的方式来比较不同船舱等级和家庭身份组合的存活率。”

图片
如果你觉得不满意,改可以让 AI 换个色系

GPT更换红色系如下图:

图片

注意:如果你不知道怎么改,就把感觉告诉给 AI,让它自行做主来改,你再评价。

我们也可以用开放式问题,让 AI 自己做,例如:

提示词:"你能用这些数据,做出一个你认为最有趣、最复杂的分析吗?请用图形表示并做出说明"

GPT说:

“当然可以。我想我可以通过研究不同等级舱位(Pclass)、性别(Sex)和年龄(Age)对生存率的影响,来创建一个比较复杂的可视化。我的假设是,这三个因素可能都对乘客的生存率有所影响,并且他们之间可能存在相互作用。

让我们首先创建一个新的年龄组列(AgeGroup),将年龄分为”儿童”(< 18 岁)、”成年人”(18-59 岁)和”老年人”(60 岁以上)。然后,我们将创建一个分面网格(facet grid),在网格中的每个面板都显示一个特定的舱位等级,然后绘制生存率与性别和年龄组的关系。”

图片

提示词:"请你对乘客的存活率影响因素,做一个概述,并推断出当时社会的价值观"

GPT回答:通过对泰坦尼克号数据的分析,可以总结出以下主要影响存活率的因素:

  1. 性别

    • 女性生还率约 75%,男性仅约 20%。

    • 性别是最强决定因素。

  2. 舱位等级(社会经济地位)

    • 一等舱生还率≈66%,三等舱仅≈24%。

    • 舱位等级与票价高度相关,经济条件决定了逃生机会的大小。

  3. 年龄

    • 儿童(0–12岁)生还率最高(≈59%)。

    • 成年男性的生还率最低,尤其在三等舱。

  4. 家庭角色

    • 母亲≈79%,子女≈55%,父亲≈14%。

    • 父亲生还率极低,反映出“牺牲自己,保护家人”的行为模式。


对当时社会价值观的推断

这些模式不仅是统计结果,更折射出 20 世纪初的社会价值观:

  1. “女士优先,儿童优先”

    • 在危机中,女性与儿童被优先安置到救生艇,体现了当时社会对弱势群体的保护观念。

  2. “绅士精神与父亲角色的牺牲”

    • 父亲和成年男性普遍放弃生还机会,把救生艇位置让给妻子和孩子。

    • 这体现了男性承担“保护者”的角色期待。

  3. 阶层差异明显

    • 一等舱乘客更接近甲板和救生艇,获救率远高于三等舱。

    • 这揭示了当时社会阶层分化对生命机会的直接影响。

综上所述,我们可以推断出,尽管泰坦尼克号的灾难是一个极端的情况,但当时的社会价值观和阶级结构在乘客的生存率中起着重要作用。特别是社会阶级、性别和年龄对生存率的影响,揭示了一个深刻的社会现象:在灾难面前,资源的分配并不平等,社会的弱势群体(如三等舱的乘客、男性和成年人)往往处于不利的地位。这些发现提醒我们,在我们的社会中,公平和公正的资源分配,以及对所有人生命的尊重,仍然是我们需要努力追求的目标。”

四、报告撰写

既然 AI 这么专业,我们就让它写报告:

提示词:"这样,你能根据上面你的分析,汇总撰写一份有逻辑的的《关于泰坦尼克乘客生存率因素分析报告》,要求文字+图片,图片由你根据内容绘制"

图片

GPT写了一个报告,还给了一个PDF下载链接。大家看看这个PDF的内容,就是把刚才讨论的分析和图表做成了报告

图片

美中不足就是字体还是乱的,提示提示

实话实说,写到这里我不禁为那些只擅长数据处理等单一技术的初级数据分析师捏了把汗。GPT 可能在专业领域上无法与高级分析师相媲美,但在数据处理效率、数据洞察力和图表制作能力方面,远远超过人类分析师。

再加上建模能力和机器学习、预测分析,估计综合能力已经超过大部分人类数据分析师了。

想象一下未来AI可能变得多么强大,简直让人不敢想象。

好啦,今天的分享就到这里。今天我们以泰坦尼克数据集为例,向您展示了 GPT 数据分析方面的强大功力!

别忘了公众号回复“泰坦”,取得泰坦尼克数据集和中文字体。

接下来,我们将继续结合案例、实际数据,深入分析、分享更多 AI 的应用案例!

© 版权声明
THE END
喜欢就支持一下吧
点赞14 分享
评论 抢沙发

    暂无评论内容