kaggle数据集某咖啡店的营销数据分析

2024-10-19 14:20 由一头大笨向发表于 #后端开发

因为还处于数据分析的学习阶段（野生Python学者），所以在kaggle这个网站找了两个数据集来给自己练练手。

准备工作

import pandas as pd
import os
import matplotlib.pyplot as plt
import numpy as np
from random import choice

获取数据

这里我下载了两个数据集第一个是关于咖啡的销售情况，第二个是关于Instagram这个网站1000名最受欢迎的博主的数据。

我就从咖啡的销售情况这个表入手，因为我看了第二个表实在是没有什么眉目去做T.T

# 读取目录内的文件
directory = r'C:\Users\Admin\Desktop\demo\练习'
files = os.listdir(directory)
print(files)

['coffee_result.csv', 'Instagram-Data.csv']

# 存放文件
files_list = []
for file in files:
    if file.endswith('.csv'):
        directory_file = fr'{directory}\{file}'
        files_list.append(directory_file)
print(files_list)

['C:\\Users\\Admin\\Desktop\\demo\\练习\\coffee_result.csv', 'C:\\Users\\Admin\\Desktop\\demo\\练习\\Instagram-Data.csv']

# 读取需要的文件
df = pd.read_csv(files_list[0])

查看一些必要信息

df.info()
df

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 1464 entries, 0 to 1463
Data columns (total 6 columns):
 #   Column       Non-Null Count  Dtype  
---  ------       --------------  -----  
 0   date         1464 non-null   object 
 1   datetime     1464 non-null   object 
 2   cash_type    1464 non-null   object 
 3   card         1375 non-null   object 
 4   money        1464 non-null   float64
 5   coffee_name  1464 non-null   object 
dtypes: float64(1), object(5)
memory usage: 68.8+ KB

	date	datetime	cash_type	card	money	coffee_name
0	2024-03-01	2024-03-01 10:15:50.520	card	ANON-0000-0000-0001	38.70	Latte
1	2024-03-01	2024-03-01 12:19:22.539	card	ANON-0000-0000-0002	38.70	Hot Chocolate
2	2024-03-01	2024-03-01 12:20:18.089	card	ANON-0000-0000-0002	38.70	Hot Chocolate
3	2024-03-01	2024-03-01 13:46:33.006	card	ANON-0000-0000-0003	28.90	Americano
4	2024-03-01	2024-03-01 13:48:14.626	card	ANON-0000-0000-0004	38.70	Latte
...	...	...	...	...	...	...
1459	2024-09-05	2024-09-05 20:30:14.964	card	ANON-0000-0000-0587	32.82	Cappuccino
1460	2024-09-05	2024-09-05 20:54:24.429	card	ANON-0000-0000-0588	23.02	Americano
1461	2024-09-05	2024-09-05 20:55:31.429	card	ANON-0000-0000-0588	32.82	Cappuccino
1462	2024-09-05	2024-09-05 21:26:28.836	card	ANON-0000-0000-0040	27.92	Americano with Milk
1463	2024-09-05	2024-09-05 21:27:29.969	card	ANON-0000-0000-0040	27.92	Americano with Milk

1464 rows × 6 columns

print(df['cash_type'].unique().tolist(),'\n', 
len(df['card'].unique().tolist()),'\n', 
df['coffee_name'].unique().tolist(),'\n',
len(df['coffee_name'].unique().tolist()))

['card', 'cash'] 
 589 
 ['Latte', 'Hot Chocolate', 'Americano', 'Americano with Milk', 'Cocoa', 'Cortado', 'Espresso', 'Cappuccino'] 
 8

通过info返回的信息可以看到card列存在一些空值，那我就把空值处理一下

df[df['card'].isnull()]

	date	datetime	cash_type	card	money	coffee_name
12	2024-03-02	2024-03-02 10:30:35.668	cash	NaN	40.0	Latte
18	2024-03-03	2024-03-03 10:10:43.981	cash	NaN	40.0	Latte
41	2024-03-06	2024-03-06 12:30:27.089	cash	NaN	35.0	Americano with Milk
46	2024-03-07	2024-03-07 10:08:58.945	cash	NaN	40.0	Latte
49	2024-03-07	2024-03-07 11:25:43.977	cash	NaN	40.0	Latte
...	...	...	...	...	...	...
657	2024-05-31	2024-05-31 09:23:58.791	cash	NaN	39.0	Latte
677	2024-06-01	2024-06-01 20:54:59.267	cash	NaN	39.0	Cocoa
685	2024-06-02	2024-06-02 22:43:10.636	cash	NaN	34.0	Americano with Milk
691	2024-06-03	2024-06-03 21:42:51.734	cash	NaN	34.0	Americano with Milk
692	2024-06-03	2024-06-03 21:43:37.471	cash	NaN	34.0	Americano with Milk

89 rows × 6 columns

空值是由支付类型为现金支付的那一列对应的行产生的

df['card'] = df['card'].fillna("-1")
df['card'].isnull().any()

np.False_

对数据进行处理

在info返回的信息看到date这一列的数值类型是对象，我就把它变成日期类型方便我自己后续操作

print(type(df.loc[1,'date']),type(df.loc[1,'datetime']))
df.loc[1,'date']

<class 'str'> <class 'str'>
'2024-03-01'

# 调整日期格式提取每行数据的月份
df['date'] = pd.to_datetime(df['date'])
df['datetime'] = pd.to_datetime(df['datetime'])
df['month'] = df['date'].dt.month
print(len(df['month'].unique()))

查看每月的销售情况

因为9月份的数据只有5天所以这个月就不纳入分析

# 查看每月的销量以及金额
df_six = df[df['month']!=9].copy()
month = df_six['month'].unique()    # 把月份单独拎出
month_sales = df_six.groupby('month')['money'].count()
month_sum = df_six.groupby('month')['money'].sum()

figure,axes = plt.subplots(1,2,figsize=[16,8])
figure.suptitle("Month sales and sum",size=20)
ax1 = axes[0].bar(month,month_sales)
axes[0].set_xlabel('Month',size=16)
axes[0].set_ylabel('Count',size=16)

ax2 = axes[1].bar(month,month_sum)
axes[1].set_xlabel('Month',size=16)
axes[1].set_ylabel('Sum',size=16)

axes[0].bar_label(ax1,fmt="%d",label_type="center")
axes[1].bar_label(ax2,fmt="%d",label_type="center")
plt.subplots_adjust(wspace=0.5)

统计每款咖啡的营销情况

每款咖啡每月的营销额

nrows,ncols = 2,4
figure3,axes = plt.subplots(nrows,ncols,figsize=[16,8],sharex=True,sharey=True)

coffee_month_sales = df_six.groupby(['month','coffee_name'])['money'].sum().reset_index(name='sum')
coffee_names = coffee_month_sales['coffee_name'].unique().tolist()

for idx,coffee_name in enumerate(coffee_names):
    x,y = divmod(idx,ncols)
    coffee_data = coffee_month_sales[coffee_month_sales['coffee_name']==coffee_name]
    bars = axes[x,y].bar(coffee_data['month'],coffee_data['sum'])
    axes[x,y].bar_label(bars,fmt="%d",label_type="center")
    subtitle = f"{coffee_name} {int(coffee_data['sum'].sum())}"
    axes[x,y].set_title(subtitle)
    axes[x,y].set_xlabel('month',size=16)
    axes[x,y].set_ylabel('sum',size=16)
    
figure3.suptitle('coffee month sales',size=20)
plt.tight_layout()
plt.subplots_adjust(wspace=0.5)

查看不同咖啡的受众人数以及占比

stati = df_six.groupby('coffee_name')['money'].count().reset_index(name='buyers')
stati.sort_values(by='buyers',ascending=True,inplace=True,ignore_index=True)

figure2,axes = plt.subplots(1,2,figsize=(16,8))
figure2.suptitle("Coffee audience number and proportion",size=20)
ax1 = axes[0].barh(stati.iloc[:,0],stati.iloc[:,1])
axes[0].bar_label(ax1,fmt="%d",label_type="center")
axes[0].set_ylabel("Kind",size=16)
axes[0].set_xlabel("Sum",size=16)

axes[1].pie(stati.iloc[:,1],labels=stati.iloc[:,0],autopct='%0.1f')
plt.subplots_adjust(wspace=0.5)

统计客户的实际消费情况

cardholder = df_six[df_six['card']!='-1'].copy()
cardholder['tag'] = 1
cardholder.drop(columns=['date','datetime','cash_type'],inplace=True)
cardholder['month_sum'] = cardholder.groupby('card')['tag'].transform('sum')

active_buyer = cardholder.groupby('card')['month_sum'].max().reset_index(name='buys')
active_buyer.sort_values(by='buys',inplace=True,ignore_index=True,ascending=False)

cardholder['money_sum'] = cardholder.groupby('card')['money'].transform('sum')
money_sum = cardholder.drop_duplicates(subset='card',ignore_index=True).copy()
money_sum.drop(columns=['money','coffee_name','month','tag','month_sum'],inplace=True)
money_sum.sort_values(by='money_sum',inplace=True,ignore_index=True,ascending=False)

result = pd.merge(active_buyer,money_sum)
print('总消费金额平均数：',result['money_sum'].mean(),'\n',
      result.head(10))

总消费金额平均数： 75.29034111310592 
                   card  buys  money_sum
0  ANON-0000-0000-0012    96    2772.44
1  ANON-0000-0000-0009    67    2343.98
2  ANON-0000-0000-0141    44    1101.08
3  ANON-0000-0000-0097    38    1189.34
4  ANON-0000-0000-0040    30     910.12
5  ANON-0000-0000-0003    27     744.04
6  ANON-0000-0000-0001    17     646.14
7  ANON-0000-0000-0134    13     470.76
8  ANON-0000-0000-0024    12     422.26
9  ANON-0000-0000-0059    12     337.00

通过打印的数据可以看到这算是最活跃的一批用户了

程度大致就做到这种情况了，谢谢观看，如果有什么好的方法也可以在评论区评论！

YU_C++算法学习笔记 · 枚举

1.1 枚举类问题 · 枚举是什么？枚举也叫穷举，是计算机解决问题最基本的策略。其方法是一一列举所有的可能性，根据题意要求进行合理的判断或计算，最终得到答案，本质上就是一种搜索算法基础的枚举就是人们常说的“暴力”求解。对于不同的问题，不可过分依赖“暴力”求解，应该根据具体的场景来进行具体分析，选 ...阅读全文

FFmpeg开发笔记（五十八）把32位采样的MP3转换为16位的PCM音频

《FFmpeg开发实战：从零基础到短视频上线》一书的“5.1.2 把音频流保存为PCM文件”介绍了如何把媒体文件中的音频流转存为原始的PCM音频，在样例代码的转存过程中，解码后的PCM数据未经任何加工处理，就直接保存到二进制文件。也就是说，原音频的采样频率是多少，PCM文件的采样频率也是多少；原音 ...阅读全文

Python 潮流周刊#73：让我们对 PyPI 温柔一点，好吗？（摘要）

本周刊由 Python猫出品，精心筛选国内外的 250+ 信息源，为你挑选最值得分享的文章、教程、开源项目、软件工具、播客和视频、热门话题等内容。愿景：帮助所有读者精进 Python 技术，并增长职业和副业的收入。分享了 12 篇文章，12 个开源项目，2 则热门讨论，全文 2000 字。以下 ...阅读全文

C++内存模型实践探索

C++对象模型是个常见、且复杂的话题，本文基于Itanium C++ ABI通过程序实践介绍了几种简单C++继承场景下对象模型，尤其是存在虚函数的场景，并通过图的方式直观表达内存布局。 ...阅读全文

MiGPT让你的小爱音响更聪明

大家好，我是晓凡。今天要给大家带来一个超级有趣的开源项目MiGPT。这个项目，简直就是给小爱音箱装上了超级大脑，让你的小爱音箱更聪明。想象一下，当小爱音箱接入大模型后，上知天文，下知地理，从“人工智障”秒变学霸。一、什么是MiGPT MiGPT是一个由idootop团队开发的开源项目，目前已 ...阅读全文

顺序程序设计习题

假如我国国民生产总值的年增长率为9%，计算十年后我国国民生产总值与现在相比增长多少百分比计算公式：p = (1 + r)n （r 为增长率， n 为年数， p 为与现在相比的倍数） //假如我国国民生产总值的年增长率为9%，计算十年后我国国民生产总值与现在相比增长多少百分比 //计算公式：p = ...阅读全文

SpringBoot事务相关备忘（方法添加@Transactional注解，以及SQL语句(SQLServer数据库)添加SET NOCOUNT ON）

项目改用Spring Data JDBC 并手动配置DataSource之后，@Transactional注解一直不起作用。这两天研究了一下，注解不起作用，主要是没有配置 TransactionManager 的事，配置完 TransactionManager 之后，@Transactional注解 ...阅读全文

【日记】感觉自己进入了消费主义骗局（1729 字）

正文昨天跟何老师聊天到了很晚，到了 21:30。从他口中知道了我们市街舞环境恶劣的原因。简而言之就是零几年时，本土出了一个很厉害的人，办了一场规模宏大的比赛，整个西南地区都有人，甚至还有广东的队伍参赛。他拉了十万块的帮助。老师跟我说，那时候十万块什么概念，舞台、灯光、道具、食宿什么费用全出完，自己 ...阅读全文

Rust宏之derive的设计及实战

Rust宏可以极大的简化编写的难度，学习好宏可以更好的减少冗余代码。宏的基本概念 Rust中的宏可以分为两大类：声明宏（Declarative Macros）和过程宏（Procedural Macros）。声明宏：也称为macro_rules!宏，使用macro_rules!关键字定义。它是一种 ...阅读全文

基于 Python + Vue3！一个轻量级的域名和 SSL 证书监测平台！

大家好，我是 Java陈序员。在企业开发中，由于业务众多，涉及到很多业务域名证书，证书过期由于遗忘常常未能及时续期，导致线上访问异常，给企业带来损失！今天，给大家介绍一个轻量级的域名和 SSL 证书监测平台，用来解决证书管理困难的问题！关注微信公众号：【Java陈序员】，获取开源项目分享、AI ...阅读全文