python关联规则学习:FP-Growth算法对药品进行“菜篮子”分析
创始人
2024-03-18 07:04:38
0

产品可以根据销售者进行分类

在Evolution上,有一些顶级类别(“药品”,“数字商品”,“欺诈相关”等)细分为特定于产品的页面。每个页面包含不同供应商的几个列表。

最近我们被客户要求撰写关于关联规则的研究报告,包括一些图形和统计输出。

视频:R语言关联规则模型(Apriori算法)挖掘杂货店的交易数据与交互可视化

关联规则模型、Apriori算法及R语言挖掘杂货店交易数据与交互可视化

,时长07:03

我根据供应商同现关系在产品之间建立了一个图表,即每个节点对应于一种产品,其边权重由同时出售两种事件产品的供应商数量定义。因此,举例来说,如果有3个供应商同时出售甲斯卡林和4-AcO-DMT,那么我的图在甲斯卡林和4-AcO-DMT节点之间的权重为3。我使用 基于随机块模型的分层边缘 实现来生成以下Evolution产品网络的可视化:

代码片段


importimport  pandaspandas  asas  pdpdimportimport  graph_toolgraph_t  as gt
import graph_tool.draw
import graph_tool.community
import itertools
import collections
import matplotlib
import math
In [2]:gt.draw.graph_draw(g, pos=pos, vertex_fill_color=b,edge_control_points=cts,vertex_size=20,vertex_text=g.vertex_properties['label'],vertex_text_rotation=g.vertex_properties['text_rot'],vertex_text_position=1,vertex_font_size=20,vertex_font_family='mono',vertex_anchor=0,vertex_color=b,vcmap=matplotlib.cm.Spectral,ecmap=matplotlib.cm.Spectral,edge_color=g.edge_properties['color'],bg_color=[0,0,0,1],output_size=[1024*2,1024*2],output='/home/aahu/Desktop/evo_nvends={0}.png'.format(MIN_SHARED_VENDORS))
saving to disk...

 它包含73个节点和2,219个边缘(我在数据中找到了3,785个供应商)。

代码片段:

# coding: utf-8from bs4 import BeautifulSoup
import re
import pandas as pd
import dateutil
import osimport loggingdef main():for datestr in os.listdir(DATA_DIR):d1 = os.path.join(DATA_DIR, datestr)fdate = dateutil.parser.parse(datestr)catdir = os.path.join(d1,'category')if os.path.exists(catdir):logger.info(catdir)df = catdir_to_df(catdir, fdate)outname ='category_df_'+datestr+'.tsv'df.to_csv(os.path.join(DATA_DIR,outname),'\t',index=False)if __name__=='__main__':main()

权重较高的边缘绘制得更明亮。节点使用随机块模型进行聚类,并且同一聚类中的节点被分配相同的颜色。图的上半部分(对应于毒品)和下半部分(对应于非毒品,即武器/黑客/信用卡/等)之间有明显的分界。这表明销售毒品的供应商销售非毒品的可能性较小,反之亦然。

91.7%的出售速度

关联规则学习是解决市场篮子分析问题的一种直接且流行的方法。传统的应用是根据其他顾客的购物车向购物者推荐商品。由于某些原因,典型的例子是“购买尿布的顾客也购买啤酒”。

我们没有来自Evolution上公开帖子的抓取的客户数据。但是,我们确实拥有每个供应商所销售产品的数据,可以帮助我们量化上述视觉分析所建议的结果。

这是我们的数据库的示例(完整的文件有3,785行(每个供应商一个)):

VendorProducts
MrHolland[‘Cocaine’, ‘Cannabis’, ‘Stimulants’, ‘Hash’]
Packstation24[‘Accounts’, ‘Benzos’, ‘IDs & Passports’, ‘SIM Cards’, ‘Fraud’]
Spinifex[‘Benzos’, ‘Cannabis’, ‘Cocaine’, ‘Stimulants’, ‘Prescription’, ‘Sildenafil Citrate’]
OzVendor[‘Software’, ‘Erotica’, ‘Dumps’, ‘E-Books’, ‘Fraud’]
OzzyDealsDirect[‘Cannabis’, ‘Seeds’, ‘MDMA’, ‘Weed’]
TatyThai[‘Accounts’, ‘Documents & Data’, ‘IDs & Passports’, ‘Paypal’, ‘CC & CVV’]
PEA_King[‘Mescaline’, ‘Stimulants’, ‘Meth’, ‘Psychedelics’]
PROAMFETAMINE[‘MDMA’, ‘Speed’, ‘Stimulants’, ‘Ecstasy’, ‘Pills’]
ParrotFish[‘Weight Loss’, ‘Stimulants’, ‘Prescription’, ‘Ecstasy’]

关联规则挖掘是计算机科学中的一个巨大领域–在过去的二十年中,已经发表了数百篇论文。 

我运行的FP-Growth算法的最小允许支持为40,最小允许置信度为0.1。该算法学习了12,364条规则。 

规则前项后项支持度置信度
[‘Speed’, ‘MDMA’][‘Ecstasy’]1550.91716
[‘Ecstasy’, ‘Stimulants’][‘MDMA’]3100.768
[‘Speed’, ‘Weed’, ‘Stimulants’][‘Cannabis’, ‘Ecstasy’]680.623
[‘Fraud’, ‘Hacking’][‘Accounts’]530.623
[‘Fraud’, ‘CC & CVV’, ‘Accounts’][‘Paypal’]430.492
[‘Documents & Data’][‘Accounts’]1390.492
[‘Guns’][‘Weapons’]720.98
[‘Weapons’][‘Guns’]720.40

 

相关内容

热门资讯

原创 红... 当今国际局势愈发复杂,俄乌战场的战火依旧纷飞,近期红军城的激烈攻防战中,一则异常动向引发国际关注——...
多里安·芬尼-史密斯助阵火箭圣... 圣诞节总是NBA赛程中备受瞩目的日子,而今年的圣诞大战,休斯顿火箭队和洛杉矶湖人队的对决无疑成为了焦...
卧室门一关,湿被子一堵!七旬夫... 深夜熟睡中 刺鼻的浓烟突然涌入卧室 客厅已是一片火海 这样的绝境下 两位七旬老人居然可以冷静应对 成...
原创 新... 中期选举临近,共和党选票落后一大步,留给特朗普的时间已经不多了。谁料,对华关税井沦为“选举筹码”,那...
广州市委常委、常务副市长、黄埔... 12月26日,南方+客户端发布消息称,近日,广东省委决定:陈杰同志任江门市委委员、常委、书记;陈岸明...
施工栈桥未设安全围挡致汽车坠河... 极目新闻记者 邓波 据新华社报道,12月13日下午,位于广东江门鹤山市的南新高速西江特大桥施工栈桥发...
犇星新材闯关北交所!期内毛利率... 12月25日,湖北犇星新材料股份有限公司(简称“犇星新材”)在北交所披露招股书。 资料显示,犇星新材...
毕节首部营商环境法规即将实施 ... 12月25日,毕节市政府新闻办举行新闻发布会,对《毕节市优化营商环境条例》进行宣传解读。该《条例》是...
情侣海外旅行时当地“结婚”,婚... 一趟浪漫之旅,一纸境外婚书,让情侣二人归国后成为“已婚”人士。境外婚姻登记在国内“有效”吗?现双方产...
原创 没... 新账旧账一起算,高市早苗万万没有想到,经济受创的日本,如今又可能面临支付数亿元的账单。日韩之间的历史...