暂无图片
暂无图片
暂无图片
暂无图片
暂无图片

工具| 专门"造假"的faker

yangyidba 2021-09-01
382

一  前言

因为某个项目需要构造数亿级别的数据,而且要求数据必须符合一定的业务属性,比如 用户数据,姓名,地址,手机号(唯一索引),年龄 ;商品数据 商品名称,价格,商品id 等待。另外数据内容要具有一定的随机性。

手工拼装 需要耗费大量人力,寻寻觅觅找到Faker这个Python库,用它来生成各种各样的伪数据。

二  专门造假的工具包 Faker

Faker 是一款开源的基于python开发的模块,我们可以 利用它可以生成具有一定属性的伪随机数据。

2.1 安装使用

安装

pip install Faker

基本用法案例

>>> from faker import Faker>>> fake = Faker()>>> fake.name()'Joanna Bailey'>>> faker_cn  = Faker(locale='zh_CN')>>> faker_cn.name()'杜想'>>> fake.address()'6708 Cortez Corners Suite 497\nAnnhaven, NM 17759'>>> faker_cn.address()'重庆市东县沈河曹街D座 817284'

实例化时 可以使用 locale 来选择生成指定地区的数据和语言文字。如果不指定则是en_US,指定 zh_CN 则为中国大陆地区。大家可以参考

https://faker.readthedocs.io/en/master/fakerclass.html#locale-normalization

从案例中可以看到 利用faker 可以伪造一个类似正常的数据。当然数据的属性不止这些。

2.2 常用的属性

地理位置相关

country():国家province():省份city_suffix():市,县district():区street_address():街道地址street_name():街道名street_suffix():街、路country_code():国家编码postcode():邮编geo_coordinate():地理坐标longitude():经度latitude():纬度

数字相关

numerify():生成三位随机数random_digit():生成0~9随机数random_digit_not_null():生成1~9的随机数random_element():生成随机字母random_int():随机数字,默认0~9999,可通过min,max参数修改random_letter():随机字母random_number():随机数字,参数digits设置生成的数字位数color_name():随机颜色名hex_color():随机HEX颜色rgb_color():随机RGB颜色safe_color_name():随机安全色名safe_hex_color():随机安全HEX颜色

公司相关

bs():随机公司服务名company():随机公司名(长)company_prefix():随机公司名(短)company_suffix():公司性质credit_card_expire():随机信用卡到期日credit_card_full():生成完整信用卡信息credit_card_number():信用卡号credit_card_provider():信用卡类型credit_card_security_code():信用卡安全码currency_code():货币编码

时间相关

am_pm():AM/PMcentury():随机世纪date():随机日期date_between():随机生成指定范围内日期,参数:start_date,end_datedate_between_dates():随机生成指定范围内日期,用法同上date_object():随机生产从1970-1-1到指定日期的随机日期。date_this_month():date_this_year():date_time():随机生成指定时间(1970年1月1日至今)date_time_ad():生成公元1年到现在的随机时间date_time_between():用法同datesfuture_date():未来日期future_datetime():未来时间month():随机月份month_name():随机月份(英文)past_date():随机生成已经过去的日期past_datetime():随机生成已经过去的时间time():随机24小时时间timedelta():随机获取时间差time_object():随机24小时时间,time对象time_series():随机TimeSeries对象timezone():随机时区unix_time():随机Unix时间year():随机年份

文件 网络相关

file_extension():随机文件扩展名file_name():随机文件名(包含扩展名,不包含路径)file_path():随机文件路径(包含文件名,扩展名)mime_type():随机mime Typeascii_company_email():随机ASCII公司邮箱名ascii_email():随机ASCII邮箱ascii_free_email():ascii_safe_email():company_email():domain_name():生成域名domain_word():域词(即,不包含后缀)f.image_url():随机URL地址ipv4():随机IP4地址ipv6():随机IP6地址mac_address():随机MAC地址tld():网址域名后缀uri():随机URI地址uri_extension():网址文件后缀uri_page():网址文件(不包含后缀)uri_path():网址文件路径(不包含文件名)url():随机URL地址user_name():随机用户名isbn10():随机ISBN(10位)isbn13():随机ISBN(13位)

文字,加密相关

paragraph():随机生成一个段落paragraphs():随机生成多个段落,通过参数nb来控制段落数,返回数组sentence():随机生成一句话sentences():随机生成多句话,与段落类似text():随机生成一篇文章word():随机生成词语words():随机生成多个词语,用法与段落,句子,类似binary():随机生成二进制编码boolean():True/Falselanguage_code():随机生成两位语言编码locale():随机生成语言/国际 信息md5():随机生成MD5null_boolean():NULL/True/Falsepassword():随机生成密码,可选参数:length:密码长度;special_chars:是否能使用特殊字符;digits:是否包含数字;upper_case:是否包含大写字母;lower_case:是否包含小写字母sha1():随机SHA1sha256():随机SHA256uuid4():随机UUID

人员相关

first_name():first_name_female():女性名first_name_male():男性名first_romanized_name():罗马名last_name():last_name_female():女last_name_male():男last_romanized_name():name():随机生成姓名name_female():男性姓名name_male():女性姓名romanized_name():罗马名msisdn():移动台国际用户识别码,即移动用户的ISDN号码phone_number():随机生成手机号phonenumber_prefix():随机生成手机号段profile():随机生成档案信息simple_profile():随机生成简单档案信息ssn():生成身份证号 job():随机职位email():free_email():free_email_domain():f.safe_email():安全邮箱

浏览器 user_agent

chrome():随机生成Chrome的浏览器user_agent信息
firefox():随机生成FireFox的浏览器user_agent信息
internet_explorer():随机生成IE的浏览器user_agent信息
opera():随机生成Opera的浏览器user_agent信息
safari():随机生成Safari的浏览器user_agent信息
linux_platform_token():随机Linux信息
user_agent():随机user_agent信息

三 小结

笔者在使用的过程中利用faker 造了几亿的数据,绝大多数满足业务需求,遇到的问题是数据具有一定的重复性,尤其是手机号,会员id 这类相对要唯一的数据,只能通过一定的手段绕过。下一篇文章介绍如何生成唯一数据解决该问题。

相关资料

https://faker.readthedocs.io/en/master/fakerclass.html

https://github.com/joke2k/faker


文章转载自yangyidba,如果涉嫌侵权,请发送邮件至:contact@modb.pro进行举报,并提供相关证据,一经查实,墨天轮将立刻删除相关内容。

评论