设为首页收藏本站
网站公告 | 这是第一条公告
     

 找回密码
 立即注册
缓存时间17 现在时间17 缓存数据 你们知道一个听电音的推到古风是什么感受吗[呆]

你们知道一个听电音的推到古风是什么感受吗[呆] -- 红昭愿

查看: 612|回复: 3

如何利用Python解析超大的json数据(GB级别)

[复制链接]

  离线 

TA的专栏

  • 打卡等级:热心大叔
  • 打卡总天数:203
  • 打卡月天数:0
  • 打卡总奖励:2987
  • 最近打卡:2023-08-27 06:08:03
等级头衔

等級:晓枫资讯-上等兵

在线时间
0 小时

积分成就
威望
0
贡献
396
主题
371
精华
0
金钱
4142
积分
781
注册时间
2022-12-27
最后登录
2025-6-1

发表于 2023-2-10 23:23:03 | 显示全部楼层 |阅读模式
使用Python解析各种格式的数据都很方便,比如json、txt、xml、csv等。用于处理简单的数据完全足够用了,而且代码简单易懂。
前段时间我遇到一个问题,如何解析超大的json文件呢?刚开始天真的我在使用json.load直接加载json文件,然而内存报错却给了我当头一棒,json.load它是直接将数据加载到内存中然后解析出来的,这说明什么呢?当你的json文件过于庞大的时候,你的电脑内存装不下你的json文件,这时候就相当尴尬了,加载不了,解析不了!!
怎么办呢?我赶紧上网查阅资料,网上大部份资料都是基于分块的思路解决超大数据文件的解析的,比如read函数可以一块一块加载,像这样read(1024)每次读取1024字节,总能将数据读取完的。或者是readline函数,每次读取一行,这个函数的读取方式特别适合txt、csv文件。然而这样的函数对于json格式的数据就完全不适用了,因为json格式的文件是有严格的结构的。你不可能一块一块的或者一行一行的读取,噢不对,你可以这样读取,但是你这样读取出来的数据是完全没有意义的,因为无法解析,你无法获得你想要的数据。
块读取的方式不行,那该怎么办呢,流式读取呗,这时候我想起了万能的GitHub,上去Github搜索python json parser。看看我发现了什么!!!
002404hrbu5ws53u3ksd3j.jpeg

啊,太棒了,光看简介基于python的迭代的json解析器,我感觉我的问题可能要被解决掉了。
果不其然,ijson完美的解决了我的问题,它抽取了json文件的特征形成了一个生成器的东西,下面举一个实例。
  1. {
  2.  "earth": {
  3.    "europe": [
  4.      {
  5.        "name": "Paris",
  6.        "type": "city",
  7.        "info": "aaa"
  8.      },
  9.      {
  10.        "name": "Thames",
  11.        "type": "river",
  12.        "info": "sss"
  13.      },
  14.      {
  15.        "name": "yyy",
  16.        "type": "city",
  17.        "info": "aaa"
  18.      },
  19.      {
  20.        "name": "eee",
  21.        "type": "river",
  22.        "info": "sss"
  23.      }
  24.    ],
  25.    "america": [
  26.      {
  27.        "name": "Texas",
  28.        "type": "state",
  29.        "info": "jjj"
  30.      }
  31.    ]
  32.   }
  33. }
复制代码
这是一个简单的json文件,用它来演示json的效果。
  1. import ijson

  2. with open('test.json', 'r', encoding='utf-8') as f:
  3.    objects = ijson.items(f, 'earth.europe.item')
  4.    #这个objects在这里就是相当于一个生成器,可以调用next函数取它的下一个值
  5.    while True:
  6.        try:
  7.            print(objects.__next__())
  8.        except StopIteration as e:
  9.            print("数据读取完成")
  10.            break
复制代码
很好,接下来看一下效果如何。
  1. {'name': 'Paris', 'type': 'city', 'info': 'aaa'}{'name': 'Thames', 'type': 'river', 'info': 'sss'}{'name': 'yyy', 'type': 'city', 'info': 'aaa'}{'name': 'eee', 'type': 'river', 'info': 'sss'}数据读取完成
复制代码
是不是很棒呢?
这样不会出现内存撑爆了的错误,因为它类似于生成器的方式流式读取json数据,熟悉生成器的朋友应该就很清楚了。
如果想要加速读取解析json文件,可以加上threading多线程模块。这里就不做演示了。
另外附上ijson模块的文档地址:https://pypi.org/project/ijson/文档本人就看了一部分。更多的内容没有深入了解,有兴趣的大佬可以深入研究下。
总结
到此这篇关于如何利用Python解析超大json数据的文章就介绍到这了,更多相关Python解析大json数据内容请搜索晓枫资讯以前的文章或继续浏览下面的相关文章希望大家以后多多支持晓枫资讯!

免责声明:如果侵犯了您的权益,请联系站长,我们会及时删除侵权内容,谢谢合作!
晓枫资讯-科技资讯社区-免责声明
免责声明:以上内容为本网站转自其它媒体,相关信息仅为传递更多信息之目的,不代表本网观点,亦不代表本网站赞同其观点或证实其内容的真实性。
      1、注册用户在本社区发表、转载的任何作品仅代表其个人观点,不代表本社区认同其观点。
      2、管理员及版主有权在不事先通知或不经作者准许的情况下删除其在本社区所发表的文章。
      3、本社区的文章部分内容可能来源于网络,仅供大家学习与参考,如有侵权,举报反馈:点击这里给我发消息进行删除处理。
      4、本社区一切资源不代表本站立场,并不代表本站赞同其观点和对其真实性负责。
      5、以上声明内容的最终解释权归《晓枫资讯-科技资讯社区》所有。
http://bbs.yzwlo.com 晓枫资讯--游戏IT新闻资讯~~~

  离线 

TA的专栏

等级头衔

等級:晓枫资讯-列兵

在线时间
0 小时

积分成就
威望
0
贡献
0
主题
0
精华
0
金钱
11
积分
2
注册时间
2023-10-6
最后登录
2023-10-6

发表于 2025-2-17 06:53:42 | 显示全部楼层
路过,支持一下
http://bbs.yzwlo.com 晓枫资讯--游戏IT新闻资讯~~~

  离线 

TA的专栏

  • 打卡等级:小镇青年
  • 打卡总天数:86
  • 打卡月天数:0
  • 打卡总奖励:1362
  • 最近打卡:2024-10-04 04:47:33
等级头衔

等級:晓枫资讯-列兵

在线时间
0 小时

积分成就
威望
0
贡献
0
主题
0
精华
0
金钱
1381
积分
18
注册时间
2023-5-31
最后登录
2024-10-4

发表于 2025-2-20 21:35:38 | 显示全部楼层
感谢楼主,顶。
http://bbs.yzwlo.com 晓枫资讯--游戏IT新闻资讯~~~

  离线 

TA的专栏

等级头衔

等級:晓枫资讯-列兵

在线时间
0 小时

积分成就
威望
0
贡献
0
主题
0
精华
0
金钱
13
积分
6
注册时间
2023-10-31
最后登录
2023-10-31

发表于 5 天前 | 显示全部楼层
感谢楼主分享。
http://bbs.yzwlo.com 晓枫资讯--游戏IT新闻资讯~~~
严禁发布广告,淫秽、色情、赌博、暴力、凶杀、恐怖、间谍及其他违反国家法律法规的内容。!晓枫资讯-社区
您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

1楼
2楼
3楼
4楼

手机版|晓枫资讯--科技资讯社区 本站已运行

CopyRight © 2022-2025 晓枫资讯--科技资讯社区 ( BBS.yzwlo.com ) . All Rights Reserved .

晓枫资讯--科技资讯社区

本站内容由用户自主分享和转载自互联网,转载目的在于传递更多信息,并不代表本网赞同其观点和对其真实性负责。

如有侵权、违反国家法律政策行为,请联系我们,我们会第一时间及时清除和处理! 举报反馈邮箱:点击这里给我发消息

Powered by Discuz! X3.5

快速回复 返回顶部 返回列表