设为首页收藏本站
网站公告 | 这是第一条公告
     

 找回密码
 立即注册
缓存时间15 现在时间15 缓存数据 当我买得起十几块钱一个的冰淇淋的时候,我已经不再天天想吃了。当我可以随便玩电脑而没人管的时候,我已经懒得打开电脑了。当我优秀得足够让你不会离我而去时,我已经不再非你不可了。

当我买得起十几块钱一个的冰淇淋的时候,我已经不再天天想吃了。当我可以随便玩电脑而没人管的时候,我已经懒得打开电脑了。当我优秀得足够让你不会离我而去时,我已经不再非你不可了。 -- 有没有人告诉你

查看: 377|回复: 1

CSS选择器实现字段解析

[复制链接]

  离线 

TA的专栏

  • 打卡等级:热心大叔
  • 打卡总天数:225
  • 打卡月天数:1
  • 打卡总奖励:3334
  • 最近打卡:2025-07-02 13:19:43
等级头衔

等級:晓枫资讯-上等兵

在线时间
0 小时

积分成就
威望
0
贡献
393
主题
359
精华
0
金钱
4518
积分
806
注册时间
2023-1-4
最后登录
2025-7-2

发表于 2023-2-11 07:31:09 | 显示全部楼层 |阅读模式

根据上面所学的CSS基础语法知识,现在来实现字段的解析。首先还是解析标题。打开网页开发者工具,找到标题所对应的源代码。

083135glshr2mkljl27y3m.png

发现是在

  1. div class="entry-header"
复制代码
下面的h1节点中,于是打开scrapy shell 进行调试

083136pma7hlyglkg7pilk.png

但是我不想要

这种标签该咋办,这时候就要使用CSS选择器中的伪类方法。如下所示。

083136ir60o5fqg0dq0dhf.png

注意的是两个冒号。使用CSS选择器真的很方便。同理我用CSS实现字段解析。代码如下

  1. # -*- coding: utf-8 -*-
  2. import scrapy
  3. import re
  4. class JobboleSpider(scrapy.Spider):
  5. name = 'jobbole'
  6. allowed_domains = ['blog.jobbole.com']
  7. start_urls = ['http://blog.jobbole.com/113549/']
  8. def parse(self, response):
  9. # title = response.xpath('//div[@class = "entry-header"]/h1/text()').extract()[0]
  10. # create_date = response.xpath("//p[@class = 'entry-meta-hide-on-mobile']/text()").extract()[0].strip().replace("·","").strip()
  11. # praise_numbers = response.xpath("//span[contains(@class,'vote-post-up')]/h10/text()").extract()[0]
  12. # fav_nums = response.xpath("//span[contains(@class,'bookmark-btn')]/text()").extract()[0]
  13. # match_re = re.match(".*?(\d+).*",fav_nums)
  14. # if match_re:
  15. # fav_nums = match_re.group(1)
  16. # comment_nums = response.xpath("//a[@href='#article-comment']/span").extract()[0]
  17. # match_re = re.match(".*?(\d+).*", comment_nums)
  18. # if match_re:
  19. # comment_nums = match_re.group(1)
  20. # content = response.xpath("//div[@class='entry']").extract()[0]
  21. #通过CSS选择器提取字段
  22. title = response.css(".entry-header h1::text").extract()[0]
  23. create_date = response.css(".entry-meta-hide-on-mobile::text").extract()[0].strip().replace("·","").strip()
  24. praise_numbers = response.css(".vote-post-up h10::text").extract()[0]
  25. fav_nums = response.css("span.bookmark-btn::text").extract()[0]
  26. match_re = re.match(".*?(\d+).*", fav_nums)
  27. if match_re:
  28. fav_nums = match_re.group(1)
  29. comment_nums = response.css("a[href='#article-comment'] span::text").extract()[0]
  30. match_re = re.match(".*?(\d+).*", comment_nums)
  31. if match_re:
  32. comment_nums = match_re.group(1)
  33. content = response.css("div.entry").extract()[0]
  34. tags = response.css("p.entry-meta-hide-on-mobile a::text").extract()[0]
  35. pass
复制代码

083136leccie4sew1sxgj5.png

总结

以上所述是小编给大家介绍的CSS选择器实现字段解析,希望对大家有所帮助,如果大家有任何疑问请给我留言,小编会及时回复大家的。在此也非常感谢大家对晓枫资讯网站的支持!


免责声明:如果侵犯了您的权益,请联系站长,我们会及时删除侵权内容,谢谢合作!

晓枫资讯-科技资讯社区-免责声明
免责声明:以上内容为本网站转自其它媒体,相关信息仅为传递更多信息之目的,不代表本网观点,亦不代表本网站赞同其观点或证实其内容的真实性。
      1、注册用户在本社区发表、转载的任何作品仅代表其个人观点,不代表本社区认同其观点。
      2、管理员及版主有权在不事先通知或不经作者准许的情况下删除其在本社区所发表的文章。
      3、本社区的文章部分内容可能来源于网络,仅供大家学习与参考,如有侵权,举报反馈:点击这里给我发消息进行删除处理。
      4、本社区一切资源不代表本站立场,并不代表本站赞同其观点和对其真实性负责。
      5、以上声明内容的最终解释权归《晓枫资讯-科技资讯社区》所有。
http://bbs.yzwlo.com 晓枫资讯--游戏IT新闻资讯~~~

  离线 

TA的专栏

等级头衔

等級:晓枫资讯-列兵

在线时间
0 小时

积分成就
威望
0
贡献
0
主题
0
精华
0
金钱
11
积分
2
注册时间
2024-12-31
最后登录
2024-12-31

发表于 2025-4-10 19:58:52 | 显示全部楼层
感谢楼主分享。
http://bbs.yzwlo.com 晓枫资讯--游戏IT新闻资讯~~~
严禁发布广告,淫秽、色情、赌博、暴力、凶杀、恐怖、间谍及其他违反国家法律法规的内容。!晓枫资讯-社区
您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

1楼
2楼

手机版|晓枫资讯--科技资讯社区 本站已运行

CopyRight © 2022-2025 晓枫资讯--科技资讯社区 ( BBS.yzwlo.com ) . All Rights Reserved .

晓枫资讯--科技资讯社区

本站内容由用户自主分享和转载自互联网,转载目的在于传递更多信息,并不代表本网赞同其观点和对其真实性负责。

如有侵权、违反国家法律政策行为,请联系我们,我们会第一时间及时清除和处理! 举报反馈邮箱:点击这里给我发消息

Powered by Discuz! X3.5

快速回复 返回顶部 返回列表