昨天成功爬取了51job的列表页,下面的工作就是爬取列表页中点进岗位的详情页。
这里可以用字典(键值对)的方式来保存数据。
数据有时候其实跟人一样,只有成双成对,才会快乐。
先设定两个全局变量Data和List,Data用于保存每个岗位的全部信息,List用于保存所有岗位信息。
List中的每一个元素,就是Data这个字典。
这里还有个需要注意的问题就是,不要没完没了的爬,作为测试阶段,先爬取一个网页就好了,比如先随便找个岗位,把它详情页的网址复制下来。
然后下面就是爬取详情页的一个难点。
爬取出的有些数据是一串的,如何进行文字解析呢?
这个貌似之前在黑马的课程中有讲到。
主要包括字符串截取、分隔、去除特殊符号、去除前后空格等功能。
比如对上面的例子来说,使用 split 和 sprip 结合就可以轻松实现了。
参考之前解析豆瓣的办法,写出getData 函数。
最关键的就是将 jname 内容放到字典中去,而job在 jobList 中,其实是作为一行记录。
这个爬取 51job 的代码,老师讲到这里就结束了。
嗯,是的,你没看错,下面没有了。
因为此项目是这个课程老师留给学生们的作业,所以他只是在一些关键点上进行了一番提点,并没有把所有答案都直接“喂”给孩子们。
从教学方法上来说是没错吧,不过对于我等跟着课程学的,就稍微有点不太友好了。
尤其今天和昨天的课程,很多地方听的我都有点糊涂,直接导致我独立完成这个项目,有点信心不足了。
我现在对自己的评价很客观:比小白强一点,但绝对还是个妥妥的 Python 初学者。
很多朋友都知道,我的终极目标是爬房产中介网站,通过掌握更全面的信息,买到合适的学区房。
巧的是,前几天偶然得到黑马就业班的视频,我发现里面就有讲这个内容。
所以,下一步我会继续转战黑马,
但是,学习心得这块我应该就不会继续更新了。
因为我发现,前面学习 Python 基础知识的时候,写心得还是轻松加愉快的事情。
但是到后面做项目、编代码时候,很多时候都是直接敲代码,心得这东东真的没法写。
当然,有重大突破到时候,我还是会跟大家分享的。
有些人问我这50多天是怎么坚持下来的,明天,我就跟大家一起聊聊这段时间的一些感想吧。
大爷们,明天记得来玩哟~
作者简介:冯十一,多平台签约作者,每周阅读一本书。40岁坚持学习的中年男人,篇篇都是有趣又轻松的干货,专注个人成长、思维方式。欢迎关注@天津冯十一