爬取 Boss 直聘上的岗位，求职快人一步

发布:2025-04-05阅读：281 次

Boss直聘作为一个重要的招聘平台，其岗位数据具有极高的价值。对于求职者来说，通过分析岗位数据，可以了解市场需求，优化自己的求职方向和简历内容。对于企业而言，能够掌握行业人才动态，制定更精准的招聘策略。

然而，爬取Boss直聘岗位数据并非易事，面临着诸多挑战。首先，网站设置了严格的反爬措施。在不登陆的情况下最多爬十页就会出现手动打码验证，出现大概五六次手动打码后就会封禁ip地址，封禁时间长达1天。解决办法之一是切换ip，尝试过很多收费代理和免费代理，但效果不佳，建议不要用。可以采用连接手机wifi的方式，手机开热点，当封禁ip时将手机调成飞行模式，再关掉，这时会重新分配一个ip地址，就可以继续爬取。另一种方法是登录获取cookies进行爬取，虽然可以爬取大量数据，但也存在问题，一段时间后cookies会失效，需要重新获取。模拟浏览器的方式也有一定问题，会时不时出现打码验证，爬取数据多了还会出现封账号的情况（大概会封一个小时）。

此外，还有一些有趣的反爬虫手段，如图像识别，人都看不出来的那种；js陷阱、css蜜罐、字体反爬、验证码；API短时大量访问限制+采用非对称加密；网页短时大量访问限制+非标准字符显示等。这些反爬措施给爬虫工作带来了很大的困难。

还可以使用scrapy框架进行爬取。以获取上海+python的岗位页面为例，首先确定岗位页面的url规律，通过xpath获取当前页面的链接，再配合正则精确需要的链接，组合成完整的url。通过手动设置start_urls列表实现翻页，设置随机的user-agent以及ip代理解决反爬问题。最后对获取到的数据进行处理，生成词云。

Scrapy是一个主流的爬虫框架，在爬取Boss直聘岗位数据中有很大的应用可能性。它提供了完整的爬取流程管理，包括中间件、下载器、爬虫等组件，方便开发者自定义爬取逻辑。在爬取Boss直聘数据时，可以使用Scrapy创建一个爬虫项目，定义Spider来定义爬取网站的规则和行为。通过设置ChromeOptions对象禁用图片加载，启动浏览器，循环爬取多个城市的职位信息。在页面加载完成后，使用xpath等方法提取职位名称、工资、福利、地区等信息，并创建BossItem对象存储数据，最后返回给Scrapy管道进行进一步处理。

自定义爬虫库如kcrawler（假设的自定义爬虫库名称）等在爬取Boss直聘岗位数据中可能具有一些优势。自定义爬虫库可以根据特定的需求进行定制化开发，更加灵活地适应Boss直聘的网站结构和反爬措施。例如，可以针对Boss直聘的特定页面元素和数据格式进行优化，提高爬取效率和准确性。同时，自定义爬虫库可以更好地控制爬取的速度和频率，避免触发反爬机制。此外，自定义爬虫库还可以结合其他技术，如机器学习算法，对爬取到的数据进行分析和处理，提取更有价值的信息。

fromseleniumimportwebdriver

importtime

importjson

def获取cookie(url,cookie文件名):

2.进入网页

(url)

4.在15s之内登录，获取所有cookie信息(返回是字典)

dictCookies=_cookies()

登录完成后,自动创建一个boss直聘.json的文件，将cookies保存到该环境根目录下

withopen(cookie文件名,"w")asfp:

(jsonCookies)

print('cookies保存成功！')

url=''

获取cookie(url,cookie文件名='boss直聘.json')

通过遍历页面源代码，查找岗位链接的过程如下：首先遍历每个页面，获取页面的源代码。然后将源代码加载进BeautifulSoup，查找所有class="job-card-left"的元素，遍历每个元素，取出href链接，将每个链接放到一个空列表里。具体代码如下：

fromseleniumimportwebdriver

importtime

importjson

frombs4importBeautifulSoup

2.遍历每个页面，获取页面的源代码

foriinrange(1,11):

print(i)

boss=()

2.注入cookie

withopen(r"E:\\Anacada__\\工作项目\\爬虫\\boss直聘.json","r")asfp:

jsonCookies=()

4.添加Cookie到WebDriver对象

forcookieincookies:

_cookie(cookie)

3.根据页面源代码，获取每个页面的岗位链接

2.查找所有class="job-card-left"的元素

job_card_left_elements=_all(class_='job-card-left')

提取职位关键字

职位关键字_text=(class_='job-keyword-list')

if职位关键字_text:

text=[_text(strip=True)forliin职位关键字__all('li')]

else:

text='无'

职位关键字.app(text)

提取公司行业

公司行业_text=_one('p:has()')

if公司行业_text:

text=公司行业__text(strip=True)

公司行业.app(text)

将爬取到的岗位数据进行保存的方式有多种，如保存为Excel表或csv文件等。以保存为Excel表为例，可以使用pandas库的DataFrame将数据整理成表格形式，然后使用to_excel方法保存为Excel文件。具体代码如下：

importpandasaspd

data={'岗位名':[],'岗位薪资':[],'地区':[],}

df=(data)

_excel('boss直聘岗位数据.xlsx',index=False)

或者将数据保存为csv文件，使用to_csv方法即可。保存数据时，可以根据实际需求选择合适的文件格式和保存路径。

四、总结与展望

总结：

爬取Boss直聘岗位数据是一项具有挑战性但又极具价值的工作。通过多种爬虫方法和工具，我们可以获取到丰富的岗位信息，为求职者和企业提供有力的支持。

在爬取过程中，我们面临着严格的反爬措施，如IP封禁、验证码、图像识别等。为了应对这些挑战，我们可以采用连接手机热点切换IP、获取cookies进行爬取、使用随机user-agent和ip代理等方法。同时，我们还介绍了Python代码实现、主流爬虫框架Scrapy和自定义爬虫库等多种爬取方式，每种方式都有其特点和优势。

在具体爬取步骤中，我们详细介绍了获取cookie文件、获取岗位详情链接、获取源代码与字段信息以及数据保存与格式转换等过程。通过这些步骤，我们可以有效地获取到Boss直聘岗位数据，并将其保存为Excel表或csv文件等格式，方便后续的分析和处理。

展望：

未来，爬取Boss直聘岗位数据可能会朝着更加智能化和高效化的方向发展。一方面，可以结合人工智能技术，如机器学习和深度学习，自动识别反爬措施并采取相应的应对策略，提高爬取的成功率和效率。例如，可以使用深度学习算法对验证码进行自动识别，减少人工干预的需求。

另一方面，可以进一步优化爬虫框架和算法，提高爬取的速度和稳定性。例如，可以采用分布式爬虫技术，将爬取任务分配到多个节点上同时进行，提高爬取效率。同时，可以优化数据存储和处理方式，提高数据的存储效率和查询速度。

此外，爬取到的Boss直聘岗位数据可以应用于更多的场景。例如，可以结合大数据分析技术，对岗位数据进行深入分析，挖掘出市场需求趋势、热门行业和职位等信息，为求职者和企业提供更加精准的求职和招聘建议。还可以将岗位数据与其他数据源进行整合，如社交媒体数据、企业官网数据等，构建更加全面的人才市场分析平台。

总之，爬取Boss直聘岗位数据具有广阔的应用前景和发展空间。随着技术的不断进步和创新，我们相信未来的爬虫技术将会更加智能、高效和可靠，为我们带来更多的价值和便利。

菜单导航

爬取 Boss 直聘上的岗位，求职快人一步

推荐问答

热门问答

热门问答

推荐问答