Skip to content


牛牛查求职助手上架Chrome 官方应用商店

牛牛查求职助手 Chrome扩展

一个帮助求职者识别公司类型和获取更多信息的Chrome浏览器扩展。

🌟 功能特性

  • 🏷️ 智能公司标签: 自动识别并标记诈骗、外包、培训等类型的公司
  • 🔍 一键查询: 快速查询公司信息(天眼查、企查查、爱企查等)
  • 📊 API数据拦截: 自动获取招聘网站的职位数据进行分析
  • ⚙️ 个性化设置: 支持自定义公司名单和功能开关
  • 🎯 多网站支持: 支持51job、BOSS直聘、牛企直聘网等主流招聘网站
  • 📅 职位时效性: 显示职位发布时间,帮助判断职位新鲜度

🚀 安装方法

方法:Chrome 应用商店安装(推荐)

可以在Chrome 应用商店安装 搜索’牛牛查求职助手’ 或者直接访问项目地址 牛牛查求职助手

  • 51job1_640
  • boss1_640
  • niuqi1_640
  • pic_440

Posted in 浏览器插件.

Tagged with .


Trae 解锁2025代码战绩

可以在编辑器上方解锁战绩报告。 也就日常使用,怎么就超99%用户了。。。

  • scrnli_9a8ogcohIG3QTj
  • scrnli_y7fe9p0Bkg324Z
  • trae-annual-2025_proc

Posted in AI.

Tagged with .


安全公告 — CVE-2025-12914 BT宝塔面板

https://nvd.nist.gov/vuln/detail/CVE-2025-12914

NVD 已公開 aaPanel(BT宝塔面板)CVE-2025-12914 安全漏洞。此漏洞存在於/database?action=GetDatabaseAccess,可被遠端利用進行 SQL 注入攻擊,風險極高。

CVE-2025-12914 漏洞修复说明 一、漏洞概述

外部安全平台披露了与宝塔面板相关的CVE-2025-12914漏洞信息。 该漏洞出现在旧版本的数据库权限查询逻辑中,由于对输入参数校验不足,可能在特定条件下触发 SQL 注入风险。

该漏洞无法被未授权远程用户直接利用,需要满足较高的权限条件后才可能触发。 二、影响范围

面板版本

状态

≤ 11.2.x

受影响

11.3.0 起已修复,不受影响三、漏洞利用条件与风险说明

漏洞仅在攻击者已具备以下权限时可能被利用:

已登录宝塔面板后台(任意管理员账号) 或已获取宝塔面板 API AccessKey(等同后台权限) 在未授权访问的情况下,该漏洞无法触发,因此实际风险有限。

四、修复情况

该问题已在11.3.0中完成修复,包括:

将字符串拼接的 SQL 查询改为参数化查询

增强输入校验与异常处理

完整阻断该类型注入风险

五、修复内容说明(技术细节) 原始代码存在字符串拼接,例如:

users = mysql_obj.query(“select Host from mysql.user where User='”+ name +”‘ AND Host!=’localhost'”)

更新后,已改为参数化写法:

sql =”select Host from mysql.user where User=%s AND Host!=’localhost'”users = mysql_obj.query(sql, param=(name,))

此方式能确保用户输入不会被解释为 SQL 指令,从根源上避免注入。

六、致谢

感谢向我们提交漏洞信息的安全研究人员,对宝塔面板安全改进提供了宝贵帮助。

七、处理建议

建议所有用户升级至11.3.0 或更新版本。 如暂时无法升级,可采取:

限制面板访问来源 IP

启用双因素认证

检查面板 API 与 MySQL 日志

Posted in 安全通告.

Tagged with .


18日Google 推出 AI 编程工具:Antigravity,免费使用 Gemini 3 Pro, Claude Sonnet 4.5, GPT-OSS

Google Antigravity 是谷歌推出的一款全新的 AI 原生集成开发环境(IDE),其设计核心是“代理优先”,旨在让AI智能体承担更多开发工作,这是一款类似 Cursor、WindSuf 这样的 VS Code 换皮 AI 编程工具。

个人目前免费使用,需使用google账号登录,团队/企业计划还没出。 https://antigravity.google/pricing Public preview Individual plan $0/month Get started with your Google account.

Download checkAgent model: access to Gemini 3 Pro, Claude Sonnet 4.5, GPT-OSS checkUnlimited Tab completions checkUnlimited Command requests checkGenerous rate limits *

下载地址: https://antigravity.google/download windows版152m,支持 Windows、MacOS、Linux 多操作系统

注意:浏览器oauth登录回调时需要全局 、TUN模式、美国节点。

核心定位 面向“代理主导型”开发的AI原生IDE 核心功能 – 多智能体并行:可同时运行多个AI智能体,异步处理不同任务。

  • 可验证的工作流:通过生成任务清单、屏幕录像、浏览器截图等“Artifacts”来验证代码质量。
  • 直观的反馈机制:支持在截图、代码等成果上直接标注评论,实现无缝协作。
  • 浏览器控制:内置Chrome浏览器,AI可自动运行和测试代码。 可用性与生态 – 免费使用:目前已开启公共预览,可免费下载使用。
  • 多系统支持:支持 Windows、macOS 和 Linux。
  • 多模型支持:深度集成Gemini 3,同时支持 Claude Sonnet 和 OpenAI 等模型。

如何开始使用 如果你有兴趣尝试 Google Antigravity,可以参照以下步骤:

下载与安装 访问 Google Antigravity 的官方网站(antigravity.google),根据你的操作系统(Windows、macOS 或 Linux)下载对应的版本并进行安装。

启动与设置 安装完成后,使用你的谷歌账户登录。首次使用时,可以根据你的偏好配置初始设置,例如选择默认的AI模型。

探索界面与模式 Antigravity 主要提供两种工作视图:

编辑器视图:提供类似传统IDE的熟悉体验,适合同步与AI协同编码。

管理器视图:像一个“任务控制中心”,可以并行启动、协调和观察多个AI智能体 across 不同的工作区。

开始第一个项目 建议从一个小型项目开始,例如“构建一个航班查询 Web App”或创建一个简单的待办事项应用。你只需要向AI智能体给出高层次的任务描述,它便会自动制定计划并开始执行

Posted in AI.

Tagged with , , .


牛牛查求职助手chrome插件发布

牛牛查求职助手 Chrome扩展

一个帮助求职者识别公司类型和获取更多信息的Chrome浏览器扩展。

🌟 功能特性

  • 🏷️ 智能公司标签: 自动识别并标记诈骗、外包、培训等类型的公司
  • 🔍 一键查询: 快速查询公司信息(天眼查、企查查、爱企查等)
  • 📊 API数据拦截: 自动获取招聘网站的职位数据进行分析
  • ⚙️ 个性化设置: 支持自定义公司名单和功能开关
  • 🎯 多网站支持: 支持51job、BOSS直聘、牛企直聘网等主流招聘网站
  • 📅 职位时效性: 显示职位发布时间,帮助判断职位新鲜度

🌐 支持的网站

网站 域名 功能支持
前程无忧 we.51job.com ✅ 公司标签 + API拦截
BOSS直聘 www.zhipin.com ✅ 公司标签 + API拦截
牛企直聘网校招 campus.niuqizp.com ✅ 公司标签 + 链接解码

📋 公司类型标识

  • ⚠️ 诈骗公司: 红色标签,提醒用户注意安全
  • 🔄 外包公司: 橙色标签,提醒用户了解工作性质
  • 📚 培训公司: 蓝色标签,提醒用户注意是否为培训岗位
  • 🚨 自定义标签: 紫色标签,用户自定义的警告公司

🚀 快速开始

详细安装步骤请查看 INSTALL.md

📁 项目结构

chrome-extension/
├── manifest.json          # 扩展清单文件
├── background.js          # 后台服务脚本
├── content.js            # 内容脚本(主要功能)
├── inject.js             # API拦截脚本
├── config.js             # 统一配置文件
├── popup.html            # 扩展弹出界面
├── options.html          # 设置页面
├── styles.css            # 样式文件
└── icons/                # 扩展图标
└── lib/                  # 扩展依赖库

⚙️ 主要功能

1. 公司标签系统

  • 基于内置公司数据库自动标记
  • 支持模糊匹配公司名称
  • 显示匹配的关键词和详细信息

2. 快速查询功能

  • 一键跳转到天眼查、企查查等平台
  • 鼠标悬停显示查询选项菜单
  • 支持多个查询平台同时使用

3. API数据拦截

  • 自动拦截招聘网站的API请求
  • 获取更详细的职位信息
  • 提供更准确的数据分析

4. 个性化设置

  • 自定义公司黑名单
  • 功能开关控制
  • 调试模式支持

🔧 技术特性

  • Manifest V3: 使用最新的Chrome扩展标准
  • 模块化设计: 清晰的代码结构和配置分离
  • 性能优化: 智能的元素处理和内存管理
  • 错误处理: 完善的异常捕获和日志系统
  • 兼容性: 支持多个主流招聘网站

📝 使用说明

  1. 安装扩展: 按照INSTALL.md的步骤安装
  2. 访问招聘网站: 打开支持的招聘网站
  3. 查看标签: 自动显示的公司类型标签
  4. 快速查询: 点击”🔍 牛牛查公司”按钮
  5. 个性化设置: 点击扩展图标进行设置

🛠️ 开发与调试

调试模式

  1. 点击扩展图标打开设置
  2. 开启”调试模式”
  3. 打开浏览器开发者工具查看日志

测试功能

  • 在控制台运行 niuniuTestSettings() 查看当前设置
  • 运行 niuniuTestApiInterception() 测试API拦截

⚠️ 注意事项

  • 本扩展仅供参考,具体公司情况请自行核实
  • 公司标签基于公开信息整理,可能存在误判
  • 建议结合多种渠道了解公司真实情况
  • 请遵守各招聘网站的使用条款

🚀 安装方法

方法:Chrome 应用商店安装(推荐)

可以在Chrome 应用商店安装 搜索’牛牛查求职助手’ 或者直接访问项目地址 牛牛查求职助手

方法:开发者模式安装

  1. 下载扩展文件

  2. 打开Chrome扩展管理页面

    • 在Chrome地址栏输入:chrome://extensions/
    • 或者:菜单 → 更多工具 → 扩展程序
  3. 启用开发者模式

    • 在扩展管理页面右上角,开启”开发者模式”开关
  4. 加载扩展

    • 点击”加载已解压的扩展程序”按钮
    • 选择包含扩展文件的文件夹
    • 点击”选择文件夹”
  5. 验证安装

    • 扩展应该出现在扩展列表中
    • 浏览器工具栏会显示扩展图标

🔄 更新日志

v1.2.0 (当前版本)

  • ✅ 修复Boss API拦截问题
  • ✅ 优化错误处理机制
  • ✅ 清理调试和测试文件
  • ✅ 完善文档和安装指南

v1.1.0

  • 添加牛企直聘网支持
  • 优化API拦截机制
  • 增加自定义公司名单功能

v1.0.0

  • 初始版本发布
  • 支持51job和BOSS直聘
  • 基础公司标签功能

📄 许可证

本项目采用 MIT 许可证 – 查看 LICENSE 文件了解详情。

🤝 贡献

欢迎提交Issue和Pull Request来帮助改进这个项目!


免责声明: 本工具仅供求职参考,不构成任何投资或就业建议。用户应当独立判断和决策。

Posted in 浏览器插件.

Tagged with .


牛牛查求职助手发布1.3

feat:增加应届生求职网支持 feat:支持列表显示职位时间,详情页支持未登录时去除登录窗,去除职位详情的遮罩 fix:牛企直聘详情页,修正显示a链接的原标题

https://github.com/andychu46/niuniuchajobhunting/releases/tag/v1.3

Posted in 浏览器插件.

Tagged with .


篡改猴脚本,可以显示招聘网站职位首次发布时间的信息增强工具

🏷️ 牛牛查求职助手 牛牛查favicon

Version License Platform Support

智能招聘信息增强工具 – 让求职更安全、更高效

牛牛查favicon

📝 项目简介

牛牛查求职助手是一款专为求职者设计的浏览器油猴脚本,旨在为招聘网站提供强大的信息增强功能。通过智能识别和数据补充,帮助求职者更好地了解公司信息,识别潜在风险,提高求职成功率。

✨ 核心功能

🏷️ 公司标签系统

  • ⚠️ 诈骗公司识别 – 红色警告标签,自动识别已知诈骗公司
  • 🔄 外包公司标记 – 橙色提醒标签,帮助了解工作性质
  • 📚 培训机构识别 – 蓝色信息标签,识别培训转岗机构
  • 🚨 自定义标签 – 紫色标记,支持个性化公司标记

🔍 公司信息查询

  • 一键查询 – 快速跳转至天眼查、爱企查、企查查等平台
  • 多平台支持 – 集成百度搜索、工商信息查询等多个渠道
  • 便捷操作 – 鼠标悬停显示查询选项,点击直接跳转

📅 职位时间追踪

  • 首发时间显示 – 显示职位最初发布时间
  • 更新时间追踪 – 跟踪职位信息更新记录
  • 颜色编码 – 用不同颜色标识职位新鲜度
    • 🟢 7天内:新鲜职位
    • 🔵 14天内:较新职位
    • 🟡 2个月内:一般职位
    • 🔴 3个月内:较旧职位
    • ⚫ 3个月以上:过期职位

💼 职位详情增强

  • 学历要求显示 – 自动提取并显示学历要求
  • 工作经验标注 – 清晰展示经验要求
  • 职位描述预览 – 快速浏览职位详细信息

🔗 链接智能解码

  • 加密链接解码 – 自动解码Base64等加密链接
  • 真实地址显示 – 显示链接的真实目标地址
  • 安全访问 – 新窗口打开,保护主页面安全

🌍 支持平台

平台 支持状态 功能完整度
前程无忧 (51job.com) ✅ 完全支持 🌟🌟🌟🌟🌟
BOSS直聘 (zhipin.com) ✅ 完全支持 🌟🌟🌟🌟🌟
牛企直聘 (niuqizp.com) ✅ 完全支持 🌟🌟🌟🌟⭐

🚀 快速开始

安装步骤

  1. 安装篡改猴 (Tampermonkey) 篡改猴 (Tampermonkey) 是拥有 超过 1000 万用户 的最流行的浏览器扩展之一。 它适用于 Chrome、Microsoft Edge、Safari、Opera Next 和 Firefox。 有些人也会把篡改猴(Tampermonkey)称作油猴(Greasemonkey),尽管后者只是一款仅适用于 Firefox 浏览器的浏览器扩展程序。 以下站点可能需要施魔法

Chrome 上的 Tampermonkey
Chrome 上的 Tampermonkey

要使用用户脚本,您首先需要安装一个用户脚本管理器。您可以根据您自己当前使用的浏览器来选择一个用户脚本管理器。

桌面端

移动端(Android)

移动端(iOS)

  1. 安装脚本

    方式一:直接安装(推荐)

    点击:安装脚本

    方式二:手动安装

    1. 打开项目地址,复制文件内容 tampermonkey/牛牛查求职助手-招聘网站信息增强工具.user.js
    2. 在Tampermonkey中创建新脚本
    3. 粘贴代码并保存

    方式三:脚本站安装

    1. Tampermonkey官网
    2. Greasy Fork脚本站
    3. OpenUserJS脚本站
    4. 搜索”牛牛查求职助手”
    5. 粘贴代码并保存
  2. 开始使用

    • 访问支持的招聘网站
    • 脚本将自动运行并显示增强信息
    • 点击右下角的🏷️按钮查看功能介绍

使用说明

  1. 查看公司标签

    • 在职位列表中自动显示公司风险标签
    • 点击标签查看详细信息和风险说明
  2. 查询公司信息

    • 点击”🔍 牛牛查公司”按钮
    • 选择查询平台(天眼查、爱企查等)
    • 新窗口打开查询结果
  3. 查看职位时间

    • 职位信息区域显示发布和更新时间
    • 颜色编码帮助识别职位新鲜度

🛠️ 开发信息

技术栈

  • JavaScript – 核心脚本语言
  • Tampermonkey API – 浏览器扩展接口
  • CSS3 – 样式美化
  • DOM操作 – 页面元素增强

项目结构

niuniuchajobhunting/
├── tampermonkey/
│   └── icons/                                      # 图标
│   └── screenshot/                                 # 截图
│   └── 牛牛查求职助手-招聘网站信息增强工具.user.js    # 正式版本
│   └── README.md                                   # 项目说明
└── README.md                                       # 项目说明

核心配置

// 网站配置
const siteConfigs = {
  'we.51job.com': { /* 51job配置 */ },
  'www.zhipin.com': { /* BOSS直聘配置 */ },
  'campus.niuqizp.com': { /* 牛企直聘配置 */ }
};

// 公司标签数据库
const COMPANY_BLACKLISTS = {
  scam: { /* 诈骗公司名单 */ },
  outsourcing: { /* 外包公司名单 */ },
  training: { /* 培训机构名单 */ },
  custom: { /* 自定义标签 */ }
};

🔧 自定义配置

添加自定义公司标签

您可以编辑脚本中的COMPANY_BLACKLISTS对象来添加自定义公司标签:

// 在custom分类中添加需要标记的公司
custom: {
    name: '自定义',
    emoji: '🚨',
    color: '#9C27B0',
    companies: [
        '您要标记的公司名称1',
        '您要标记的公司名称2',
        // 更多公司...
    ]
}

修改查询服务

可以自定义公司查询服务:

const QUERY_SERVICES = [
    { name: '🔍 百度', url: 'https://www.baidu.com/s?wd=' },
    { name: '👁️ 天眼查', url: 'https://www.tianyancha.com/search?key=' },
    // 添加更多查询服务...
];

📊 功能特点

🧠 智能识别

  • 模糊匹配算法 – 精准识别公司类型,避免漏检
  • 多维度匹配 – 支持公司全名、简称、关键词匹配
  • 动态更新 – 实时监听页面变化,自动更新信息

🎨 用户体验

  • 响应式设计 – 适配桌面和移动设备
  • 无侵入式 – 不影响原网站功能和布局
  • 性能优化 – 高效DOM操作,不影响页面加载速度

🔒 隐私安全

  • 本地处理 – 所有数据在本地处理,不上传个人信息
  • 开源透明 – 代码完全开源,保证安全可靠
  • 无广告 – 纯净工具,专注功能实现

📸 功能截图

51job职位列表截图 51job职位列表

boss职位列表截图 boss职位列表

boss职位列表

牛企直聘职位详情截图 牛企直聘职位详情

🤝 贡献指南

欢迎为项目做出贡献!您可以通过以下方式参与:

🐛 报告问题

  • Issues中报告Bug
  • 提供详细的复现步骤和环境信息
  • 附上错误截图或日志信息

💡 功能建议

  • 提交新功能建议和改进意见
  • 分享使用经验和优化建议
  • 建议支持新的招聘平台

📝 代码贡献

  1. Fork本项目
  2. 创建特性分支 (git checkout -b feature/AmazingFeature)
  3. 提交更改 (git commit -m 'Add some AmazingFeature')
  4. 推送到分支 (git push origin feature/AmazingFeature)
  5. 创建Pull Request

📋 公司名单更新

帮助我们完善公司黑名单数据库:

  • 提供诈骗公司信息
  • 更新外包公司名单
  • 补充培训机构信息

📄 许可证

本项目采用 MIT License 许可证。

💬 联系方式

🙏 致谢

感谢以下项目和服务:

  • Tampermonkey – 强大的用户脚本管理器
  • jQuery – 高效的JavaScript库
  • 各大招聘平台 – 为求职者提供服务平台
  • 所有贡献者和用户 – 让项目变得更好

⭐ Star History

如果这个项目对您有帮助,请考虑给项目一个Star ⭐,这是对我们最大的鼓励!


让求职更安全,让选择更明智!
牛牛查求职助手 – 您的智能求职伙伴

Posted in 技术, 浏览器插件.

Tagged with , , .


B站职位爬虫playwright使用指南

B站职位爬虫使用指南

1. 项目简介

这是一个基于 Playwright 的 B 站职位信息爬虫,能够自动化爬取 B 站官网发布的社会招聘和校园招聘职位信息,并将数据保存为 JSON 格式的文件。

项目地址

2. 技术栈与依赖

  • Python: 程序开发语言
  • Playwright: 浏览器自动化工具,用于模拟浏览器行为获取页面数据
  • 第三方库: time, random, json, datetime, argparse, re, os, sys, typing

3. 安装与配置

3.1 安装依赖

# 安装 Playwright
pip install playwright

# 安装 Playwright 浏览器驱动
playwright install

3.2 项目结构

├── bilibili/
│   ├── test_playwright.py  # 主程序文件
│   ├── data/               # 数据保存目录
│   └── howto_playwright.md            # 使用指南文档

4. 运行方式

程序支持通过命令行参数控制爬取行为,主要参数包括招聘类型、爬取间隔、代理设置、起始页和最大爬取页数等。

4.1 基本语法

python test_playwright.py [参数选项]

4.2 可用参数

参数 说明 示例
--type 招聘类型 (social=社会招聘, campus=校园招聘, all=全部) --type social
--sleep 页面爬取间隔(秒) --sleep 2.5
--proxy 代理服务器地址 --proxy http://127.0.0.1:7890
--start-page 起始页码 --start-page 3
--max-page 最大抓取页数 (0为不限制) --max-page 10 d

4.3 运行示例

爬取校园招聘职位

python test_playwright.py --type campus --sleep 1.5 --max-page 5

使用代理爬取社会招聘职位

python test_playwright.py --type social --proxy http://127.0.0.1:7890 --start-page 2

5. 程序运行流程

整个程序的运行流程可以分为以下几个主要阶段:

5.1 参数解析与初始化

  1. 解析命令行参数,确定爬取配置
  2. 初始化爬虫开始时间
  3. 根据招聘类型确定爬取的URL

5.2 浏览器初始化

程序通过 init_browser() 函数初始化 Playwright 和浏览器环境:

  1. 根据操作系统类型决定是否使用无头模式(Linux下默认无头,其他系统默认有界面)
  2. 启动 Chromium 浏览器,配置浏览器参数(禁用自动化控制检测、禁用扩展等)
  3. 创建浏览器上下文,设置随机 User-Agent
  4. 创建新的页面对象并设置超时时间

5.3 页面访问与数据获取

  1. 首次访问职位列表页面(带重试机制)
  2. 获取职位类型和工作地点等字典数据
  3. 解析页面,获取最大页码数
  4. 根据设置的起始页和最大爬取页数,开始循环爬取

5.4 职位信息提取

对于每一页的职位信息,程序执行以下步骤:

  1. 加载当前页职位列表
  2. 获取职位卡片列表
  3. 遍历每个职位卡片:
    • 提取列表页上的基本信息(职位标题、地点、类别、工作类型、发布日期)
    • 模拟点击职位标题,打开新窗口查看详情
    • 在详情页提取更详细的职位信息
    • 构建完整的职位数据字典
  4. 将当前页数据添加到总数据列表
  5. 定期保存数据(每收集50条),避免意外丢失

5.5 数据保存

程序使用 save_job_list_data() 函数将爬取的数据保存为 JSON 文件:

  1. 创建 data 目录(如果不存在)
  2. 生成包含时间戳的文件名
  3. 将职位数据列表保存为 JSON 格式

5.6 程序结束处理

  1. 关闭页面、浏览器上下文和浏览器
  2. 执行垃圾回收
  3. 生成并打印爬取报告(包括开始时间、总页数、爬取页数、收集职位总数、是否成功、完成时间等信息)

6. 数据结构

爬取的职位数据包含以下字段:

{
  "position_id": "职位ID",
  "position_title": "职位名称",
  "location": "工作地点",
  "category": "职位类别",
  "job_type": "工作类型",
  "post_date": "发布日期",
  "position_url": "职位详情页URL",
  "position_detail": {
    "position_id": "职位ID",
    "position_url": "职位详情页URL",
    "title": "职位名称",
    "location": "工作地点",
    "category": "职位类别",
    "job_type": "工作类型",
    "post_date": "发布日期",
    "position_content": "职位详情内容"
  },
  "crawl_time": "爬取时间"
}

7. 防反爬策略

程序包含多种防反爬策略:

  1. 随机 User-Agent:每次运行随机选择一个浏览器标识
  2. 随机爬取间隔:在指定的爬取间隔基础上随机波动
  3. 指数退避重试:请求失败时使用指数退避算法进行重试
  4. 模拟真人行为:点击操作前加入随机延迟
  5. 禁用自动化检测:配置浏览器参数,避免被网站检测为自动化工具

8. 常见问题与解决方案

8.1 浏览器启动失败

问题:程序无法启动浏览器,报初始化错误

解决方案

  • 确认 Playwright 已正确安装:playwright install
  • 检查系统权限,确保有足够权限启动浏览器
  • 对于 Linux 系统,可能需要安装额外的依赖库

8.2 页面加载超时

问题:页面加载超时,无法获取职位信息

解决方案

  • 增加 --sleep 参数值,延长爬取间隔
  • 使用 --proxy 参数设置代理,避免IP被限制
  • 检查网络连接是否稳定

8.3 职位数据为空

问题:爬取完成但数据为空

解决方案

  • 检查网站结构是否发生变化(可能需要更新选择器)
  • 确认爬取的URL是否正确
  • 尝试调整起始页和最大爬取页数参数

9. 代码优化建议

  1. 错误处理增强:可以增加更细粒度的错误处理,针对不同类型的错误采取不同的重试策略
  2. 并发爬取:考虑引入异步或多线程爬取,提高效率(注意控制并发数,避免触发反爬)
  3. 数据去重:增加数据去重机制,避免重复爬取相同的职位信息
  4. 定时任务:结合定时任务工具,实现定期自动爬取
  5. 日志系统:引入专业的日志系统替代 print,方便问题排查和监控

10. 注意事项

  1. 请遵守网站的 robots.txt 规则和使用条款
  2. 合理设置爬取频率,避免对网站服务器造成过大压力
  3. 爬虫仅供学习和研究使用,请勿用于非法用途
  4. 定期更新代码以适应网站结构的变化

通过本指南,您应该能够理解并成功运行 B 站职位爬虫程序。如有任何问题或建议,欢迎提交反馈。

Posted in 爬虫spider.

Tagged with , .


Linux 安装 Playwright

Playwright

Playwright是由Microsoft开发的现代化端到端(E2E)测试框架,支持Chromium、Firefox、WebKit等主流浏览器,并提供跨语言API(JavaScript/TypeScript、Python、Java、C#)。

它以速度快、稳定性高、异步支持著称,尤其适合复杂Web应用的自动化测试和爬虫开发。以下是从零开始的完整入门指南:

Playwright 官网

https://playwright.dev/

Playwright python 文档

https://playwright.dev/python/docs/intro

Playwright node.js 文档

https://playwright.dev/docs/intro

Playwright java 文档

https://playwright.dev/java/docs/intro

Playwright .NET 文档

https://playwright.dev/dotnet/docs/intro

Playwright 中文文档可以在以下地址找到:

https://playwright.nodejs.cn/

为什么选择Playwright?

Playwright是由微软开发的开源自动化测试工具,旨在提供跨浏览器的自动化测试支持。与Selenium等传统工具不同,Playwright不仅支持Chrome、Firefox和WebKit等主流浏览器,还提供了以下显著优势:

  • 跨浏览器支持:能够在多个浏览器(包括Chromium、Firefox和Safari)上进行自动化测试,确保软件在不同平台的兼容性。

  • 强大的功能支持:支持页面元素的动态交互、网络请求拦截、浏览器上下文模拟等高级功能,能够高效地模拟用户操作。

  • 快速执行:Playwright具有极高的执行速度,适用于需要快速反馈的自动化测试任务。

环境安装(以Python为例)

Playwright有Node.js、Python、C# 和 Java语言版本,本文介绍Python版本的Playwright使用方法。 Playwright的Python版本仓库地址:https://github.com/microsoft/playwright-python

安装Python(≥3.7)并验证: python –version # 需输出3.7+ 安装Playwright库: pip install playwright

或者使用镜像源安装

pip install playwright -i https://mirrors.aliyun.com/pypi/simple/

Downloading playwright-1.48.0-py3-none-manylinux1_x86_64.whl (38.2 MB)
   ━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━ 38.2/38.2 MB 8.7 MB/s eta 0:00:00
Downloading greenlet-3.1.1-cp38-cp38-manylinux_2_24_x86_64.manylinux_2_28_x86_64.whl (605 kB)
   ━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━ 606.0/606.0 kB 18.3 MB/s eta 0:00:00
Downloading pyee-12.0.0-py3-none-any.whl (14 kB)
Installing collected packages: pyee, greenlet, playwright
Successfully installed greenlet-3.1.1 playwright-1.48.0 pyee-12.0.0

指定版本安装

$ pip install playwright==1.48.0
$ python -m playwright install

安装浏览器内核(默认Chromium):

查看所有支持的浏览器:

playwright install --help

安装浏览器内核(windows 默认Chromium)

playwright install chromium # 可选firefox/webkit

Downloading Chromium 139.0.7258.5 (playwright build v1181) from https://cdn.playwright.dev/dbazure/download/playwright/builds/chromium/1181/chromium-win64.zip 

安装浏览器内核(linux下)

BEWARE: your OS is not officially supported by Playwright; downloading fallback build for ubuntu20.04-x64.
Downloading Chromium 130.0.6723.31 (playwright build v1140) from https://playwright.azureedge.net/builds/chromium/1140/chromium-linux.zip
164.5 MiB [====================] 100% 0.0s

在防火墙或代理后面安装

pip install playwright
HTTPS_PROXY=https://192.0.2.1 playwright install

Playwright默认安装路径

Playwright 将 Chromium、WebKit 和 Firefox 浏览器下载到操作系统特定的缓存文件夹中:

Windows 上的 %USERPROFILE%\AppData\Local\ms-playwright

macOS 上的 ~/Library/Caches/ms-playwright

Linux 上的 ~/.cache/ms-playwright

这些浏览器安装后将占用数百兆磁盘空间

使用环境变量设置安装路径.将浏览器下载到特定位置

pip install playwright
PLAYWRIGHT_BROWSERS_PATH=$HOME/pw-browsers python -m playwright install
编写python爬虫脚本,进行百度模拟搜索。

python_wright_baidu.py

#!/usr/bin/env python3
from playwright.sync_api import sync_playwright

with sync_playwright() as p:
    #for browser_type in [p.chromium, p.firefox, p.webkit]:
        #browser = browser_type.launch()
        #print(browser_type.name)

        browser = p.chromium.launch(headless=False)
        page = browser.new_page()
        #page.goto('http://playwright.dev')
        page.goto("https://www.baidu.com")
        print(page.title())
        print(page.url)
        #print(page.content())

        # 输入搜索词并提交
        page.locator("textarea#chat-textarea").fill("c1g军火库")
        page.locator("button#chat-submit-button").click()        
        #page.screenshot(path=f'example-{browser_type.name}.png')
        page.wait_for_timeout(1000)  # 简单等待(实际推荐用事件等待)
        results = page.locator("#content_left").all()
        for item in results:
            print(item.inner_text())        
        browser.close()

使用drissionpage可以参考 Linux 安装drissionpage 和chrome

Posted in 爬虫spider.

Tagged with .


OpenAI、Anthropic 禁止中国控股公司使用 Claude,AI 领域地缘政治博弈升级

2025 年 9 月 5 日,美国知名大模型公司 Anthropic 发布《更新对不受支持地区的销售限制》公告,宣布禁止多数股权由中国资本持有的集团或其子公司使用 Claude 等 AI 服务,无论公司运营地点在哪。这是美国 AI 公司首次出台此类政策,背后涉及复杂的多方面因素,对全球 AI 产业格局影响深远。

政策核心内容:Anthropic 新政策规定,只要公司直接或间接被中国公司持股超过 50%,就无法再使用 Claude 服务。这一限制不仅针对中国大陆企业,还涵盖其在全球各地的子公司,包括通过云服务间接接入的情况也被禁止。除中国外,俄罗斯、伊朗、朝鲜等被美国视为 “对手国家” 的实体也受此政策约束,直接客户和通过云服务访问的团体同样受到影响 。

官方给出的限制原因:Anthropic 声称,做出这一决策主要基于法律、监管和安全风险的考虑。他们认为中国控股公司可能因所在地区法律要求,被迫共享数据、配合情报机构,从而带来国家安全风险。此外,还担心这些公司利用 Claude 的能力开发服务,服务于对抗性军事和情报机构,以及通过技术手段推进自身 AI 研发,与美国及盟国的科技公司在全球市场竞争,威胁美国在 AI 领域的优势地位。

对不同主体的影响

  • 个人开发者:目前个人账号理论上还能使用,但未来存在被限制的风险。随着政策进一步收紧,个人获取先进 AI 工具的难度可能加大。
  • 企业团队:国内公司此前通过境外子公司间接使用 Claude 的途径被彻底切断。这意味着相关企业需要寻找替代方案,如转向 OpenAI、Google Gemini 或国内大模型,增加了企业的技术转型成本和业务调整压力。
  • 行业生态:许多基于 Claude 二次开发的 SaaS 和 AI 应用,不得不改变技术路线。这可能促使行业加速技术替代和创新,推动国内 AI 技术的发展,但短期内会造成行业内的动荡和资源重新配置。

政策背后的地缘政治因素:这一政策与美国整体对华科技政策一致,是大国博弈在 AI 领域的直接体现。AI 技术已成为国家竞争的重要筹码,美国试图通过限制技术输出,维护自身在 AI 领域的主导权,确保 AI 发展符合美国的战略利益和价值观 。 行业未来发展趋势:此次事件标志着全球 AI 工具 “地缘政治化” 加剧,未来可能形成明显的 “两套生态”,即美国主导的模型和中国的模型,两者互不兼容、各自发展。这将促使各国更加重视自主研发,加大在 AI 领域的投入,推动全球 AI 技术在不同体系下独立发展,减少国际间的技术交流与合作。

以下为 Anthropic 公告全文:

Anthropic 的服务条款禁止相似某些地区使用我们的服务,原因包括法律、监管及安全风险。然而,来自这些受限地区的公司(包括像中国),仍以各种方式访问我们的服务,例如通过在其他国家注册的子公司。

这些地区的公司面临法律要求,这些要求可能迫使它们共享数据、配合情报机构,或采取其他可能带来国家安全风险的行为。无论这些公司运营的地点或个人偏好如何,这些要求都会使其很难抵抗这些压力。当这些实体通过子公司访问我们的服务时,它们可能利用我们的能力开发最终为对抗性军事和情报机构及更广泛威权目标服务的应用和服务。同时,它们也可能通过蒸馏等技术利用我们的模型推进自身的 AI 开发,并与总部位于美国及盟国的可信科技公司展开全球竞争。

为了应对这一现实,并更好地与我们确保变革性 AI 能力服务于民主利益的承诺保持一致,我们正在加强区域限制。此次更新禁止那些所有权结构使其受限于我们产品不允许的司法管辖区(如中国)控制的公司或组织使用我们的服务,无论它们实际运营地点在哪里。这包括那些直接或间接由不受支持地区的公司持股超过 50% 的实体。这一变更确保我们的服务条款反映现实风险,并忠实于我们政策的精神。

基于这一考量,我们继续倡导相关政策,例如:严格的出口管制;加快在美国本土的能源项目建设,以支撑大规模 AI 基础设施的建设;以及严格评估 AI 模型的国家安全相关能力,包括可能被美国对手利用的能力。

AI 发展的安全性和保障需要集体承诺,防止对手滥用其能力。负责任的 AI 公司可以且应该采取果断行动,确保变革性技术服务于美国及盟国的战略利益,并支持我们的民主价值观。

来源:https://www.anthropic.com/news/updating-restrictions-of-sales-to-unsupported-regions

Posted in AI.

Tagged with , , .